邏輯思維：擁有智慧思考的工具(理查德·尼斯貝特)_第11章實驗經濟學

你是否發現，汽車銷售員給女人提出的報價比給男人提供的報價要高？

教室的大小會影響學習嗎？

復合維生素是否對你的健康有好處？

一位僱主是否會對長期失業的人抱有偏見，只是因為他們自己曾長期失業？

絕經後的女性是否應該接受激素替代療法以減少患心血管疾病的概率？

針對上述的每個問題都有許多不同答案。有些答案基於錯誤的方法論而產生的錯誤研究結論。有些答案則正確無疑，那是因為採取了準確的科學方法。

本章將會展示3個理解科學發現和如何證實其真偽的重要方面。

1.那些依靠來自科學事實的相關性研究很少會產生錯誤——即使那種相關性來自於非常複雜的「控制」了多項變量的分析——「多元回歸分析」。

2.那些對比某兩種療法（或其他事物）的實驗，如果人（或其他實驗對像）是隨機分配的，通常比基於多元回歸分析的研究更有說服力。

3.因為涉及人類行為的假設通常會出差錯，因此有必要在任何可能情況下進行實驗以驗證那些有關重要行為的假設。

多元回歸分析

本章開頭的所有問題都是在問一些自變量或預測變量（一個輸入值或是一個推斷的原因）是否影響了一些因變量或結果變量（一個輸出值或一個效果）。實驗能控制自變量；而相關性分析只能測量自變量。

一個可用於相關性分析的工具是多元回歸分析，在這個分析中，多元自變量彼此間同時具有聯繫（或者是有序列上的聯繫，當然這裡我們不探討多元回歸分析的多樣性），並且與因變量之間也具有聯繫[1]。相關的預測變量和其他被當作控制變量的自變量一起被檢驗。檢驗的目的是為了證明變量A影響了變量B，而除A之外的其他任何變量都不會產生這種效果。這就是說，A與B兩者之間的關係會始終存在，即便那些控制變量對因變量的效果也被考慮在內。

來看下面這個例子。吸煙和較高的心血管疾病發病率有關。人們會傾向於認為吸煙引發了心血管疾病。問題在於還有大量其他事物與這二者皆有聯繫，例如年齡、社會階層、肥胖。年邁的吸煙者比年輕吸煙者吸煙年頭久，因此我們需要把年齡因素排除在吸煙與患病的關係之外。否則，我們就會認為是年紀大和吸煙這兩項因素與患心血管疾病有關。這樣就合併了兩個變量。我們只想知道吸煙和患心血管疾病之間的關係，這個人究竟有多大年紀我們並不關心。我們需要「控制」年齡的影響，把年齡-患病的關係剔除出吸煙-患病的關係。這樣我們就可以說，實際上，吸煙和患心血管疾病間的關聯在各個年齡層都能看到。

對於社會階層這個因素來說，以上邏輯同樣有效。在其他因素相同的前提下，一個人所處的社會階層越低，他吸煙的可能性越大；一個人所處的社會階層越低，則他患心血管疾病的風險越高，同時這不受其他風險因素支配，比如吸煙。對於肥胖這個因素也是同理。這些同吸煙和患心血管疾病的概率都有關聯的變量需要剔除出去，這樣才能看到吸煙和患心血管疾病之間的真正聯繫。

多元回歸分析背後的原理是，如果你控制了一切與自變量和因變量都有關係的因素，將它們從交錯的混合影響中抽離，那麼你就能得到預測變量與結果變量之間真正的因果關係。實際上，會有許多因素妨礙這一理想分析狀態實現。

首先，我們如何能確定我們辨認出了所有可能的混淆變量——那些與自變量與因變量皆有關的變量？我們幾乎不可能宣稱認清了所有變量。我們只能測量那些我們認為可能重要的變量，並且不考慮無窮多的我們認為不重要的變量。然而「假設可能是錯的」隨時存在。因此這場戰役通常會輸掉。

其次，我們如何正確地測量每個可能的混淆變量？如果我們對一個變量測量得不準確，那麼我們對它的控制就達不到要求。如果我們對一個變量測量得太糟糕以至沒有任何效度，那麼我們就無法控制任何變量。

有時候，對於測量一些有趣和重要的問題，多元回歸分析是唯一可用的研究工具。比如說，宗教信仰和實踐是否與較高或較低的生育率有關。我們無法進行一個實驗來檢驗這個問題，無法隨機分配人們去信仰什麼或是不信仰什麼。我們只能利用像多元回歸分析這樣的檢驗相關性的方法。實際上，宗教因素和生育率是有關聯的，不論是在個人層面上，還是在國家和文化層面上。將收入、年齡、健康狀況等個人因素控制起來，將所屬族群這個因素控制起來，將國家這個因素控制住，那麼宗教信仰越深，則生育率越高。然而，可能只是因為我們不知道，宗教信仰和生育率之間的因果聯繫可能並不存在，實際上是有未知的第三變量對兩者皆有影響。因果關係甚至有可能體現在相反方向上：有了太多的孩子可能會讓人們去尋求宗教支持和指引！不過，相關性的發現很有意思，知道這些便可能得出一些真實世界中的推論。

我很清楚，並不是所有相關性研究或者多元回歸分析都是沒有價值的。我自己經常使用多元回歸分析法，即使是在我用實驗探索因果關係的時候。如果我知道有一種特定的事物間的關聯存在於生活中，而不只是存在於實驗室中或是某種非典型的生態環境中時，我會十分開心。

另外，我們總能聰明地讓我們確認自己發現了一些因果關係。國家的富裕和國民的智商水平之間的聯繫，這裡的因果聯繫是怎樣的？這種聯繫本身充滿爭議。很多事情都和二者皆有關聯，比如身體健康。「健康，富裕和睿智」並不僅僅是種表述，這三者之間關聯極深，而其中又涉及許多潛在的因果變量。並且，國富與民智之間的因果聯繫可以從兩個方向上來看。如果國民更聰明，那國家也更富有，這是因為有更多先進和複雜的方式可以採用，讓生活變得更加容易。如果一個國家更富裕，那它的國民更聰明，因為財富通常可以提升教育質量。

但是，有時候我們也會看到一種被稱作「滯後相關」的因果關係，即一個自變量（假定的原因）與另一個變量（假定的結果）的關係會在一段時間之後體現。例如，如果一個人因為教育水平提高而變得更聰明，那麼他在將來的某個時候會更富有嗎？的確會更富有。幾十年前，愛爾蘭在提升其教育體繫上獲得了綜合性的高度成功，尤其是成功提高了高中、職業學校和大學的教學水平。大學入學率在較短時間內就提升了50%。經過30年的發展，那個曾經國民智商測驗得分遠低於英國的愛爾蘭（據英國的一些心理學家稱，這是基因導致的）的人均國內生產總值竟然超出了英國。芬蘭同樣從幾十年前開始努力，顯著提升了國民的受教育水平。芬蘭主要的關注點在於保證那些最貧窮的孩子也能獲得和最富有的孩子一樣的受教育機會。到2010年，芬蘭人在國際學術成就測驗中取得的成績超過其他任何國家的人，其個人平均收入取得了極大增長，一舉超過日本和英國，緊隨美國居次。那些在近些年中沒有在教育提升方面取得長足進展的國家則在國民人均收入上有所跌落，比如美國。這樣的數據之間仍存在相關性，而它們表明當一個國家開始打破其教育方面的困局時，它就會變得更富裕。當一個國家在教育方面停滯不前時，與其他保持進步的國家相比，它會失去其財富。這一點相當有說服力。

許多其他情境也可以極大地提升相關性研究的說服力，使其幾乎可以與自然實驗，甚至是與隨機控制實驗的說服力相比肩。例如，純粹對於效果的度量有時候會讓我們感到這肯定不僅僅是人為控制的，而是存在相關變量。我們有時候也會對一種情況表現出確信無疑的態度，即如果效果是有「劑量依賴性」的，那麼產生這種效果的特定治療方法便是真實的。換句話說，使用某種治療方法的頻率越高，則效果顯示得越明顯。比如，那些一天抽兩包煙的人比一天吸一包煙的人更有可能在心血管方面出現問題。這更容易讓人們相信，吸煙真的會讓心血管的健康狀況惡化，而其實單純的吸煙數量與發病率並無關聯。

然而，因為多元回歸分析常被採用，所以關於它確實存在一些嚴重的問題。我必須要明確指出這些問題，因為媒體總在持續報道基於錯誤方法而得出的研究結論，而一些重要的政府決策就是基於這些報道而來。流行病學家、疾病研究者、社會學家、心理學家和經濟學家都會用到多元回歸的工具。它會引發嚴重的錯誤，而這種方法的擁護者宣告他們發現了所謂的因果關係其實是虛假的。

在許多情況下，多元回歸分析向人們揭示了某種因果關係，而真正的隨機控制實驗給出了另外的結論。在這種情形下，我們應當相信實驗的結果。

你會認為一個班級中孩子的數量對孩子們的學習成績有影響嗎？看上去似乎是有影響的。然而，有許多備受尊敬的調查學者進行的大量多元回歸分析告訴我們，去除學區裡的孩子所在家庭的平均收入、學校規模、孩子在智商測驗中的表現、城市規模和地理位置這些因素，班級的學生數量與學生的成績並沒有關聯。推論是：我們現在知道了並不需要浪費錢縮小班級的規模。

然而，田納西州的科學家針對班級規模進行了一次隨機實驗。通過擲硬幣，研究者將幼兒園三個年級的孩子隨機分配在小班（13~17人）或大班（22~25人）中。這個研究發現小班中的孩子在標準化考試中的成績提高了0.22個標準差；而且少數族裔孩子的成績提升效果比白人孩子更明顯。另外還有三個關於縮小班級規模對孩子成績影響的實驗，這些實驗的結果幾乎都和田納西州的實驗相同。這四個實驗並不只是關於班級規模和學生成績關係的附加實驗。它們替代了所有有關班級規模的多元回歸分析。這是因為對於這類問題，我們會更信賴實驗的結果。

為什麼通過多元回歸分析會得出班級規模不重要的結論呢？我也不知道。但是，我們也不必非要知道一個有關班級規模是否重要的強力觀點。

當然，這四個實驗也留下了許多懸而未決的問題。我們並不知道對於一個國家的不同地區、城市化程度不同的地域、不同的社會階層而言，班級的規模是否重要。我們不知道那些產生了不同教學效果的班級究竟發生了什麼。這些問題的答案可以通過進一步實驗來尋找。而對於每個應用不同於現在已有方式來檢驗不同人群的實驗來說，如果有了積極發現，那麼我們會更加確信規模大的班級更有利於學生提升成績。

縮小班級規模是否是進行教育投資的最佳著力點則是另一個問題，尋找這個問題的答案需要的成本不低。芬蘭並沒有特別的小型班級，最終教學水平提高更多地是因為向教師支付了更高的薪酬，並且主要從大學班級最優秀的學生中挑選教師，就像美國現在做的一樣。不過，無論在什麼情況下，一個國家都不可能只根據一個X因素給Y因素帶來了有益影響就制定出一個政策。在政策出台過程中，還是需要完備的成本–收益分析的。

那些基於多元回歸分析或相似分析方法的相關性研究所存在的問題是，它們明顯會受到自我選擇的錯誤影響。各類樣本——人、班級或農田——有著千百種不同。長期吸煙者並不只是吸煙的時間久，他們還會被各種與吸煙有關的因素影響，比如更大的年齡、更低的社會階層和肥胖。A班的教室比B班的大，然而可能仍然存在一些研究者無法控制的其他變量。A班可能有一位更好的老師，這是因為校長認為可以管理好大班的老師更優秀。B班的學生可能有更好的學業成績，即便它比A班的學生多，因為校長認為更多有能力的學生在一起會不易受到外界因素干擾。這樣看來，並不能通過簡單地增加教室或控制變量來解決問題。

在那些樣本是在實驗情境下隨機分配的研究中，教室存在的多樣性在其他層面上也會存在。然而，重要的是，實驗中是由研究者選定具體條件的。這意味著，平均而言，實驗教室和控制教室有著同樣好的老師，同樣有能力和積極主動的學生，同樣的資源。這些教室並不是自己「選擇」了它們所屬的水平，而是研究者選定的。那這兩類教室唯一的區別就在於相關變量了，即班級的規模。那麼，像這樣基於班級規模的實驗便不會得出確定性的結論。教師和管理者在此不是雙盲的。他們知道每個班級的規模，這可能會影響他們的教學方式，包括他們對工作投入多大的精力。這就是那些涉及自我選擇的問題中的缺陷。

醫學亂象

你是否知道攝入大量橄欖油可以讓你中風的概率下降41%？你是否知道如果你患上了白內障並對其進行手術，則在未來15年中你的死亡率會比未進行手術的人低40%？你知道耳聾會導致癡呆嗎？你知道懷疑他人會導致癡呆嗎？

如果你對上述說法感到懷疑，那是很自然的。然而，這類所謂的發現不斷出現在媒體的報道中。它們通常是基於流行病學研究而得出的結果。（流行病學是針對患病群體類型和病因的研究。）大量的流行病學研究都是依賴多元回歸分析而進行的。流行病學家們通過多元回歸分析「控制」諸如社會階層、年齡和病人曾經的健康狀況等因素。可是，他們無法避免自我選擇帶來的問題。有條件採取特定治療方法的只是一類人，能消費大量特定食品的只是一類人，能攝取特定維生素的也只是一類人。這些人跟沒有條件做這些事的人有著諸多不同。

讓我們來看那項聲稱攝入更多橄欖油能降低中風概率的研究，在此研究中剔除的控制因素包括「社會經濟背景、體育運動、身高體重指數、中風的風險因素」。那些「頻繁」攝入橄欖油的人比從不食用橄欖油的人中風的概率降低了41%。然而，可能並不是攝入橄欖油本身這件事降低了中風概率，而是某種和消費橄欖油相關的事造成的影響。比如說，種族的原因。意大利裔美國人是消費橄欖油的一大群體，而非洲裔美國人則幾乎不會消費橄欖油。意大利裔美國人的預期壽命比黑人要長得多，而黑人則剛好更容易中風。

在流行病學研究中最大的潛在「搗亂分子」通常是社會階層。如果不是其他大多數醫學方面的原因的話，階層應該是最明顯的造成不同人群中風概率不同的因素了。富人和我們不同。他們有更多的錢。更有錢的人便能消費得起橄欖油，而不是玉米油。更有錢的人會有條件進行更廣泛的閱讀，與他人交流閱讀體會，從而相信橄欖油比其他油類更健康。更有錢的人能享受更好的醫療服務。更有錢的人——那些處於更高社會階層的人，無論是通過教育水平、個人收入，還是職業聲望來衡量都會享有更好的生活。

在流行病學研究中控制不了社會階層因素而帶來一個後果是無法找到一種特定疾病的病因。假設研究者嘗試控制社會階層變量，那麼該如何操作呢？有些人使用的收入指標，有些人用的教育水平，有些人用的職業聲望。哪一種最好？還是說你最好把三者結合起來？真實的研究中其實會使用其中一種，或者都用，或者另擇其他變量。這樣做的結果就是媒體上各種「醫學發現」讓你感到混亂迷茫。（油脂對你無益。不，油脂有益。紅肉好。不，紅肉不好。抗組胺劑可以有效減輕一般感冒。不，抗組胺劑沒什麼用。）產生這些不同的結論就是因為研究者採取了不同的方法去定義社會階層，或者甚至是根本沒有考慮這個因素。

然而，社會階層只是大量潛藏於多元回歸分析研究中的干擾因素之一。幾乎所有在此類研究中與預測變量和結果變量都相關的因素最終都能用來解釋那兩個變量的關聯。

在市場中，有上千種食品補充劑。多元回歸分析研究有時能發現某一種補充劑對另一種有益。媒體繼而就向公眾傳達了相關信息。不幸的是，一般讀者通常無法判斷究竟是否應該對一個基於多元回歸分析的特定研究給予較多關注，或者一個真正的實驗是否能夠傳達應當予以注意的重要信息。信息的傳達者，即便是那些專業的保健信息傳達者，通常也無法完全理解兩種研究方法之間的重要區別。

有眾多事例可以表明多元回歸分析研究發現的是一件事，而實驗發現的是另一件事。例如，多元回歸分析研究表明攝入維生素E補充劑可以降低患上前列腺癌的概率，而科學家們在全美多地進行了一項針對維生素E補充劑的隨機實驗表明，攝入維生素E補充劑竟然讓人們患此癌的概率提升了一點點。

維生素E不是唯一存疑的補充劑。有大量實驗研究表明，攝入復合維生素——這是一半美國人都在做的事——沒有明顯益處，甚至大量服用某種維生素實際上會給人帶來傷害。現在幾乎沒有什麼證據可以證明市面上除了維生素E之外的其他5萬多種食品補充劑的作用。我們得到的大多關於特定補充劑的證據都證明它們並沒有用，有些還有害。糟糕的是，在補充劑生產者的遊說下，國會讓那些補充劑得到聯邦規章的豁免，這些生產者不必通過實驗證明那些補充劑的實際效用。結果便是，每年人們在這些無用甚至會傷人的「萬靈藥」上浪費數十億美元。

在只能用實驗解決問題時誤用多元回歸分析

一個人待業的時間越久，他再找到工作的難度越大。在本書寫作之時，美國短期（14周或者更短）待業的人數只比歷史上「大蕭條」時期之前的人數稍微少一點。但是，長期待業的人數比那時高200倍。一些僱主是否對長期待業者抱有偏見呢？有些人根本不被考慮，是否僅僅因為他們長期待業呢？多元回歸分析並不能告訴我們，在其他條件一致的情況下，僱主們是否會對長期待業者表現出不公正。長期待業者可能有糟糕的就業記錄，或者對找工作一事表現得怠惰，又或者對其所做的工作極其挑剔。政客們在「大蕭條」時期總會以這些陳詞濫調作為說辭，然而你依然不能利用多元回歸分析來證明這些解釋是否正確。即使控制再多的變量也無法避免自我選擇的影響，你無法辨別是否存在聘任偏見。

唯有實驗方能回答此問題。經濟學家蘭德·加亞德和威廉·狄更斯向600個開放職位投了4800份虛構的申請資料。在申請的其他條件都一樣的情況下，那些短期失業的虛擬申請人獲得面試的機會比長期失業者多兩倍。實際上，這些短期失業者並不比那些長期失業者更符合崗位要求。

有些問題的確只能借助實驗，而一些科學家始終感覺通過多元回歸分析才能更好地解答。

許多實驗研究表明，非洲裔的美國人在申請工作時會遇到下述情形，在兩個申請人其他條件都相同的情況下，如果申請人的名字聽上去像是黑人（比如D』Andre或Lakaisha），則其獲得面試機會的可能性比名字不像黑人（比如Donald或Linda）的人低。名字聽著像白人的申請人獲得的面試機會比名字聽著像黑人的人多50%。有一個聽著像白人的名字在找工作中獲得的好處幾乎等於8年的工作經驗。德高望重的經濟學家羅蘭·弗萊爾和史蒂文·萊維特對黑人姓名是否真正導致了更低的經濟產出感到懷疑，於是他們利用多元回歸分析檢驗聽著像黑人的名字和各種經濟產出之間的關係。他們研究的人群是出生於加利福尼亞州的非西班牙裔黑人女性，她們在成年後依然在加州工作生活。因變量不是找工作的成功率，收入或是職業聲望，而是評定生活狀況的一些間接指標，比如不同區域的女人的平均收入，以及她們是否有私人健康保險。研究者聲稱他們使用的變量是「衡量她的當前工作質量的最佳指標」。（對於研究者而言的確是最好的，不過這真的是一個對於職業成就所進行的相當粗糙的評定。）

弗萊爾和萊維特發現，名字聽著像黑人的女人在代表職業成功的指標上表現得遠不及名字聽著像白人的女人，正如我們基於實驗所做出的預測。然而，當他們控制了以下變量例如這個女人出生的醫院裡黑人嬰兒的出生率、她出生的鎮裡黑人嬰兒的出生率、她的媽媽是否生於加利福尼亞州、她的媽媽生育她的年齡、爸爸當時的年齡、孕期長度、她是否生於一家鎮醫院、她出生時的體重、她自己生的小孩數量、她是否是單親媽媽……兩位學者發現名字的類型和職業成就之間的關係消失了。

兩位學者注意到了這種分析存在的問題。他們承認「這種實證研究方法的明顯缺陷是如果有關於某個女人的未被觀察到的變量與生活質量和她的名字本身都有關聯，那麼我們的評定將會存在偏差」。的確如此。

然而，兩位學者進一步研究發現，在控制了其他因素的情況下，某個女人的名字聽起來像黑人的程度如何和生活質量之間並無關聯。「我們發現……在控制了一個女人出生時的相關狀況變量後，有一個明顯的黑人名字和之後的生活質量之間沒有負面關聯。」當然，還有大量的變量可以用來公正地檢驗這個結論，其中有許多是比弗萊爾和萊維特所用的變量更有效的指標。（當有相當大數量的變量被檢驗時，其中的許多都會與因變量有更強的聯繫，而且這種聯繫的強烈程度超過了變量與最根本的相關性之間的聯繫，結論因此也就不可靠了。）

弗萊爾和萊維特兩人暗示，父母在給孩子起一個聽著像是黑人的名字時，並不會擔心這在未來可能會對孩子的職業生涯帶來什麼負面影響。而從實驗研究的角度來看，沒有負面影響幾乎是不可能的。

凱瑟琳·米爾克曼和她的同事最近所做的一項研究表明，一個聽著像是黑人的名字會成為一個人申請入讀研究生院的明顯障礙。許多教授每週都會收到一封由一個信心十足的學生發來的請求面試、尋求科研機會的郵件。研究表明，如果這個學生的名字聽著像是白人，那他得到面試機會的可能性要多12%。這種差異會對研究生入學帶來明顯的影響。是否能獲得研究生院導師的青睞並得到第一次面試機會深深影響著申請人未來的職業生涯。

為什麼弗萊爾和萊維特情願相信多元回歸分析研究比實驗研究更有效且準確呢？我猜想這可能源於法國人所謂的「專業誤信」（deformation professionelle），即傾向於採用同專業的人都使用的工具和觀點。對於經濟學家進行的大多數類型的研究而言，多元回歸分析都是唯一可用的工具。經濟學家們並不能控制美聯儲設置的利率水平。如果你想瞭解在「大蕭條」時期究竟是緊縮還是刺激性的財政政策能幫助國家經濟走出困局，你可以將經濟緊縮的程度與經濟恢復的程度相聯繫，然而你無法做到將不同國家隨機分配到那種緊縮的境況下。

經濟學家們在專業訓練中學到，多元回歸分析是研究的主要統計工具。然而，沒有人教給他們一種本應當具有的對於多元回歸分析的批判性態度。萊維特在與記者史蒂芬·都伯納合著的一本書中提到一項基於美國教育部數據的分析，即幼兒教育縱向研究。他們測量了一些學生從幼兒園到五年級的學術成就，同時還輔以其他變量，如父母收入和受教育水平、作為研究對象的孩子家中有多少書籍、這些孩子閱讀了多少、他們是否是被收養的等。萊維特基於這種多元回歸分析得出了一系列變量和學術成就之間的關係。他總結，在剝離了許多變量的（包括家中的藏書量）影響之後，「讀書並未影響孩子在幼年時期的考試分數」。多元回歸分析並不能簡單地告訴我們，讀書對孩子的智力發展不重要。只有通過實驗才能驗證這件事。萊維特還做過一項額外的研究，在剝離了許多變量（包括父母為孩子讀書）的影響之後，家中的藏書情況對於考試分數有重要影響。因此，家中藏書多會讓孩子更聰明，但是為他們讀這些書並沒有效果。萊維特對於多元回歸分析的執著信念讓他堅持嘗試在這類事情上找出因果聯繫。

萊維特犯得更重要的一個錯誤是，家庭環境對於孩子的智力發展有相對較小的影響。他得出此結論的研究是基於一些被收養的孩子展開的。「研究表明，一個孩子的學術能力更多地受到其生身父母的智商水平影響，而非養父母。」然而，這種關聯是基於錯誤的數據得出的。我們需要看由自然實驗得出的結果，即把被收養的孩子和由親生父母撫養的孩子進行對比，請注意，親生父母往往處於低得多的社會經濟地位。通常情況下，由養父母創造出的成長環境在很多方面都遠強於親生父母所能給予的環境。實際上，那些被收養的孩子的學業表現得分要比其未被收養的兄弟姐妹高出半個標準差，而前者的智商水平測試得分也要比後者高出一個標準差。養父母所處的社會階層越高（即平均下來能提供的智力環境更好），被收養的孩子的智商水平測試成績越好。家庭環境對於智商水平的影響事實上是相當大的。

在萊維特為自己所做的辯解中，他沒有給出自己關於收養環境影響的錯誤結論。在近幾十年中，行為科學家和遺傳學家常會用相關性數據做研究，從而得到一些關於環境對於智力水平影響力的錯誤結論。

有一些知名經濟學家似乎一點兒也沒意識到實驗的重要價值。經濟學家傑弗裡·薩克斯在非洲的一部分村落中推廣了一個極有野心的項目，涉及健康、農業和教育等方面，旨在提升人們的生活質量。這個項目花費巨大，因此被其他發展專家嚴厲批評。

儘管薩克斯項目中的一些村子的居民的生活條件得到了改善，但那些沒有得到薩克斯幫助的相似非洲村落似乎改善了更多。如果薩克斯能採取隨機實驗，便能反駁那些批評，即讓相似的村莊分別用他的方法和放任自流，而最終證明他的項目的確效果更好。然而，薩克斯拒絕進行實驗，認為其中涉及「道德原因」。當這些項目可行時，對其進行實驗是不道德的。薩克斯花費了不少別人的錢，然而我們並不知道那些錢是否有效改善了人們的生活，並且比那些花費較少的項目要好。

不過，已經有越來越多的經濟學家開始採用社會心理學的研究方法，進行隨機控制實驗。最近的一個例子是由經濟學家塞德希爾·穆萊納森和心理學家埃爾達爾·沙菲爾進行的一系列令人印象深刻的實驗，結果表明缺乏資源會給每個人的認知功能帶來不良後果，無論是農民還是企業的首席執行官都無法避免。如果你讓人們去想像，如果他們突然需要拿出幾千美元的預算去修理汽車，然後再讓他們進行智商水平測試，你會發現貧窮者的得分大幅下降。同時，那些收入不錯的人的得分則不會因為這個思想實驗而受影響。（如果是只花費幾百美元的修車場景則對貧窮者和富人都沒有影響。）

經濟學家拉吉·切迪是推動經濟學家們採取自然實驗的方式檢驗經濟學假設的領導者。從長遠來看，教師素質真的重要嗎？我們可以通過實驗來探究這個問題，讓一位高水平的教師和一位資質較平庸的教師來帶某一個班級，看看這個班級學生的平均成績如何，即兩位教師輪流帶班（高水平的教師或者資質平庸的教師先帶班皆可）之後的成績變化情況。例如，某一所學校每一屆的三年級學生可能都會得到差不多的平均成績，直到有一位優秀的老師到來之後學生們的成績就提高了（先前的老師離開可能是因為身體原因）。如果在這位優秀的老師在職期間，學生們的成績得到了很大提升並維持下去，我們便可以看到學生們相應的學術成就的提升，大學入學率的提高和工作後收入的增長。所有這些由教師的好資質對所有變量帶來的影響都是顯著的。這樣的研究近似於實驗，因為我們可以把新教師任職前學生們的表現情況大體上看作控制組。問題在於老師們佈置作業的情況不是隨機的，但是當老師們能實現佈置作業完全是偶然條件時，這就是一個相當完美的自然實驗了。

經濟學家進行的一些重要的干預教育過程的實驗是由羅蘭·弗萊爾設計實施的。他進行了許多極有價值的教育實驗，證明了許多猜想，比如經濟激勵對於少數族裔學生的學術成就的影響特別小。經濟激勵對教師的表現也影響較小，除非是出於損失厭惡的考慮，即在學年初給教師們經濟激勵，並告訴他們如果學生的成績沒有提高，那麼就將收回這項激勵。這個發現也恰好證明了我們在第5章中所討論的，潛在損失的效果要大於潛在收益。弗萊爾同樣也為哈萊姆兒童區實驗做出了貢獻，參與這個項目的非裔美國孩子在學術成就上獲得了較大提升。

固執的心理學家

恐怕現在我不得不承認，心理學家也像其他行為科學家一樣要對自己誤用多元回歸分析而感到慚愧。

我們經常可以看到下面一些所謂的發現。那些可以從公司獲得充足產假福利的員工比沒有這種福利的員工對工作的滿意度更高。這種關聯可以由多元回歸分析來支持，研究表明更好的休假制度會讓員工對其工作更滿意，而這種關聯甚至在「控制」了公司規模、員工薪酬、同事的滿意度、直接上級的受歡迎程度等變量之後，仍然是成立的。然而，這種分析存在三個問題。第一，研究中測量的變量是有限的，如果對其中一個或多個變量的測量不準確，或者存在某個未被測量的變量並且其和休產假制度與員工的滿意度都有關聯，那麼它可能會成為解釋休產假制度與員工滿意度關聯的變量。第二，單獨把休產假從員工對於公司的整體體驗中剝離出來分析實際上沒有任何意義。在這一方面表現得慷慨的公司可能在其他各方面都有積極的表現。從一個公司複雜的系統中抽出一個方面來分析，並「控制」住極為有限的幾個相關變量，可能並不能保證我們不犯錯誤。第三，這種分析很有可能讓我們陷入第3章中討論過的成見效應的陷阱。那些喜歡自己工作的人會發現公司的衛生間更乾淨，同事們的儀表更好，每天通勤的過程不會枯燥。愛是盲目的，在愛中思考有時候並不是那麼有效。

如果將這些問題放在人格研究中來看，可能會更容易明白。從一個人身上挑出一個性格特點，並假定這一點和他的其他特徵聯繫不大，這是沒有什麼意義的。心理學家經常會談諸如此類的發現，比如「在控制了外向性格、自我控制的變量和抑鬱傾向等變量後，自尊會和學術表現有關聯」。然而，低自尊和其他負面性格特徵，比如抑鬱，通常都會被發現是有關聯的：當你心情低落時，你會看輕自己；當你認為自己不夠好時，你的情緒會更低落。將自尊看作一個變量，單獨分析它與抑鬱的關聯，這是武斷的。這樣的關聯並不可信，因為很多人會說，「我簡直糟透了，我實在是抑鬱，都看不到前路在哪裡」，或者說「我再也不會快樂起來了，我真是太愚蠢了」。這些都是可能的，然而這類句子形成的循環結構反映了一個事實，那便是自尊和抑鬱往往纏繞在一起。它們是相關的，不可能被割裂開來。

我的許多心理學家朋友可能要對我堅持的原則感到鬱悶了：下面的情況都不能以多元回歸分析來解釋——在控制了抑鬱這個變量後，去看學術成就是否受到自尊的影響；在控制了神經敏感度這個變量後，兄弟會成員的受歡迎程度是否受到外向性格的影響；在控制了年齡、受教育程度、社交活動的頻率和其他一些變量之後，一個人每天接受擁抱的次數是否能預測其對傳染病的抵抗力。由自然聯繫起來的那些東西，多元回歸分析是不能將其分割的。

沒有相關性不意味著沒有因果

有相關性並不能證明存在因果關係。然而，相關性研究存在的問題比這一點更糟糕。沒有相關性不能證明就不存在因果關係——這樣的錯誤和反過來的錯誤，人們都會經常犯。

多元化的訓練項目是否提升了女性和少數族裔職員的聘任率呢？我們就這一問題對美國700個組織機構的人力資源經理進行訪問，詢問其組織是否有多元化訓練項目，並且查看了美國平等就業機會委員會的相關檔案，以確認這些組織的多元化聘任情況。結果是，公司具有多元化訓練項目和「在管理層中有白人女性、黑人女性、黑人男性」這一點並無關聯。研究者因此認為，多元化訓練並不會影響對少數群體的聘任情況。

但是，且慢。是否有多元化訓練項目這件事本身，便是一個自我選擇變量。一些公司雖然聘任了推行多元化計劃的訓練師，但公司本身對於聘任女性和少數族裔的人員就沒有太大興趣，甚至還不如另一些積極尋找其他方式增加聘任多樣性的公司。實際上，這些公司可能只是應用這種項目來掩蓋其真正的招聘意圖。有些沒有開展多元化培訓的公司反倒可能在聘任女性和少數族裔上成效卓著，它們會利用諸如強制多元化一類的方式來實現，就像美國軍隊做的那樣，成功提升了少數族裔在上級軍官那裡得到的評級。要證明多元化訓練是否有效需要進行隨機實驗。我們需要警惕一種結論，即A與B之間不相關，因而A不可能是B發生的原因。

歧視：看統計數據還是在會議室裝上竊聽器？

儘管我們在討論有關歧視的問題，但你不可能通過統計學的方法證明哪個組織或是社會中有歧視現象。你可能經常讀到一些新聞，比如女性在特定領域中遇到「玻璃天花板」，一些學校有意限制男生或少數族裔的比例。這些都在暗示我們——不，就是直接控訴，有歧視現象存在。然而數字本身是無法解釋整個故事的。我們不知道有多少女性和男性一樣，有成為律師事務所合夥人或是公司高管的資質和渴望。我們有充分理由相信女孩和男孩在一些違反學校規定的行為上不會有相同的表現。

就在不久之前，人們還是經常會把研究生院和教員中女性比例低歸咎於歧視。的確，是有歧視存在。我曾和負責招收女性進入研究生院和教師隊伍中的人私下裡聊過。「還是要這個男人吧；女人們太容易中途放棄學業了。」這種私密的聊天能夠證明一些簡單的數據（比如招收人員的男女比例）無法證明的事情。

然而，現如今，研究生院中60%的學生是女性，她們還是法學院、醫學院以及人文學科、社會科學和生物科學專業的主要組成部分。在我任教的密歇根大學，有2/3的助理教授為女性（這和男性拿到終身教職的比例是相同的）。

那麼這些統計數據能證明存在對男人的歧視嗎？不能。而且我也可以向你保證那些私密的聊天不能支持這樣的觀點，至少在我的學校裡不能。相反，我們經常面臨的境況是，在有意識放鬆對於男性錄取條件的情況下（或許我們會在潛意識下做這樣的事），我們還是招收了更高比例的女性。

即便是有這樣的研究生教育統計數據，一些人仍堅持聲稱在物理科學領域存在對女性的歧視。在我最近閱讀的一本書中，作者就宣稱女人被物理學「排除在外」。除了純粹的統計數據之外，並沒有其他證據，這樣的斷言可謂不公正。

然而，我們並不能依靠在會議室外監聽來證明存在歧視。實驗可以幫助我們。汽車推銷員會向女性和少數族裔給出比白人男性更高的汽車價格嗎？分別向一個白人男性，一位女性和一個少數族裔的成員推銷一輛家用汽車，然後看看他們分別會聽到什麼價位。研究表明白人男性確實被告知了最低的價格。

外表好看的人會在生活中交到更多好運嗎？許多研究都證明事實如此。在一份犯罪記錄文檔上貼上一張事主的照片，然後讓本科生來「審定」應該給予什麼樣的處罰。如果那個犯錯的孩子好看，人們就會認為他將來會成為一個好公民，並建議給他相對較輕的處罰。如果那個孩子長相丑，那麼人們會建議給予重罰。

「生活是不公平的。」約翰·肯尼迪如是說。實驗是一種最佳工具，它能夠幫助我們分辨這個世界對不同人群的不公平程度究竟有多深。

小結

多元回歸分析檢驗的是自變量和因變量之間的關係，當然在檢驗時會控制自變量和其他變量的關聯，以及因變量和其他變量的關聯。這種方法能告訴我們因果關係的情況，前提是所有可能的變量都被辨識且測量了，在信度和效度上都達到標準。實際上，這樣的情況很難碰到。

多元回歸分析中存在的根本缺陷在於自我選擇，這在其他所有相關性研究方法中都存在。研究者不能為每一個主體（或樣本）選擇自變量值。這意味著有許多和自變量相關的變量都會牽涉其中。在大多數情況下，我們不能辨別出所有這些變量。在行為學研究中，可以確定的是，我們完全不能保證分辨出所有看似合理的相關變量。

儘管存在上述問題，多元回歸分析其實還是有不少用途的。有時候，想要控制自變量是不可能的。你不能改變一個人的年齡。即便是我們做了實驗，多元回歸分析也能讓我們對自然狀態中存在的被實驗證明了的關聯有更強的信心。多元回歸分析一般要比實驗花費更低，它可以幫我們辨識出一些關聯，然後我們可以通過實驗去證實。

當一個完備的實驗告訴你某些事物間的特定關聯，而多元回歸分析卻告訴你了另一種結果時，你應該選擇相信實驗結果。當然了，糟糕的實驗能告訴你的不比多元回歸分析多，但這不常發生。

多元回歸分析存在的另一個基本問題是，它總是假定自變量是建成大廈的磚石，而且在邏輯上認為每個變量都可以獨立拿出來解釋結果。然而事實並非如此，至少對於行為學研究的數據而言就不是這樣。自尊和抑鬱是內在相互聯繫的。認為其中一個變量會獨立地對因變量產生影響是完全武斷的。

就像相關性不能證明因果關係一樣，沒有相關性也不能證明就不存在因果聯繫。當使用多元回歸分析方法時，可能會出現假陰性結果，就像出現假陽性結果一樣，這是因為我們沒能分辨出隱藏的因果關係網。

[1]「回歸」這個術語在這裡略顯令人困惑，因為在檢驗一組自變量與因變量之間的關係時，「向均值回歸」的概念似乎是完全不適用的。針對不同的目的而使用同一詞語是因為卡爾·皮爾遜率先用這種方法檢驗一些變量的相關自變量之間的關係（有一種檢驗相關性的工具就是以發明者皮爾遜命名的）。父親身高和兒子身高的相關性常常會呈現出一種向均值回歸的狀態。通常高個的父親可能會有較矮的兒子，個矮的父親反而通常會有較高的兒子。一種相關性是有關兩個變量關係的一種簡單的回歸分析。多元回歸分析是檢驗一組變量中的每兩個變量之間的關係。

第11章 實驗經濟學