邏輯思維：擁有智慧思考的工具(理查德·尼斯貝特)_第8章錯誤的「關聯」

若想準確描述事物，統計學是十分有效的，有時甚至是必要的工具。在確定兩個事物是否存在一定關聯時，統計學同樣重要。正如你所猜想的那樣，確定一種關聯是否存在甚至比準確描述事物更困難。

你需要分別正確描述類型1和類型2，然後分析類型1伴隨類型2出現的概率是怎樣的，反之亦然。如果是連續變量，分析就會更複雜。我們需要辨別類型1中的較大樣本值是否與類型2中的較大樣本值存在關聯。當我們對關聯性進行抽像描述時，很有可能在評估變量的關聯程度高低時出現大問題。事實上，我們在探索共變（或相關性）時的確出現了嚴重的問題，我們估計的結果可能會大錯特錯。

虛假相關

以一種系統性的方法搜集數據，隨後對其進行計算以得出兩個變量之間的相關性究竟有多強，這是十分重要的，無須贅言。只要生活在這個世界上，感知周圍的事物，我們就很容易無可救藥地對兩件事進行錯誤聯繫。虛假相關是我們面對的一種實實在在的風險。

如果你認為兩個變量看上去存在正相關關係（有更多的A，便有更多的B），那麼你的這種因果式的視角就很可能讓你確信自己是正確的。這種情況不僅經常發生在兩個變量其實並沒有正相關關係的時候，甚至會發生在兩個變量實際上呈負相關關係的時候。注意並記住那些可以支持你的假設的例子，而忽視那些反駁你的假設的例子是確認偏誤的又一個例證。

相反，如果一種聯繫看起來不太可信，你甚至都不會去想存在這種聯繫，哪怕那種聯繫實際上很強。心理學家曾經把鴿子放入一個帶有自動投食器的裝置中，在地板上則有一個能夠亮起來的圓盤。如果圓盤亮了，而鴿子並沒有啄食，則投食器就會投出一粒食物。如果鴿子去啄食了，投食器則不會投出食物。一隻鴿子會在它明白「不在亮起來的圓盤上啄食就會有食物」之前就餓死了。鴿子們沒有發現那種看似合理的聯繫，即不去啄食可能會得到食物。

人其實也像鴿子一樣，很難在分析事情時克服自身的一些預設或成見。

臨床心理學家利用羅夏墨跡測驗來對病人進行測驗，觀察病人說出其看到墨跡後聯想到的東西，再將這些反應進行符號化的記錄。一張卡片上可能記錄了一個病人：第一，在墨跡中看到了生殖器的形狀；第二，有性適應方面的問題。在分析了整個測試後，心理學家很可能會報告說，那些在墨跡中看到了生殖器形狀的病人會有性適應方面的問題，即便是相應的數據很難表明這類病人其實較少會有性適應的問題。出現這種情況只是因為性適應的問題看上去太有可能和看到生殖器的情形相互關聯了，那種正相關的論斷明顯地擺在了我們眼前。

你告訴心理學家們，他們錯了，那一系列實驗表明看到生殖器形狀和有性適應問題之間呈負相關關係，即看見生殖器形狀的病人實際上更少有性適應的問題；那些心理學家可能會嘲笑你，並告訴你，在他們的臨床實驗中，有性適應問題的病人就是那些更可能在羅夏墨跡測驗中看到生殖器形狀的人。不，不是這樣的。當你去搜集真正的病人數據時，你會發現兩者並無聯繫。

實際上，沒有哪種對羅夏墨跡卡片的反應可以告訴你有關一個人的任何信息。在我們花費了成千上萬個小時和上百萬美元在這種測試上之前，甚至都沒有人認真思考人們的反應和其病狀之間是否真的存在聯繫。在接下來的幾十年中，那種虛假的聯繫被建立起來並不斷地被檢驗，其實浪費了我們大量的時間和金錢。

我無意批評這些心理學家和精神病學家。本科生也在犯和這些臨床醫生們同樣的錯誤，利用羅夏墨跡測驗進行虛假關聯，比如將看到生殖器形狀同性問題相聯繫，看到外觀滑稽的眼睛便與偏執狂相聯繫，看到武器便同敵意相聯繫。

這些發現都表明，如果一個人（或是其他生物體）準備好看到一種特定聯繫，那麼這種聯繫就極有可能被看到，即便事後證明它根本不存在。如果你潛意識中不想看到這種聯繫，那麼就可能看不到，即便它的確存在。貓會學著把一根線從一個盒子中拉出來，但它們不會學到舔拭自身會讓它們從盒子中出來。如果揚聲器的聲響從右邊發出，狗會向右走而非向左走去獲取食物。然而，當高聲代表食物在右邊而低聲代表食物在左邊時，狗就很難明白到底該去哪邊取食。這更可能是因為空間線索與空間事件有關，而非聲音線索與空間事件有關。

我們的老朋友「典型性啟發法」促生了無數的「有準備的聯繫」。生殖器總是讓人聯想到性，眼睛總是代表著懷疑，武器與敵意相關。「可觸及性啟發法」同樣容易讓我們產生「有準備的聯繫」。電影和卡通片總是在表示懷疑的場景中展現那些滑稽的眼睛（瞇起來的或骨碌碌轉動的等）。

如果一個人既不期待也不牴觸看到一種關聯，那麼會發生什麼呢？

比如說，如果一個人聽到一群人先說了他們名字的首字母，再唱出了一個音符，接著他被問到，那個字母在字母表中的位置和音符的音長是否有關聯，此時這個人會怎樣作答呢？

在人們確切地察覺之前，這種武斷組合起來的事件之間的聯繫性會有多高呢？

結果是，這兩者之間的相關性達到了0.6，比第140頁圖中的0.5的相關性高出了一點兒。這是當數據突然間出現在人們面前，而人們盡其所能分析事件聯繫的結果。在實際生活中，這意味著你不能輕信兩個變量之間有關聯，除非那種聯繫非常強——比我們日常遇到的大多數真實存在的聯繫都強。你需要進行系統地分析以得到正確的結果：觀察、記錄、計算，否則你就會陷入虛假的陷阱。

一個例外

對於上述規則有一個重要的例外，那便是共變現象是很難被準確認識的。當兩個事件——甚至是那些被武斷聯繫起來的事件——在相隔很近的時間點發生時，共變是很容易被注意到的。假如你打開了一盞燈，就在這一瞬間之後一隻老鼠被電了一下，那麼老鼠就會很快明白燈和電擊之間的聯繫。然而，即使是對於這種極富戲劇性的事件，人們也會因為間隔時間拉長而無法有效認識其中的關聯。如果超出了幾分鐘的時限，那麼動物，以及人類，都無法發現那種武斷配對的事件之間的聯繫。

信度和效度

許多年前，我的一個朋友和他太太想生一個孩子。經過好幾年的努力都沒有成功，他們不得不去找生育專家尋求幫助。情況不容樂觀。我的朋友的精子數量「太低以至於無法通過正常方式讓妻子受孕」。我的朋友問醫生，檢查的可信度有多高。醫生說：「噢，結果十分可信。」醫生的意思是：這個檢查不會出錯——它提供給你了真分數。他使用了「可信」這個詞作為表示準確度的一個術語。

信度表示，採用同一個變量或同一類變量對同一對像重複測量時所得結果的一致程度。

以高度作為測量指標的信度（在不同情境下的關聯度）幾乎為1。在幾周時間內分別進行的針對智商的測驗的信度大約為0.9。通過兩種不同類型的測驗來檢測智商通常表現出的信度都會高於0.8。兩位牙醫在信度低於0.8的時候會在一顆牙齒的鈣化程度這件事上達成一致。這意味著有可能會偶爾出現史密斯醫生要為你補牙而瓊斯醫生會讓你放任自流的情況。這樣看來，任何一位牙醫做出的診斷不會與其在不同場合的判斷完全相關。瓊斯醫生還可能會在週五時為你補牙，而在週二時不採取任何措施。

精子數量的信度是怎樣的呢？任何一種針對精子數量的測試的信度都比較低，因此你在不同測試中得到相同結果的可能性也較低。同時採取不同方式檢測精子數量可能得出完全不同的結果。

效度通常也是通過相關性來測量的。效度表明測量結果在多大程度上是研究者希望得到的結果。智商測試在表明小學生的課業分數和智商得分之間的聯繫程度時有重要的效度，大約是0.5。（實際上，正是希望能預測學生們在課業上的表現，在20世紀初法國心理學家阿爾弗雷德·比奈才創製出了第一份智商測驗量表。）

有一點極其重要的準則需要注意，即如果沒有信度，就不存在效度。如果一個人對某個變量的判斷是不一致的（比如，一個人對變量A在某個場合的判斷與其對變量A在另一個場合的判斷不存在任何相關性），那麼這個人的判斷就沒有效度，意思是，這個人的這些判斷不能有效預測出變量B的情況。

如果用於測量一個給定變量的測試X和測試Y的結果沒有達成一致，而且並非意外情況，那麼這些測試中最多有一種具有效度。但是，在沒有效度的情況下也可能有很高的信度。兩個人可能對他們的每一個共同朋友的外向性格都有極其一致的評價，但是這兩個人都未能準確預測這些朋友在不同場合會在多大程度上表現出外向性格（可以通過一些客觀的外向性標準，比如健談程度或是心理學家設計的量表）。

筆跡分析據說能夠測量出誠實度、勤奮程度、進取心、樂觀精神和其他一些品性。的確，任何兩份筆跡分析報告都可能在相當程度上達成一致（高信度），但是它們都不能預測任何與個性有關的實際行為（沒有效度）。（當然，筆跡分析在一些情況下會十分有用，例如在對一些中樞神經系統疾病進行醫學診斷的時候。）

統計性思維的關鍵：編碼

下面我要提一些問題，看看讀者對於一些成對的變量之間的相關性有什麼樣的想法。具體而言，我會問你，假定在一個情景中A比B更關鍵，那麼在另一個情景中A比B更關鍵的可能性有多大。通過數學公式，你以概率術語給出的答案可以被轉換成相關係數。

如果對於下述任何一個問題，你說「50%」，那意味著你認為一個場景中的行為與另一個場景中的行為之間沒有任何聯繫。如果你說「90%」，那你是說兩個場景中的行為之間有著極強的聯繫。下面的第一個問題是有關拼寫能力的。如果你認為某人在一個場景中表現出的拼寫能力與在另一個場景中的表現無關，那麼你會說「50%」。如果你認為兩者之間有著極強的聯繫，你可能會說「90%」。請做出保證：針對以下的每一個問題寫下你的答案，或者至少將你的答案大聲說出來。

1.如果卡洛斯在四年級第一個月末的拼寫測驗中的得分高於克萊格，那麼卡洛斯在第三個月末的測試中仍取得較高分數的概率有多大？

2.如果朱麗亞在籃球賽季中的前20場比賽裡都拿到了比詹妮弗多的分數，那麼朱麗亞在接下來的20場比賽中仍拿到較高分數的概率有多大？

3.如果比爾在你第一次遇到他的時候表現得要比鮑勃友好，那麼你第二次遇到他時他仍表現得更友好的概率有多大？

4.如果在你眼中，巴布在前20次情形下比貝斯表現得更誠實（是否公平付賬，在玩棋盤遊戲時是否作弊，是否誠實告知在班級中的分數等），那麼在之後的20次場景中巴布仍表現得更誠實的概率有多大？

下表的數據表現了你剛才針對每個問題做出的相關性係數和對應的估計百分比。

從估計百分比到相關係數的轉換

這裡的數據基於我之前做過的研究。我已經瞭解了人在兩種場合下表現出的拼寫能力之間的關係，20次拼寫考試平均分數與另20次測試的平均分數間的相關性，某個人在不同場合表現出友好的感覺之間的聯繫，在20個場合中表現出友好的平均狀況與另外20個場合的平均狀況的相關性，等等。

我確定你給出的答案符合下列的套路。

1.你的答案表明，你認為在籃球賽中，球員在20場比賽中的表現與另外20場中的表現高度相關，這種相關度高於一場拼寫測驗分數與另一場拼寫測驗分數之間的聯繫。

2.你的答案表明，你認為在兩個場合中表現出的友好程度高度相關，不過這種相關和20個場合中的誠實度與另外20個場合中的誠實度之間的相關性同樣高。

3.你的答案還表明，人的品性在不同場景中表現出的一致性要高於能力上的一致性。

以上描述是從我和齊瓦·孔達所做的實驗中的大學生參與者那裡得來的。

請看下圖中的數據，你可以發現人們對於反映了能力（從拼寫測試和籃球比賽中得到的平均數據）的行為的推測更接近事實。人在兩個不同場合中的行為（拼寫或是在籃球比賽中得分）有一定相關性，大致是0.5。人們推測出來的關於那種關聯的重要性在金錢問題上也成立。

人們基於能力測驗（拼寫和打籃球）和品性測試（友好和誠實）得出的少量數據和大量數據而做出的相關性推測。

人們同樣認識到了大數定律對相關性的重要影響。如果你看一下許多行為的綜合得分情況，並將分數與另一些行為的得分情況相聯繫，則相關性會更高。人們意識不到一系列行為的相關性究竟有多高，但是能明白可以從前20次行為推斷隨後的20次行為，且這種推斷的可靠性比從一次行為推斷另一次行為要高。

對比一下推測與能力有關的行為的準確性和推測與品性有關的行為的不準確性。人們認為人在不同場合中表現出誠實的相關性與不同情境中表現出友好態度的相關性都達到了0.8的係數！這其實是極其錯誤的。不同場合中人表現出的某種品性間的相關係數通常是0.1或更低，幾乎不會超過0.3。這裡所犯的錯誤是很嚴重的，而整個推理過程都充滿了日常生活中的謬誤（前述章節都討論過）。我們以為自己通過觀察人們在某個單一情境中的行為就能洞察其品性。犯這種錯誤的部分原因是基本歸因謬誤，我們也沒能認識到大數定律同樣也適用於對人所具有的品性的分析。我們總以為能從很小的樣本中得到許多信息，一方面是因為我們傾向於低估場景中的環境因素，另一方面是因為我們以為憑借一種情況就能得到充分的證據以推斷另一種情況，即使兩者大相逕庭。此外，我們還忽視了不斷增加的樣本量對整體情況的影響。如果你基於相當數量的場景觀察某個人與品性相關的行為，並將其在20個場景中的總體表現與在另外20個場景中的總體表現對比，則的確會有很高的相關性。問題在於，人們誤以為這種針對品性行為的大數定律對於小樣本量的行為也成立。

為什麼在以單一場景測量能力和品性時所得到的結果的準確性有如此大的差異呢？為什麼人們認識到了大數定律在準確測量能力相關行為的重要性，卻一再無視其在準確測量品性相關行為的關鍵作用呢？

秘密在於編碼。對於許多種能力我們都知道可以用什麼單位來衡量，並且能為它們賦值：拼寫正確單詞的比例；罰球的命中率。然而，評判友好的合適單位是什麼呢？每分鐘微笑的次數嗎？每次社交過程中「友好氛圍」出現的次數嗎？我們如何比較人們在週六晚上的派對上表達友好的方式與其在週一下午的委員會會議上釋放善意的方式？人們在不同情境下的行為方式是如此不同，以至在A場合中表現友好的方式並不能作為B場合中表現友好的標誌。而找出場合A中所有表現友好的標誌同樣很困難，甚至是不可能的。即使能窮盡所有可能，那我們也無法將A場合中這數量眾多的標誌與同樣多如牛毛的B場合中的標誌做比較。

那麼，如何才能正確推測與品性相關的行為呢？我們不必找到所謂正確的測量品性行為的單位，也不必窮盡所有表現品性的方式。心理學家通過研究來解決，而如果我們要做這種測量，那麼不必對某一個人提及具體原因，否則他們會覺得我們瘋了。（「我要為喬希在開會時以微笑表示友好的行為打18分，這是通過他嘴角上揚的次數乘以每次上揚的弧度得出的。你到底是在做什麼？」）

最有效地避免對某個人的行為做出錯誤推斷的方式是提醒自己，只有當兩個場合的情境完全一致時，才可以憑借這個人在其中一個場合的行為推斷他在另一個場合中的行為。即便這樣做，你在進行推測時還是要格外小心。

還有一點或許能幫助你，即你要記住，自己在各種情境下並非總能保持一致。我敢保證，在某些場合見到你的人會認為你特別好，而在另一些場合見到你的人則覺得你簡直糟透了。並且你也不能責備那些批評你的人，因為他們一定是有依據的。只要記住批評你的人自身也會既受好評又遭抨擊。你不太可能在下一個遇見此人的情境（可能與現在這個情境迥異）中以同樣的方式再現自己的人格特質。

更通俗一點兒講，你要能夠知道什麼能編碼，而什麼不能。如果你發現遇到的問題中的事件或行為無法即刻進行編碼或賦值，那麼就試著找一種途徑來編碼。做這些事純粹是為了提醒你一個事實，即人容易高估事件或行為的一致性。

關於本章和下一章所講述的主題，我能告訴你的最好的消息是，儘管我只教了你們在幾個很小的領域中運用統計性思維，但是以我多年的研究經驗，我可以保證這些少量的例子就足以幫你在相當多的情境（可能看上去和我舉的例子不太相似）下進行理性思考，以統計性思維分析問題。

當我教授人們大數定律以解決那些可以通過統計工具進行分析的問題（例如彩票問題、投硬幣）時，他們解決那些只會偶爾想到用統計思維解決的問題（例如可以客觀數據衡量的能力）的能力提升了。他們解決那些幾乎不會用統計思維解決的問題（例如衡量品性）的能力也提升了。而我教授那些可以客觀計分的能力的例子和那些更主觀、更難計分的例子時也收到了同樣的效果。教授人們某類問題的推理方法可以幫助他們提升在另一類問題上的推理能力。

小結

準確評估事物間的關係是極難之事。即便我們已經搜集好了數據，並進行了全面的總結，也很有可能對共變的程度做出錯誤估計。確認偏誤就極易出現：如果一些A導致B，那麼我們很可能會認為A與B有關聯。然而要判斷A與B之間是否真正存在關聯，需要利用四重表比較兩種比例。

當我們試圖評斷一些我們沒有先驗概念的事物的相關性時，我們會對那些本無聯繫或被武斷地聯繫在一起的事件的相關性做出錯誤估計，認為其關聯一定很強。我們對於共變的觀察能力在那些相隔較長時間發生的事件上表現得很糟糕。

我們很容易受虛假相關影響。當我們評判兩個看上去可能有聯繫的事件的相關性，或說我們期待發現兩者間的正相關關係時，我們可能會相信一種實際上並不存在的聯繫。當事件之間的聯繫不那麼可信時，即使實際上存在強相關，我們也可能看不到那種關聯。更糟糕的是，我們會顛倒事實，將正相關認作負相關，反之亦然。

典型性啟發法潛藏在我們的許多關於相關性認識的先驗假設中。如果A在某種程度上與B相似，我們就可能看到兩者間的關聯。可觸及性啟發法也會發生作用。如果那些A與B有關聯的場景更容易被我們記住，那麼我們就會高估兩者之間聯繫的緊密程度。

相關性並不能建立起因果聯繫，但如果存在一種貌似可信的原因解釋了A導致B，那麼我們很容易推測那種相關性的確建立起了因果聯繫。A與B之間存在相關性可能是由於A引發了B，或B引發了A，或是第三種因素引發了A和B。我們常常忽略這其中的多種可能性。這裡的一部分原因是，我們無法認識到用因果關係的術語「解釋」相關性是多麼容易。

信度是指一個樣本在不同情境中或是以不同方式測量時得分相同的程度。效度是指一個測量工具能夠準確測出所需測量的事物的程度。對於某一給定的測量工具，其可能具有完美的信度，卻沒有效度。兩位佔星師在「雙魚座的人比雙子座的人更外向」這個問題上的認可度一致，然而這種說法顯然沒有效度。

一件事情越是能夠通過編碼來分析，我們對其的相關性分析就越準確。對於那些易於編碼的事情，比如一些以能力高低而決定之事，我們對於兩個場景的相關性分析就會十分準確。我們還認識到當分析一些與能力有關的事情時，綜合許多場景的平均狀況推測另一些場景的平均狀況是更好的選擇，這比從單一場景推斷另一單一場景要更可信。即便是對於與能力有關的行為，我們還是沒能充分意識到，從單一場景推斷升級成從多個場景的平均狀況推斷能提高預測的準確性。我們推斷一些難以編碼的事件（例如與人的品性相關）之間存在強相關性，而實際上那種關聯並不存在。我們也比較少或是沒有意識到，基於大量觀察的預測的準確性要高於單一觀察。

當我們從人們過去的（與品性相關的）行為預測其未來的此類行為時，我們需要格外當心和謹慎，除非我們搜集的樣本規模足夠大且我們得到了多種情境下的事實。意識到有一些特定類型的行為是難以編碼的，可以讓我們保持警惕，即我們對這類行為的推斷很可能有誤。時刻以基本歸因謬誤的概念警示我們自身，我們便能意識到可能會犯籠統概括的錯誤。

第8章 錯誤的「關聯」

相關性

相關性並不能建立起因果聯繫

虛假相關

一個例外

信度和效度

統計性思維的關鍵：編碼

小結

第8章錯誤的「關聯」