第12章 放棄提問,做個實驗

在你的一生當中,你會在報紙、雜誌和商業報告中讀到多少有關人的信仰、價值觀和行為的調查問卷和研究成果呢?自然會有成千上萬。很有可能,你自己也會設計一些這樣的調查來獲取信息,這對於你的事業、學業或是志願工作十分重要。

我們中的大多數人都沒有學會以批判性的眼光去看待那些調查結果。「嗯,親愛的,我在《泰晤士報》上看到一篇報道,有56%的美國人支持提高稅收,以修建更多的國家公園。」同樣,在我們自己設計調查問題時也會得到類似的回答。

到目前為止,我討論過的所有方法都幾乎可用於任何事物——動物、蔬菜或是礦物。我們可以對老鼠做「A或B」測試,可以借助自然實驗研究影響玉米地狀況的因素,可以用多元回歸分析研究影響水的純度的因素。現在,我們要看一些在測量有關人類的變量時遇到的方法上的困難。不同於老鼠、玉米和水,人可以通過語言(口頭或書面的)告知研究者他們的態度、情感、需要、目標和行為。人們還能告訴你,什麼因素可以影響這些變量。在這一章中,你將會看到,這樣的報告是怎樣誤導研究者的。而在本書的第一部分中你們已經瞭解到分析影響人類行為的因素時的限制,因此本章內容並不會讓你驚訝。這一章會表明大量的行為測量方式如何為你提供有關人類性格和狀態的可靠信息,對這些行為的測量要比人們的報告本身有說服力得多。

你還能得到一些進行實驗的建議,這樣可以讓你在研究哪些因素會影響人的態度、行為、生理和情感健康時更有把握。對於你自身的相關性證據,像其他類型的相關性證據一樣,有時也會產生誤導作用。在研究你自己時,用實驗的方法可以讓結果準確、有說服力。

微妙變化的態度

下面這些例子可能會讓你在相信自我報告的答案前停下來多想一下,會幫助你思考如何以最佳方式獲得有關人類態度和信仰的有效信息。這些例子也可能會讓你,在面對人們解釋其判斷和行為的原因時,多一些批判性的考量。

問題:假設我請你講述三件你生活中積極的事,並談談你對生活的滿意度;另一種情況是請你講述三件你生活中消極的事,並談談你對生活的滿意度。在哪種情況下你會表達出更高的生活滿意度呢?

回答:無論你怎樣猜測,我都要遺憾地告訴你,你的答案是錯誤的,這完全取決於我問你的那三件事是發生在最近還是5年或更久以前。如果你在想著最近發生的一些糟糕的事而不是最近發生的一些積極的事,那麼你的生活看上去會更糟糕一些。這並不令人意外。但是如果那些糟糕的事發生在過去,而現在的生活順利,那麼你的感覺就會大不一樣。而如果快樂的事發生在很久以前,那麼你最近也不會有特別好的感覺。(這也能解釋發生在美國「最偉大的一代」[1]成員身上的奇怪現象,他們在「大蕭條」時期的生活滿意度甚至比其他時候更高。)

問題:你在奧馬哈市的表兄打電話來,問你最近過得怎麼樣。你的答案會受到當時你所處的環境影響嗎?晴朗溫暖的天氣和陰冷的天氣會讓你的答案不同嗎?

回答:結果的確會有不同。如果天氣不錯,你更有可能回答最近一切都好。然而,如果你的表兄先單獨詢問了你天氣狀況,然後又問你最近的情況,那麼你的回答則不會受到影響。為什麼呢?心理學家認為,當人們被潛在引導著去想有關天氣的信息時,他們的情緒會因為相關天氣狀況而受到影響,可能相應地更快樂一點兒或是更傷感一點兒。實際上:「生活看上去是不錯的,然而可能一部分原因是我覺得有70華氏度(約21攝氏度),陽光暴烈,因此我又覺得一切都馬馬虎虎吧。」

問題:你認為一個人對婚姻的滿意度與他對整體生活的滿意度之間的相關性是怎樣的?

回答:這看上去像是個很容易回答的問題。我們可以先問人們對生活的滿意度,然後再問他們對婚姻的滿意度。這兩者間的相關性越高,則我們認為婚姻滿意度對生活滿意度的影響可能越高。研究者真的做了檢驗,發現相關性為0.32,這表明其實婚姻滿意度對生活滿意度的影響是很有限的。但是,假設我們顛倒提問順序,得到的相關性係數就變成了0.67,這表明婚姻質量對生活質量影響相當大。因此,喬告訴你他的生活是幸福的還是馬馬虎虎的是依賴於——在很大程度上——你是否先問過他對婚姻的滿意度如何。這一現象和本章中討論的其他現象都表明,提問語言的類型對人們表達其想法的影響,這在第1章中也討論過。其他一些現象表明情境對於人們表達其想法的影響,這在第2章中討論過。

提問順序對人的影響是很大的,這一點在「先問關於婚姻的滿意度就會讓相關性相當明顯」上就得到體現。如果你沒有先提出婚姻這一點,那麼人們對於生活的思考就會很寬泛,那麼許多其他因素就會影響其對生活滿意度的評判。那麼,婚姻質量到底對生活質量有多重要呢?事實上,千萬不要問這類問題。如果婚姻質量與生活質量的相關性變化的範圍如此寬泛,那麼我們並不能從中得到什麼真實的情況。

實際上,我們總在揣測每一個關於態度和行為的問題的答案——通常通過一些看起來是偶然的或是愚蠢的事物來判斷。

假設我問你,你對政治人物有多少好感。等一下,在這之前我會先指出其他人對於政治人物的平均支持分數為5分,這在以1—6分的評分體系裡算是高支持度;或者我會說明其他人對政治人物的平均支持分數為2分。結果是,你會在前一種情況下給出較高分。其中一部分原因是純粹一致性:你不想讓自己看起來是個異類。而更有趣的是,告訴你他人的打分不僅會影響你對政治人物的判定,還會影響你對於我提及的這類政治人物的設想。如果我告訴你,大多數人對政治人物印象良好,那麼我在暗示這裡的「政治人物」是那種像丘吉爾或羅斯福一樣的政治家。如果我告訴你,大多數人對政治人物的評價較低,那麼我的潛台詞是這裡的「政治人物」是那種蠅營狗苟的政客。我在用語言左右你的判斷。

有多少美國人支持死刑呢?寬泛而言,大多數人都支持。而對於某一個具體案例而言,則是少數人支持。針對一個案件、一個罪犯和犯罪現場給出的細節越多,人們越不傾向於處死犯罪者。甚至在那些極端罪惡的案件中仍是這樣,例如姦殺女性。在法庭上呈現出的有關罪犯的人格特徵和生命背景的細節越多,人們越不願意支持死刑判決。哪怕是在所有信息都完全負面的情況下,人們依然會這麼做。

有多少美國人支持墮胎?在此我得拉上窗簾,悄悄地問問人們:「你希望如何處置這個胎兒?」根據2009年的蓋洛普民意調查,有42%的美國人支持有「選擇權」,而不是「生命權」,即有42%的美國人支持合法墮胎。而一項同年進行的蓋洛普調查顯示,有23%的美國人認為墮胎在所有情況下都是合法的,有53%的美國人認為墮胎只是在特定的情況下合法。這樣看來,有76%的美國人支持墮胎。我完全相信我們甚至能得到更高的支持率,如果我們給被調查者一些前提的話,比如當事女性因被強姦而懷孕,近親性交而懷孕,或是為了保住母親的生命。如果被調查者對上述任一個問題回答是的話,那麼我們就說這個人是支持墮胎的。因此,究竟是少於一半的人支持墮胎還是相當多的人支持墮胎,這完全就是由提問方式決定的。

心理學家進行的大量研究表明,人們對於某一事物的態度不會始終保持一致。「我對墮胎的態度如何呢?嗯。我想想看。對了,墮胎,支持。是了,我的看法是這樣的,我會有條件地反對。」

實際上,人們對於事物的態度會特別依賴於情境,因而會不斷變化。改變了環境,你也會改變自己的態度。不幸的是,哪怕是極其微小的變化,例如提問的詞句、使用的答案的類型和數量、前述問題的性質等,都會成為情境性的因素,進而深深地影響人們對自己觀點的表達,即使是關於個人與社會重要問題的態度都是十分容易變化的。

什麼會讓你開心?

口頭報告對某件事的態度會受到一系列不同方法的影響。人們會在一些事情上撒謊,比如性、金錢。人們希望給自己和他人留下好的形象。這種社會期望偏誤常常會導致人們加強自己的正面形象而弱化負面形象。然而,說謊和想讓自己看上去更好只是我們遇到的最容易的麻煩。在我們探尋人們態度和行為的真相,以及人們相信一些事物的原因和做一些事的原因時,會遇到許多麻煩。

至少,我們十分清楚什麼會讓我們開心或不開心。

請給下面一些會影響你某一天心情的元素排序。讓我們看看你在評估什麼會引起自己情緒波動這件事上的準確性如何。給下列元素的重要性評級,1代表影響非常小,5代表影響特別大。

1.你的工作進行得如何?

2.你前一天晚上的睡眠時間是?

3.你的健康狀況如何?

4.天氣怎樣?

5.你是否有性行為?

6.這是一周中的哪一天?

7.如果你是女性——今天是你月經週期的哪個階段?

無論你說什麼,都沒有理由相信這種評估是準確的。至少,我們知道這個調查是針對哈佛大學的女生的。心理學家讓學生們在每天結束時報告自己對情緒的評估結果,持續了兩個月。學生們被要求回答上述幾個問題。兩個月過去後,參與者被問及其中每個因素對其情緒的影響。

參與者的回答讓我們發現了兩件事:第一,參與者指出每個因素在多大程度上影響了他們的情緒;第二,每個因素能在多大程度上預測人們的情緒。這些自我陳述是否反映出了人們說出的因素與說出的情緒之間的真正相關性呢?

實際上,結果一點兒也不準確。那些因素對情緒(基於每日評分)的真實作用為零,參與者們相信的那些因素的變化程度影響情緒的變化情況也是無稽之談。真的沒有一點兒相關性。如果一個女人說今天是星期幾這一點很重要,那麼這天是星期幾與其情緒之間的實際聯繫可能是很低的。如果一個女人說,性行為不是那麼重要,那麼性行為和情緒之間的實際關聯可能會很高。

這裡還有一個更加令人尷尬的發現。(參與者本身會很尷尬,對其他所有人也一樣,因為沒理由認為哈佛大學的女人是唯一對影響自己情緒的因素無法判斷的一群人。)簡關於影響自己情緒的因素的自我報告不會比她對哈佛大學的女人們就同樣問題的猜測更準確。實際上,她對他人和對自己的猜測結果最終是差不多的。

很明顯,我們是有一些情緒影響因素的理論的。(天知道這些理論都是怎麼出現的。)當我們被問及不同的因素如何影響我們的情緒時,我們便會求助那些理論。我們沒有努力發現事實,甚至在有可能發現的時候我們也沒有去做。

我堅持認為我們不瞭解是什麼因素讓我們快樂。當然了,我們做出了許多努力。我們唯一能說的是,我們認識到的關於影響自身生活狀態的因素大都沒有我們想的那麼重要。這個世界上當然不存在什麼能影響情緒的特殊因素。正如你在第8章中讀到的那樣,發現事物間的關聯並非我們擅長的事。

關於哈佛的這項研究就是一個例證。心理學家們發現,我們自己報告的影響自身情感、態度和行為的因素都不是那麼可信的,正如我們在本書第一部分中討論過的。

態度和信念的相關性

第一個人說:「你的妻子怎麼樣?」

第二個人說:「這要看和誰比?」

——古老的舞台規則

對你有關民族和國家的觀點的效度進行檢測,請回答下列問題:

哪國人更看重選擇實現個人目標:中國人還是美國人?

哪國人處事更加認真:日本人還是意大利人?

哪國人更具有親和力:以色列人還是阿根廷人?

哪國人更加外向:奧地利人還是巴西人?

我猜你肯定不會覺得中國人比美國人更看重實現個人目標,或是意大利人比日本人處事更加認真,以色列人比阿根廷人更具有親和力,奧地利人比巴西人更加外向。

我們如何知道存在這些差異呢?從那些國家來的人們告訴了我們那個國家國人的面貌。

人們對於自身價值觀和性格特徵的想法為何會與大眾觀點相差甚遠呢?(同樣也可以思考,人們的想法為什麼也與那些熟悉以上每種文化背景的學者專家的觀點不同呢?)

人們在思考其自身的價值觀、品性和態度時很容易受到大量「人為因素」(artifact)影響。(artifact這個詞有兩種模糊的相關意義。在考古學中,這個詞指人造的物品,例如一件陶器。在科學方法論中,這個詞指因為一些難以預料的測量錯誤而導致的錯誤發現,通常都是人為原因導致的。)

在上述有關文化差異的例子中,人們對於自身性格的匯報和我們對於不同國家的人的性格的判斷之間的差異可歸因於群體參照效應。當你問我對於自身價值觀、人格特點和態度的看法時,我可能會有意識地把自己置於一個明顯的群體中(比如我就是這個群體中的一員),而後再來回答你的問題。如果你問一個美國女人,她認為追求自己的目標有多重要,她可能會暗中把自己與其他美國人對比,可能與其他猶太裔美國人對比,也可能與她學校中的其他猶太裔美國女性對比。因此,當這樣與其他美國人(或是猶太人,猶太裔女性,俄亥俄州的猶太裔女性)對比之後,選擇她自己的目標就顯得沒有那麼重要了。一個受訪的中國人則可能把自己和其他中國人、其他中國男人或是其他在北京師範大學的中國男人做比較——可能對他而言,他更關心選擇自己的目標,而不是他的參照群體中的其他人的選擇。

有意利用參照群體比較是一個影響自我陳述(比如奧地利人比巴西人更外向等)的重要因素,我們知道這一點的一個原因是,當你讓參照群體顯而易見時,差異就會消失。加州大學伯克利分校的歐洲裔美國人會認為他們比伯克利的亞裔美國人更認真,然而,當你讓這兩組人都與一個更明顯的參照群體——「典型的亞裔美籍伯克利學生」——做比較時,他們之間的差異就沒有了。

當其他條件保持一致時,在大多數文化背景下的人們都相信他們自己要比同群體的其他人更優秀。這種自我拉抬偏差有時被稱作「烏比岡湖效應」,這源自美國主持人蓋瑞森·凱勒虛構出的一個神秘小鎮,那裡的「小孩都在平均水平之上」。在領導能力方面,有70%的美國大學生都認為自己要高於平均水平,只有2%的人認為自己低於平均水平。在評價「自己與他人的相處能力」時,幾乎每個人都會認為自己高於均值。實際上,有60%的人會說自己在前10%的水平,而有25%的人會說自己在前1%的位置!

自我拉抬偏差在不同文化和亞文化群體中會有不同程度的差異。在謙虛偏差這個問題上,沒人會認為美國人表現得很明顯,而東亞人則會表現得很突出。所以在任何涉及價值因素(領導力、與他人的相處能力)的自我評定中,我們都會發現西方人的自我評價總是比東亞人的自我評價高。美國人比韓國人更可能評價自己是更好的領導者,意大利人比日本人更可能自我評價更認真。

還有許多其他人為因素也會影響自我陳述。這包括默許心向反應或者是贊同偏向。這是一種對所有事情都傾向於同意的態度。正如你預料的那樣,禮貌的東亞人和拉丁美洲人比直率的歐洲人和歐洲裔美國人更經常說「是」。在同一種文化背景下,個體表示認同的情況也有差異。幸運的是,有辦法可以消除這種偏誤:研究者可以通過答案的類型來平衡,這樣回答者就會有一半的時間在一些維度上得到較高的分數,例如內向和外向,他們會同意一種陳述,而在另一半時間中反對一種陳述。(「我喜歡參加大型派對」和「我不喜歡參加大型派對」)這就可以消除人們總是同意各種陳述造成的偏誤。所有的社會科學家其實都深知這種維持平衡的方式,然而令人驚訝的是,他們常常選擇忽略。

聽言,還是觀行?

依上所述,是否存在某種更好的方式能夠比單純詢問當事者,進而可以比較不同的人、群體或是文化之間的差異呢?你確信一定有。測量行為,特別是在觀察對像不曾察覺的情況下,那麼這時候測量出來的結果便會比各種有人為因素介入的情況更有說服力。

你可以通過檢測人們在一些指標上的得分(或者更好一點的情況是,控制了他們的認知能力得分之後的結果)來判斷其認真程度,而不是直接詢問,比如房間的整潔程度、他們在赴約或上課時的守時程度等。我們也可以測量某種文化整體所表現出的認真程度,測量的對象可以包括郵政服務的速度、時鐘的精準度、公共汽車和火車的准點率、人們的壽命、人們在面對冗長無聊的問卷時回答的問題數。(順便提一句,不同國家的人的數學測試得分與他們回答冗長問卷時的問題數之間有著很高的關聯。)

令人驚訝的是,當我們測評不同國家人的認真程度時,我們發現,通過行為指標顯示一個國家的國民認真程度越低,則通過自我報告得出他們的認真程度越高。

當我們在測量一些真正的心理學變量時,我遵循的原則是,相信行為(包括像心率、皮質醇的分泌量、不同腦區的活動情況等生理活動),而不是相信人在具體的情境中的反應(由自己或他人描述的他們希望或是傾向於某些變量將出現的情況)。不過,若是與關於信仰、態度、價值觀或性格的口頭報告相比,你更應該選擇相信人在具體情境中的反應。

我當然不是希望你懷疑自己在媒體中看到的每一則新聞,或是懷疑自己設計一份行為調查問卷的能力。如果你想弄清楚你的職員究竟會在週六還是週日出去野餐,你不必太擔心他們會糊弄你。

然而,即使是對於偏好的表述,你還是不能完全相信自我報告。正如史蒂夫·喬布斯所言:「不應該讓顧客自己弄清楚他們需要什麼。」亨利·福特曾評論道,如果他問人們在交通方面有什麼需求,他們會說「跑得更快的馬」。房產經紀人往往會說「消費者都是騙子」。那些向你保證自己會喜歡低矮房子的顧客,最終會愛上20世紀20年代都鐸式的建築。那些追求鋼筋玻璃材質的現代高樓的顧客實際上卻喜愛人造的土坯房屋。

瞭解人們的偏好對於生意人來說是一件麻煩事。即使是那些考慮最周全的人也會陷入困境。亨利先生在福特汽車公司的繼任者喜歡組織焦點小組會議,參會的一組人相互提問,並回答法人代表的問題。組織者借助人們表達的偏好來判斷哪種新產品或服務可以繼續推出或保持。汽車界的傳奇在20世紀50年代中期繼續上演,福特先生有了一個新想法,他想把中柱從四門車上移除,看看這樣輕便的外觀是否能吸引更多的消費者。在組織焦點小組討論時,人們都認為這個主意不好:「為什麼要這樣,車不能沒有中柱」「看上去太奇怪了」「我認為這樣不安全」。通用汽車公司則跳過了焦點小組討論這一步,直接將無中柱車「奧爾茲莫爾比」投入生產,稱其為四門活動硬頂小客車。該車在市場上獲得了巨大的成功。這次無中柱車的經歷顯然並沒有讓福特公司反思自身焦點小組的問題。在20世紀50年代推出埃德塞爾汽車時,公司又一次在決策上受到了焦點小組的影響,但這次是慘痛的失敗。

在此我們學到的教訓是:在任何時候都不要太相信人們的說辭,而是要看他們的實際行動。

總結一下,這一部分主要講述了我們如何找到最佳的測量變量,如何找到最佳方式檢測這些我們關心的變量與其他變量的關聯。在一系列研究策略的鏈條上,真實實驗優於自然實驗,自然實驗優於相關性研究(包括多元回歸分析),而相關性研究又勝過假設和「恰好是他」統計學。無論對於個人、機構,還是整個國家而言,如果不能採取最佳的科學方法論,就要付出慘重的代價。

自我實驗

正如哈佛大學那項研究讓女性評估影響她們情緒的因素一樣,每當我們在日常生活中和其他領域裡需要觀察一些相關性現象時,總會遇到麻煩。幸運的是,我們可以以自己為實驗對象,然後找出影響我們做決策的更多信息。

是什麼因素讓人們難以入眠?清晨喝一杯咖啡是否能讓你一天都保持高效狀態?如果你在午餐後小睡一會兒是否在下午工作時更有效率?如果不吃午飯,你是否更有效率?做瑜伽是否能改善身體狀況?佛教教義中的「仁愛」之念(具體表現為對他人微笑,反省積極的品格和慷慨的行為,重複「仁愛」這一詞彙)是否能給你帶來內心的平和並減輕你對他人的怨怒之情呢?

對自己做實驗存在的一個問題是樣本量只有1。不過好處是,針對自己的實驗天然就包括了「前後對比的設計」,這可以提高準確性,因為減少了誤差方差。你同時還可以讓複雜的變量達到最小值。如果你要觀察某個變量對你的影響,那麼在研究期間請保持其他所有因素持續不變,並對比在這個變量存在以及未存在兩種情況下你的狀態。這樣你就能完成一個非常不錯的實驗了。不要同時在不同的房間裡做瑜伽,或是在你和男朋友分手時做瑜伽。在一個恰當的「前後對比設計」的情形下開始做瑜伽。控制好你的身體和情緒狀態,調整好你和他人的關係,在開始做瑜伽之前的幾周保持良好的工作狀態,並且在開始做瑜伽後連續幾周都使用同樣的測量變量。簡單的三點量表就能提供充足的測量信息。在一天結束時你為自己的身體狀況打分:不太好;還行;非常好。測量出在做瑜伽之前一段時間和之後一段時間的身體狀況平均值。(希望在這段時間裡你的生活中不要發生什麼重大的事件影響這個計劃。)

通常你都能比「前後對比」研究做得更好。你可以根據實際情況充分利用隨機分配的設計。如果你想弄清楚清晨喝咖啡是否會讓自己做事更高效,那就不要只是隨意地在某些早晨喝咖啡。如果你這麼做了,那麼任何會混淆視聽的變量都有可能影響測量結果。如果你只是在早晨感到無力時喝咖啡,或是只在你想保持工作狀態最佳的那天喝咖啡,那麼你得到的數據就會一團糟,任何你從中得到的信息都有可能是無效的。在你要走入廚房時拋一枚硬幣——正面衝上喝咖啡,背面衝上就不喝,然後記錄你那一天的工作效率。使用三點量表:並不十分有效率,差不多有效率,非常有效率。連續幾周都做記錄。計算出喝咖啡的日子的平均效率狀況,以及不喝咖啡的日子的平均效率值。

在任何其他你想測量的影響身體狀況或效率的因素的實驗中,都可以採取相同的實驗步驟。不要欺騙自己妄圖不用系統性的隨機實驗就能得到良好的實驗結果。

在類似上述的情況下做實驗是十分明智的選擇,因為對於不同個體而言,喝咖啡產生的效果大有不同,通過耐力訓練和力量訓練而獲得的效果迥異,到底是在清晨、中午還是晚上達到工作效率高峰也是不同的。對吉爾或喬伊有效的事情對你而言則未必有效。

小結

口頭報告十分容易引起大量的誤讀和錯誤。我們的頭腦中沒有放文件的抽屜可以把態度取出來一個一個觀看。人對自身態度的報告會受到問題語句的影響,會被之前提出的問題影響,會被在提問時突然出現的情境性因素影響。換句話說,態度通常是在不斷變化的過程中被建構的,並且會受到大量外部因素的影響。

我們在回答關於態度的問題時,會在潛意識裡將所涉對像和某個參照群體對比,進而得出答案。如果你問我有多認真,我會告訴你我和其他(那些心不在焉的)人比起來有多認真,比如教授、我的妻子,或是那些剛好我在此刻想起來的人。

對於我們行為原因的報告,就像在第3章中和這一章中分析的一樣,會很容易出現大量錯誤,受到各種偶然因素的影響。它們通常會被當作確定的理論,事實上它們只是未經過深思熟慮的所謂「事實」。

行勝於言。與語言上的回應相比,行動是理解人們態度和性格的更好的指南。

對你自己進行實驗。心理學家用於研究人類行為的方法論同樣可以用於對你自己進行實驗。對於因果關係的觀察很有可能會出現誤區,比如誤以為某些原因導致了某個特定結果。精心設計觀察方法,進行隨機實驗,再加上系統性的記錄,這樣你就能得到一個關於行為歸因的準確結果,這是單純通過在生活中進行隨意觀察而無法得到的。

[1]「最偉大的一代」(the Greatest Generation)指生於1928年之前,從青少年時期開始接連經歷了「大蕭條」、「一戰」、「二戰」的那一代美國人。——譯者注

《邏輯思維:擁有智慧思考的工具》