第9章 忽略最具價值者的觀點

就在貝拉克·奧巴馬宣佈自己將參加2007年秋季的總統大選後不久,谷歌公司的首席執行官埃裡克·施密特在大批谷歌公司員工面前採訪了奧巴馬。為活躍氣氛,施密特首先問了這樣一個問題:「為100萬個32位的整數排序的最有效的方法是什麼?」奧巴馬這樣回答:「總之,我認為冒泡排序不是正確方法。」這個回應不能算錯。施密特驚訝地用手拍了拍自己的前額,現場爆發出一陣掌聲。隨後,在現場問答環節,奧巴馬又進一步向觀眾們保證,「我是個對原因、事實、證據、科學以及反饋有執念的人」,他還承諾在他當選後,政府會按照這些原則運行。

那天,在觀眾席中有一位名叫丹·塞洛克(Dan Siroker)的產品經理當即決定要為奧巴馬效力。他表示:「奧巴馬在我的冒泡排序中佔據了前列。」

塞洛克用專業工具為奧巴馬助選。他向人們展示了如何進行「A或B」(即二選一)測試。當你在兩種方式之間猶豫而不知道哪種才是幫你達到目標的最佳選擇時,你可以用擲硬幣的方法決定誰採用A方式,誰採用B方式,然後比較兩者。你可以搜集與你感興趣的問題有關的數據,用某種統計學的方法分析比較採用A方式與採用B方式的平均狀況。

本章會對「A或B」測試進行細緻的說明,包括其含義以及如何在專業工作和日常生活中運用這種方法。如果你能理解好實驗的設計思路,那麼在媒體中碰到那些所謂的科學發現時你就會更具批判性。

「A或B」

在塞洛克加入奧巴馬的競選網站工作團隊之時,谷歌等互聯網公司的開發者就已經在網頁設計測試方面進行了好幾年的探索。這些網絡先行者沒有基於HiPPO式(HiPPO即highest-paid person』s opinion的調侃式說法,也是這一概念的首字母縮寫,意為「最具價值者的觀點」)的思維進行網頁設計,而是以什麼最有效這種無可爭議的思路進行開發。他們會給一部分互聯網用戶提供以藍色為主視覺感受的主頁,而給另一部分用戶提供以紅色為主視覺感受的主頁。這些開發者要搜集有關「點擊率」的信息。從顏色到排版,再到圖片和文字,頁面上各種信息都被同時傳遞給隨機挑選出的用戶,以測試頁面的效果。判斷效果優劣的依據是到底什麼東西應該出現在網頁上,而不是某個最具價值者的觀點。

在政治網站上應用「A或B」測試十分直接明確。一個主要問題是如何設計一個網頁,以便通過它來最大限度地獲取潛在捐贈者的電子郵箱地址。例如,哪種按鈕能促使更多的用戶註冊:「瞭解更多」、「現在加入我們」還是「現在來註冊嗎」?將什麼圖片放在網頁上可以吸引更多用戶註冊:一張清晰的奧巴馬本人的藍綠色照片,一張奧巴馬全家的黑白照片,還是一段奧巴馬在一次集會上演說的視頻呢?

我猜你可能無法料到,「瞭解更多」按鈕加上一張家庭照片是最有效的,而且效果遠超其他組合。這兩者結合使得吸引到的潛在捐贈者人數比最差的組合多了140%,利用這種效應影響競選捐款和投票,產生了更大的作用。

網站設計者們學到了社會心理學家在幾十年前就發現的情況,即在新鮮的場景中,人的直覺會影響到其行為。正如塞洛克指出的,「假設往往是錯誤的」。

自2007年起,「A或B」測試在奧巴馬的競選決策過程中被廣泛應用。競選專家、曾經的社會心理學家托德·羅傑斯進行了一系列有關奧巴馬的實驗。其中有一些實驗不夠嚴肅。接到一個來自比爾·克林頓的自動語音電話,或一個來自志願者的可陪你聊天的電話,哪一種方式能得到更多捐款以及獲得投票者支持?(結果證明是後者。)幫助競選的志願者在大選前一天拜訪投票者是提高投票者在投票當日現身投票的最有效方法。

關於什麼方式能有效助選還有大量的研究。要提高人們的現場投票率,哪種方式更有效:告訴他們投票結果不重要,還是告訴他們結果很重要呢?你可能會認為,如果告訴投票者結果不重要,他們便更有可能現身投票。然而,一個簡單的成本–收益分析會告訴你,讓投票者知道其投票的重要性可能更容易激發其行動。記得嗎?人們對社會影響力的敏感性很高。他們想做他人希望自己做的事。如果大多數人都喝得很多,那麼你也會這麼做;反之亦然。如果大多數人重複使用酒店的毛巾,那麼你也會這樣。因此,告訴投票者他們的行動在自己的選區很重要會是一種有效得多的方法。

如果讓人們知道你會在最後一次選舉中瞭解他們投票的情況,這會更有效地促使人們投票嗎?人們總是想給他人留下良好的印象,也希望自我評價能高一些。因此,當人們被告知有人監督他們的投票表現時,投票率會上漲2.5個百分點,甚至更多——出現這種情況一點兒也不奇怪。然而,只有「A或B」測試能告訴我們這種監督策略是否真正有效,以及如果有效果,它是正面的還是負面的。

在2008年和2012年的大選中,奧巴馬團隊都給共和黨對手帶來了不少出其不意的麻煩。羅姆尼在2012年的競選中表現得極度自信,甚至連敗選演說都沒有準備。

誠然,共和黨人顯然深諳「A或B」博弈的原則。實際上,早在2006年,得克薩斯州州長裡克·佩裡在其謀求連任的競選活動中就放棄了直接與投票人進行郵件聯繫、支付通話費、設置草坪宣傳標語的做法,他認為這些方式效果不佳,因此就沒在這些方面投入資金。相反,競選團隊充分利用機會,在電視和廣播中插播廣告。就是通過這種最有效的方式,他們分別在18個電視頻道和30個廣播電台上隨機插播競選的開始日期。民意調查顯示,正是這些行動讓佩裡的選情出現了巨大的變化。這種方式的隨機性特質極大地增加了結果的準確性。參與競選活動的工作人員不被允許針對某個群體在某個時間段的某種特定表現搜集信息。如果他們這麼做了,任何票數增加的情況都可能是因為某個群體所處的環境發生了變化,而不是因為共和黨人投出的廣告影響到選民。

如同在政治活動中一樣,「A或B」測試在商業運作中也行之有效,因為調研者可以按照不同群體的需求分析,隨機安排不同策略。當樣本量很大時,即便是很小的差異也能被發現。商業活動亦如政治,牽一髮而動全身,小節見成敗。

經濟效益與社會效益並舉

商人將「A或B」測試運用得更為嫻熟。他們發現這種測試法可以有效幫助其提升人們的生活品質,促進收益增長。

研究者在得克薩斯州厄爾巴索市的一家超市利用「A或B」測試研究了可提升果蔬銷售量的一系列策略。在購物車中放置一塊隔板,並在上面貼上標示,寫上「請把果蔬放在購物車的前端」。此舉讓果蔬的銷售量提升了一倍,果蔬部賺得的利潤比其他部門都多,這也對消費者的健康大有裨益。研究者同樣分析了社會影響力因素。如果有標牌告知消費者,其他購物者也購買了一定量的商品,則能夠刺激銷售量。研究結果表明,那些標示牌對於果蔬的銷售量提升作用最大,其對應的消費群體是低收入人群——這些人更可能購買加工處理過的食物而較少購買新鮮農產品。

美國的雜貨店按以下方式佈置貨品:澱粉類食物在通道4,調味醬類在通道6,奶酪在通道9。日本雜貨店則從不同餐飲風格進行整體分類:意大利餐飲中的麵食、醬料、奶酪,日式餐飲中的豆腐、海鮮、醬油。這樣的整體分類之法可能會降低人們對加工過的食品的購買量,不過可以讓那些閒暇時間很少的消費者為自己購買更多的健康食品。

各類機構和組織也可以對其策略和工作環境的有效性進行更多的實驗。如果允許僱員利用一部分時間在家工作,是否能提高其效率?完全在家工作呢?完全坐班呢?面對一份每週交一次的大作業和每天都要交的小作業,高中生們會更傾向於哪種呢?

內設計與對比設計

美國西爾斯百貨在不同的媒體上隨機投放針對特定群體的廣告,它們可以隨機選擇在自家店舖的什麼位置擺放哪類貨品——在新罕布什爾州和北卡羅來納州放在店舖後端,在佛蒙特州和南卡羅來納州放在店舖前端。西爾斯百貨的店舖在全美數量巨大,這樣「A或B」測試便能發揮很大的效力。一種統計學測試的效力體現在其是否能在給定樣本規模較大時發現其中的樣本差異。樣本量越大,你就越能確定某種樣本差異是真實存在的,而非偶發的。

你還可以通過「內設計」(within design)提升測試的效力。比如將同一家商店中的貨品擺放位置調換。這種對於整體差異的控制法也適用於比較商店之間的差異。一種典型的內設計是「前後對比」設計。當你將珠寶櫃檯置於店舖前端,而將內衣櫃檯置於後端時,銷售量會怎樣呢?加入了內設計的「A或B」測試會比單純的「A或B」設計敏感得多,因為你可以針對每一個樣本得到一個「差異分數」,然後用其作為你的測量指標。這個分數是用休斯敦地區的銷售量計算的,即用採取該策略前的銷售數據減去應用了該策略之後的數據。隨後,你便能看到一個對所有情況都適用的分數,它會因為銷售地區和貨品種類變化而變化:商店的規模和吸引力,當地消費者的偏好等。這類差別被稱作「誤差變異」,因為它反映了去除策略影響因素之後的商店或消費者之間的差異。影響得分高低的因素與「A或B」測試試圖回答的問題無關。當你通過「前分數」和「後分數」來減少誤差變異時,你會更想知道在狀況A之下和狀況B之下的銷量差異是否真實存在。

請注意,當你使用「前後對比」設計時,你需要平衡不同策略,即一些樣本需要先在實驗情境下進行,另一些樣本則需要在控制情境下進行。否則,策略的效果和樣本順序變化的效果會被混淆。你以為由策略產生的效果很可能只是因為調整了時間順序而產生的。

一些「前後對比」實驗只是在偶然的情況下產生的,其結果雖然意外但很有用。我最喜歡的這樣一個例子是在美國西南部的一家禮品店裡發生的。綠松石類的珠寶銷量很差,因此當店主要做一次短途旅行的前夜,他打算將這類珠寶降價出售,他留給店員一塊標牌,上面寫著「所有綠松石類珠寶價格乘以1/2」。當店主返回的時候,幾乎所有此類珠寶都售完了。而店主在聽店員提起另一件事時,震驚之餘,更是無比開心。店員表示,較之放那塊牌子前,珠寶在以正常價格的兩倍出售時銷量好得驚人。原來,這位店員誤解了店主的意思,他以為要加價一倍售賣,而不是以半價出售。

通常情況下,價格比較公平地代表了商品的價值,因此消費者會以高價購買相應價值的珠寶。當然,這種狀況並不適用於所有類別的商品,然而綠松石類的珠寶絕對是會讓消費者倚賴其價格為判斷依據的一種商品,因為很少有人具有判定其價值的專業知識。

「前後對比」設計的效力意味著我們可以在自己身上進行真實的實驗。你偶爾會因胃酸過多而消化不良,但是不知道確切原因,該怎麼辦呢?你可以每天記錄自己的飲食日誌,尤其注意那些可能的「罪犯」——酒、咖啡、蘇打水、巧克力。然後進行一次真正的隨機實驗——擲一次硬幣來決定是否喝一杯雞尾酒。每次只變化一種東西,以避免出現混雜變量。如果你不吃巧克力,也不喝蘇打水,你的胃回流狀況改善,那麼你將不知道究竟是食物還是飲品充當了「罪犯」。在圍繞「口頭報告」而展開的第12章中,除了考慮一些科學方法論之外,還提供了大量建議幫助你自己做實驗。

統計相關性與統計獨立性

更多的樣本量,隨機佈置的實驗條件,這些都增加了我們對某一效果是真實的信心。然而,還有另一個因素也很重要,這便是我們認為什麼樣的樣本才算數。假設你在一個有30個學生的班級1中實驗A程序。A程序是標準的教學方式——課上講授,課下做作業。你在另一個有25個學生的班級2中實驗B程序——在家通過視頻聽課、完成作業。那麼樣本總量是多少?肯定了,不是55,如果對比的數據存在差額,那麼能表現出顯著性差異的樣本到底是多少呢?

樣本量是2。這是因為只有當存在獨立觀察時,樣本量才等於搜集的案例個數。然而,就這種針對一個班的學生或任何群體的實驗來說,群體中的個體之間在採取實驗措施和最後進行測量之時都會產生互動,這樣每個個體的行為就不是獨立產生的了。瓊的疑惑可能讓其他人感到慌亂,比利的古怪行為可能拉低測驗中每個人的得分。每個個體的行為都會潛移默化地受其他人的行為影響。在這種情況下,無法得出具有顯著統計學意義的測量結果,除非群體的數量特別巨大,在此處樣本數量指的是群體的數量,而非群體中個體的數量。

如果你無法進行具有統計學意義的測驗,那麼毫無疑問你無法確切知道不同方式對某件事情產生的效果。然而,在第二次實驗的時候採取第一次效果較好的方式是種更聰明的選擇,這比你單純依靠自己的假想要好。

獨立性的概念對於理解事件是具有無限可能性這一點至關重要。比如在2008年,發生了一件令人驚訝的事,進行金融評級服務的標準普爾公司應用了可能出現違約狀況的房屋抵押貸款模型,在這類模型中,假設違約狀況是獨立於其他因素而存在的。喬·道克斯在迪比克市的違約行為被認為與簡·道伊在丹佛市的違約行為毫無關聯。這些在日常生活中的狀況並非毫無道理可言。然而,在各類情況層出不窮的大千世界,即便在一個房價似乎穩定增長的時期,你還是要預想到可能會遇到經濟泡沫。因此,針對20031A型房屋抵押貸款的違約行為在統計學意義上可能會依賴於人們在90014C型房屋抵押貸款上是否出現違約行為。

評級機構從來都不是中立的。銀行會向它們支付服務費用。越容易給出安全性高評級的評級機構越受歡迎。因此,評級機構是否會以拙劣之計創製出違約模型,或是有一些欺騙性行為,我實在不好做出評價。不過,有一點是我們都應當明白的:有缺陷的科學方法論會導致災難性的後果。

小結

單純的假想很有可能是錯誤的。即使它們是正確的,在你有條件進行測試的時候還依靠它們也是愚蠢的。「A或B」測試在原理上十分簡單:設計一種你想檢測的步驟,設置一個對照情況,擲一枚硬幣以決定誰(或者什麼)採取何種方式,然後看看會發生什麼。借由隨機設計發現的差異表明,自變量的改變會對因變量產生因果式的影響。而借由相關性的方法發現的差異則不能保證自變量對因變量產生確定的影響。

相關性設計之所以不可靠,是因為研究者沒有限定樣本的具體條件。例如,對比大量和少量家庭作業,廣播廣告和傳單廣告,高收入和低收入。如果你沒有根據一定的條件隨機搜集樣本——無論是人、動物還是農田,那麼你就給自己的分析增添了各種不確定性。在某一個層面上的自變量樣本可能和在其他層面上的自變量差異極大,而且差異體現的方式也有許多種,其中有些差異可以辨認出來,而另一些並不能。有時候並不是相關的自變量引發了不同,而是任何一種可測量的變量,或是不可測量乃至不可構想出的變量,產生了一些效果。此外,有時候實際上可能是我們認定的因變量反而扮演了自變量的角色。

樣本的數量越大——人、農田或是其他事物,那麼你發現真正起作用的因素的可能性就越大,同時你誤將一些虛假因素當作真實因素的可能性就越小。如果通過某種統計檢驗而發現差異的發生概率小於在20個隨機樣本中發生一次,則顯著性水平表示為0.05。如果不做這樣的測試,我們便無法知曉一種效應是否應當被看作真實。

當你在分配樣本時考慮了所有可能性,那麼你的設計便是高度可信的。這是說,在反映某一個維度上的差異時,「內設計」比「對比設計」更具有統計學意義上的顯著性。這是因為在任意兩個樣本之間的所有可能差異都被控制了,只剩下分配樣本這一項上的差異,而它可能是事物產生關聯的原因。

辨別你所檢驗的樣本(比如由人去做關於人們行為或心理的研究)之間是否相互影響十分重要。任何時候,當某個樣本可能會影響其他樣本時,就會缺乏統計上的獨立性。某種事物的樣本量(N)並不會影響另一種事物的樣本量。A班代表的樣本量為N,這裡的N指的並不是這一個班裡的學生人數,而僅僅是1,A班整體是一個樣本。(有一種情況除外,即那種相互影響的狀況幾乎可以忽略不計或者不存在時,比如學生們在一個帶有小隔間的房間中參加考試,他們無法交談。)

《邏輯思維:擁有智慧思考的工具》