在這個互聯(lián)網(wǎng)時代,每一天,各類公司都會通過仔細檢索、審視我們的工作習慣和互聯(lián)網(wǎng)的使用把我們各種行為的細節(jié)連接整合在一起。這種整合起來的數(shù)據(jù)極其詳細,甚至堪稱對我們個人的入侵。但這些公司是如何將這些數(shù)據(jù)點聯(lián)系在一起的,他們又是如何使用這些信息的?《黑箱社會》將告訴我們這一切是如何發(fā)生的。
搜索平臺怎樣確定一個第三黨市長候選人的曝光度?
奧巴馬沉重的辯論話題或者羅姆尼的“47%言論”會在多長時間內占據(jù)美國總統(tǒng)大選的頭條?
新媒體巨頭可以通過個性化的推送平臺為我們篩選信息,可它們是如何對這個繁雜的世界進行精簡的?
一篇報道是否被選中是基于新聞機構的統(tǒng)計數(shù)據(jù),還是個性化的運算程序做出的選擇?如果是由統(tǒng)計數(shù)據(jù)決定,那又是什么樣的統(tǒng)計數(shù)據(jù)呢—這篇報道的轉載量,還是新聞推送機構的權威性,抑或是完全由其他因素決定?
在現(xiàn)代化、全球化某種程度上已經(jīng)成為了“搜索引擎化”的現(xiàn)在,搜索引擎在一定程度上決定了以上所有的問號。
在這個被哲學家蘭登·溫納(Langdon Winner)稱為“技術夢游癥”的經(jīng)典例子中,我們賦予搜索行業(yè)的權力已經(jīng)到了難以想象的程度,它決定著我們的所見、所聞和所感。
黑箱操作:萬惡源頭
Google 的出現(xiàn),改變了以往網(wǎng)頁導航只是雜亂地匯集門戶網(wǎng)站、廣告和大量的垃圾郵件的現(xiàn)狀,讓用戶在幾分之一秒內就可以獲得清晰、簡潔、具有相關性的結果信息。而這種清晰、簡潔的關鍵就是以某種邏輯順序將信息排列呈現(xiàn)給用戶。
但是關于搜索排名方法,Google 從未透露細節(jié),而只是大致勾勒了一個輪廓——它根據(jù)相關性和重要性通過加權投票對網(wǎng)站進行排名。
而這也正是典型的“黑箱”(Black Box)——雖然我們可以獲得黑箱的輸入和輸出信息,卻無法弄清輸入數(shù)據(jù)如何變?yōu)檩敵鰯?shù)據(jù)。
蘋果公司針對涉及色情的應用程序曾提出的反色情原則則是“黑箱”的另一個實例。蘋果曾經(jīng)因為用戶通過桉樹程序能夠訪問“維多利亞時代純文字版本的《印度愛經(jīng)》禁止了該程序,卻又批準了其他具有同樣功能的應用程序。更荒謬的是在蘋果的 Safari 瀏覽器上《印度愛經(jīng)》也可以被找到。
谷歌官方聲稱,不公布排名方法是為了防止排名被人操控,但這種黑箱是否是另一種操縱?我們并不知道那些最先吸引我們注意力、最取得我們信任的內容究竟出于什么原因出現(xiàn)在頁面置頂,更不用說它們是否值得我們信任。
1
加劇壟斷
馬太效應描述的是強者愈強、弱者愈弱的現(xiàn)象。對于企業(yè)經(jīng)營來說,意味著大的企業(yè)中行業(yè)內收入、利潤、技術、人才的大部分資源,形成行業(yè)寡頭壟斷。而這種效應在互聯(lián)網(wǎng)行業(yè)尤其突出,在垂直互聯(lián)網(wǎng)行業(yè),排名第一的企業(yè)往往占據(jù)了80%以上的行業(yè)收入。
一家名為Foundem 的“垂直搜索”曾經(jīng)在英國主流的消費者和科技機構中贏得一片好評。但在 Foundem 創(chuàng)立不到 6 個月后,Google 公司便將其從“價格對比”關鍵詞下的“自然”(即無須付費)搜索首頁中移除了。Google 給出的理由是,F(xiàn)oundem 是一個基本上只包含網(wǎng)站鏈接的“質量低下”網(wǎng)站。為了使用戶免受垃圾信息和鏈接工廠的侵擾,Google 的運算程序直接對其進行了降級排名的處理。
Foundem 則認為 Google一旦進入(或計劃進入)某一搜索服務的次級市場,就會對其他的競爭者進行降級排名,以確保自身產品的優(yōu)勢凸顯。如果 Google 公司想要收購某個小型搜索引擎公司,它就會會剝奪競爭者的一切發(fā)展機會。
面對Google近乎壟斷的強勢,或許你認為可以選擇微軟推出的 Bing或是DuckDuck-Go來代替。然而,真的另一家巨頭公司取代 Google 嗎?目前為止,微軟每年在 Bing 上的損失高達 26 億美元。歐洲政府投資4.5億美元的 Quaero 多媒體搜索引擎項目根本無法與 Google 斥資 1 000億美元的年預算相競爭。
除了高昂的基礎設施成本外,更重要的是,搜索技術的創(chuàng)新需要有龐大的用戶群做基礎,這樣才能將各個運算程序“訓練”得更加靈敏,但這個用戶群目前為 Google 所有。分析創(chuàng)新取決于能否獲得大量的數(shù)據(jù),但這些數(shù)據(jù)也屬于 Google,他人無法共享。
就算有人確實推出了一個 Google 的完美替代品,他們必須通過這些現(xiàn)有的平臺來推廣自己的產品。如果 Google、蘋果、亞馬遜和 Facebook 對其采取抵制態(tài)度,那么這個競爭者推出的替代產品就可以不被人發(fā)現(xiàn)。
最后,即使 Google 會遇到勁敵,那這個能夠壓制 Google 的巨頭也肯定有一個黑箱外殼,隱秘且無人能接近。
2
侵犯版權
YouTube在早期是發(fā)布視頻的狂歡地,用戶將自己的內容上傳:消失了幾十年的老電影、晦澀的音樂表演、早期的動畫片、政治演說等,視頻長度達數(shù)百萬個小時。而很多視頻發(fā)布都未經(jīng)授權。2006 年,YouTube 以十多億美元的身價被 Google 收購,從而被奉為科技新貴。但YouTube 并不是所有人的寵兒。對于許多版權所有者而言,它就是侵權行為的頑固幫兇。
1998 年的《數(shù)字千年版權法案》加大了對網(wǎng)絡侵權行為的處罰力度,但同時也規(guī)定網(wǎng)絡服務提供商無須為用戶發(fā)布的內容承擔直接責任。因此,YouTube 認為,它在侵權行為中只是一個無辜者,就像用戶通過電話公司的線路播放了一首沒有被授權的歌曲,電話公司在沒有任何責任一樣。但《數(shù)字千年版權法案》還規(guī)定視頻搜索引擎在一定程度上有責任過濾掉盜版內容。例如,如果“信息定位服務”對明顯的侵權行為視而不見,那就至少要承擔次級責任。
但是在內容和渠道之間,互聯(lián)網(wǎng)公司總是以令人目不暇接的速度變化自己的身份。在面對版權和誹謗的訴訟時,他們聲稱自己不生產內容,只是傳播內容的渠道。但在其他情況下,又聲稱它們的服務屬于內容范疇,并且要求享有作為媒體公司自由發(fā)表言論、不被迫表達非己方觀點的權利。這樣的變化使得他們幾乎可以逍遙于管制之外。
對于版權的漠視也一直是百度飽受詬病的原因之一。同樣是在2011年針對百度版權的糾紛中,國家音樂創(chuàng)意產業(yè)基地總裁許曉峰曾在公開信中寫道:“百度在明知不法網(wǎng)站盜版行徑的前提下,仍然不惜助紂為虐,為他們提供深度鏈接這一通路和生存土壤,目的是獲得巨額流量,從而獲得廣告收入。百度作為知名上市公司,不應該充當盜版的幫兇,傷害音樂產業(yè)。”
3
榨取內容生產者
我們大多數(shù)人搜索一個網(wǎng)站,尋找的是網(wǎng)站上的內容。但是從Google 的角度來看,“信息”僅僅是另一種商品。內容、數(shù)據(jù)和信息基本上都可以簡化為 1 和0 這兩個二進制數(shù)字。
無論是職業(yè)、收入,還是成果的得失都取決于其是否能夠在網(wǎng)絡平臺中被凸顯出來。于是,“內容為王”成了老土的觀念,“酒香不怕巷子深”不再是真理,更多的人投入精力、金錢去運營渠道,而不是深耕內容。
這種模式與曾經(jīng)在零售界靠擠壓供貨商,提供更低價的商品吸引消費者成為美國最大的零售商的沃爾瑪異曲同工。它們極力壓低職員的薪水,榨取內容制作人的利益,并且讓用戶習慣性地認為搜索服務本身比網(wǎng)絡資源更具價值。而互聯(lián)網(wǎng)上貢獻內容的作家、音樂家、攝影師等,卻可能無法從龐大的用戶群中分享到絲毫利益。
4
決定世界
個性化的設置讓數(shù)據(jù)世界擁有了魔力。比如你把最心愛的耳環(huán)弄丟了,想再買一副,而幾年前你剛買到那副耳環(huán)時曾把耳環(huán)拍照后用電子郵箱發(fā)給了你的妹妹。當你再次通過 Google 圖片搜索耳環(huán)時,可能就會發(fā)現(xiàn)頁面上出現(xiàn)了一副一模一樣的耳環(huán)圖片,甚至耳環(huán)賣家。
在數(shù)字經(jīng)濟中,個性化成為購銷雙方的關鍵。網(wǎng)站對我們的定位會影響到它們將選擇什么樣的內容呈現(xiàn)給我們。準確契合的搜索結果可以吸引用戶,而準確鎖定的用戶則可以吸引廣告商。在為我們提供折扣或者捷徑的同時,搜索引擎通過大數(shù)據(jù)可能正在以另一種形式暗中牟利或者正在廣泛地搜尋獲利目標。我們的信息就是他人獲得巨額利益的源頭,但付出代價的人卻是每個普通的你。
更加令人不安的是Google 的搜索結果太過具體化,以至于我們看到的內容都是 Google 在我們的“訓練”下給出的結果以及 Google 希望我們看到的結果。企業(yè)家伊萊·帕里澤(Eli Pariser)曾將這種現(xiàn)象稱為“過濾泡沫”,他擔心個性化設置會加重偏狹和偏見的問題。
例如 2010 年的夏天,英國石油公司發(fā)生大規(guī)模石油漏油事件后,如果在 Google 中搜索“英國石油公司”,有些用戶會看到對于該公司破壞環(huán)境行為的強烈譴責,而另外一些用戶看到的則是有關該公司的投資機會。只有 Google 總部的搜索工程師們才有可能知道誰在看什么和他為什么會看到這些內容,而且他們在保密協(xié)議的約束下只能緘默其口。
作為一個根據(jù)用戶個人喜好定制的應用Twitter 在這方面也沒能例外。2011 年 9 月下旬,占領華爾街事件已開始引起媒體關注。然而,盡管“#占領華爾街”和“#占領”比官方熱門話題列表上的詞語收集到的內容還要多,但Twitter卻不對它們進行顯示。
活動組織者和支持者開始指責 Twitter 在操控運算程序,對政治敏感活動進行過濾,使得這些詞語不能出現(xiàn)在其熱門話題當中。該公司的反應非常迅速,Twitter的通信主管肖恩稱:“Twitter 并沒有阻止‘# 占領華爾街’成為熱門話題。熱門與否取決于流轉速度,而不是普及度?!?/p>
不同于Google一直強調這些過濾來自技術而不是人工干預,在百度競價排名被央視曝光之后,有媒體總編在接受《21世紀經(jīng)濟報道》記者采訪時表示,百度通過人工干預搜索結果,當傳統(tǒng)媒體有負面新聞時,百度可以通過屏蔽相關內容,獲得廣告,也可通過置頂?shù)茸饔梅糯筘撁嫘Ч?,讓廣告主上門討?zhàn)垺?/span>
更有企業(yè)反映一些不愿為此花錢的企業(yè)只能出現(xiàn)在搜索結果的末尾。據(jù)童年網(wǎng)負責人稱,網(wǎng)站創(chuàng)辦之初被百度收錄的網(wǎng)頁多達11萬多個,用戶可以輕易搜索到童年網(wǎng),然而在拒絕參與競價排名后,被收錄的網(wǎng)頁僅為兩個。
5
左右判斷
軟件可以在幾分之一秒內對數(shù)千條規(guī)則和指令進行編碼,隨著越來越多的軟件算法在權威領域中得到應用,以前通過人工判斷做出決策的我們,現(xiàn)在卻是以自動化的方式得出結論。喬治·戴森在《圖靈大教堂》一書中這樣諷刺道:“Facebook 決定了我們是誰,亞馬遜決定了我們想要什么,Google 決定了我們怎么想。
當我們想去一家新餐廳時,搜素程序不但會在無形之中影響著我們的路線選擇,而且決定著 Google、Yelp、OpenTable 或 Siri會向我們推薦哪家餐廳。在很多時候,搜索用技術的方法,以客觀為名,代替我們作出判斷。
許多共和黨人抱怨說, Google 傾向于在其搜索結果中對右翼黨派進行嘲笑或排斥;后
來,喬治·布什和奧巴馬雙雙遭到“Google 炸彈”的襲擊,對手將他們的名字與“悲慘失敗”聯(lián)系起來出現(xiàn)在搜索框中的自動完成的選項上。據(jù)福克斯新聞網(wǎng)報道,保守黨曾經(jīng)不滿地表示,Google 在處理奧巴馬遭遇的“炸彈”事件時行動非常迅速,而在處理布什事件時則用了將近4年的時間。
2012 年一個名為貝蒂娜·伍爾夫的德國名女性曾迫不得已在德國申請過 30 多項禁止令來阻止博客用戶和記者們將她的過去曲解為色情史,而這一切起因于每當用戶在搜索框中輸入她的名字時就會看到“貝蒂娜·伍爾夫妓女”和“貝蒂娜·伍爾夫陪伴”的字眼出現(xiàn)在“自動完成”的下拉列表上。這些詞語反映了伍爾夫的緋聞,而這些緋聞并無根據(jù)。伍爾夫擔心人們會只根據(jù)這些“自動完成”項對她蓋棺定論。
對于貝蒂娜·伍爾夫所投訴的錯誤關聯(lián)現(xiàn)象,Google 公司認為,用戶才是對所讀內容進行判斷的主體。自動完成項是由反映用戶的搜索行為和 Google 索引的網(wǎng)頁內容的算法確定的。
但是算法不會出錯嗎?媒體研究學者塔爾頓·吉萊斯皮曾在博文中指出:網(wǎng)絡平臺提供者依靠復雜的算法對收集到的大量內容進行管理、整理和組織所呈現(xiàn)的結果和人們對這些算法的期待發(fā)生了嚴重的偏離。而作為平臺的搜索引擎卻只是簡單地把這種偏離歸結于算法,從而逃避自己的責任,并且心安理得地對偏離放任自流。
6
用廣告騙你
我們免費獲得搜索引擎上海量的信息、便捷的技術、較為優(yōu)質的服務,但是這種免費往往意味著要付出其他巨大的代價。相較于收費的產品以價格作為代價的成熟商業(yè)模式,免費模式的代價是隱性的。更重要的是當你接受商家免費提供的商品和服務,那么你就不再是他們的客戶,而變成產品。
Google 公司的所有收入幾乎都來自那些渴望借助 Google 的覆蓋面來尋找目標客戶的市場營銷人員。隨著搜索引擎的發(fā)展,它們將廣告置于結果頁面的頂部或兩側,將未受商業(yè)影響的排名結果顯示在頁面中間。Google這種在廣告投放方面的透明性為其帶來了高質量的搜索結果并贏得了廣大用戶的信任,使得大量的用戶流向 Googl e,并在其崛起中發(fā)揮了重要的作用。
但在 2012 年,Google在從通用搜索領域進軍到網(wǎng)絡購物等專門領域后就不再對付費內容和編輯內容進行區(qū)分了。于是,當某家酒店和花店出現(xiàn)在搜索頁面上時,用戶已經(jīng)難以區(qū)分這是品質排名還是競價結果。Google 的創(chuàng)始人謝爾蓋·布林和拉里·佩奇早在 1998 年就承認,“依靠廣告資助的搜索引擎將不可避免地偏向廣告商并遠離消費者的需求”。
Google 并不是唯一引起監(jiān)管機構注意的公司。Blogs 網(wǎng)站不斷地提供讓某一軟件在蘋果商店約 50 萬個軟件中脫穎而出的方法;在 2012 年,F(xiàn)acebook 也推出了使用戶可以通過付費來推廣他們的帖子的服務。一些未付費的用戶發(fā)現(xiàn)他們的帖子突然間被人視而不見,他們認為 Facebook 的這一行為是在強迫用戶交費。
在國內,自從2008年央視曝光百度搜索醫(yī)藥結果中存在大量競價排名現(xiàn)象之后,百度搜索引擎中攙雜廣告并不以顯著方式聲明的問題,日益受到社會關注。相比Google搜索將競價排名結果用不同顏色底紋顯著標出,百度“競價排名”與自然搜索結果的區(qū)別只是前者在網(wǎng)頁摘要下顯示的是“推廣”小字,后者顯示的是“百度快照”。
除此之外,二者的界面沒有任何區(qū)別。甚至在業(yè)內流傳著許多用戶在百度上搜索資料時,會直接點第二頁去找真正需要的資料,因為第一頁全是競價排名的結果的笑話。而作為廣告,百度不僅相當于強迫甚至欺騙用戶接受捆綁服務,并且并未如實將競價排名作為廣告申報,更不要說設置廣告審查員進行審查。
Google認為在排名算法上透露的信息越多,排名就越容易被人操控,從而引發(fā)了類似于貓捉老鼠游戲的“搜索引擎優(yōu)化”大戰(zhàn)。因此,Google 急于對排名方法進行保密,于是搜索服務就變成了黑箱業(yè)務。對于已經(jīng)公開的網(wǎng)頁排名專利,Google 已經(jīng)在原有基礎上對其進行了秘密、復雜的變動和調整,目的就是要打擊網(wǎng)絡蛆蟲。在清晰有序的搜索結果背后,一場游擊戰(zhàn)正在搜索工程師和垃圾信息制作者之間打得如火如荼。