正文

獨步天下的谷歌算法(8)

星球Google 作者:(美)蘭德爾·斯特羅斯


盡管如此,如果遇到非人工因素引起的算法方面少量的簡單錯誤時,谷歌還是允許作一點細微的調整。例如,一個關于“O’Reilly”的搜索結果僅與保守黨時事評論員比爾?歐萊利(Bill ’Reilly)相關,把其他可能的結果(如名列“財富500強”的O’Reilly汽車部件公司)都排除在外。谷歌承認這是個問題,但這是由特殊情況造成的,對算法的等級排名來說是個例外。經過調整后,關于“O’Reilly”的索引結果的第一頁分為三段,第一段是混雜的O’Reilly鏈接,第二段是O’Reilly汽車部件公司,第三段是Bill O’Reilly。布林和佩奇懂得,人工介入的調整手段,決不能頻繁使用;然而他們也完全承認,人類能夠充當質量管理的檢察員。谷歌聘用人工評估員對算法經各式微調后所推出的結果的質量進行檢查――2007年,谷歌在世界范圍內與1萬人簽訂了合同,請他們做質量評估。但他們的反饋只用于對算法本身進行調整,而不涉及單獨詞語的搜索結果。如果谷歌允許在搜索之后用人工對算法進行復評或對結果進行調整,那么系統(tǒng)必然會慢到無法接受的程度。在谷歌,對規(guī)模的追求永遠是第一位的,這就要求幾乎完全依賴自動化程序(另一個小小的例外是它希望用人工排除那些已經被用戶舉報為垃圾的鏈接)。雅虎無法隨著Web的增長而擴展由人工編輯的目錄,暴露出依賴人工的系統(tǒng)的局限性。谷歌要避免雅虎的錯誤,就必須具備與Web同步增長的能力。

谷歌的算法不能順利地轉為Web以外的信息種類,如圖書和視頻。Web以鏈接的形式提供了豐富的內部數據,算法可以利用它們來判斷它所處理的信息的質量。那么,它能夠掌握內部線索不相同的數據嗎?谷歌最終需要改變它對公式的依賴而更多地認可人工輸入嗎?“社會搜索”――即用戶對某個網頁的關聯(lián)性和有用性的評價決定該網頁在搜索結果中的顯示位置――能夠處理更廣泛的信息分類系列并且比算法做得更好嗎?要認識算法模式在新領域的應用潛力及其局限性,只要近距離觀察谷歌如何在新項目中擴大其領域,就可以對這個問題有比較正確的理解。

認可度較低的試驗始于2002年3月,當時谷歌決定在信息分類、集合、給新聞報道劃分等級等方面嘗試用算法代替人工編輯。當谷歌的管理層準備引入這項服務時,公司內部對于完全依靠軟件來決定哪些報道應該放在谷歌新聞網頁的顯著位置的做法是否明智有過不同意見。谷歌的產品管理和營銷高級副總裁喬納森?羅森伯格(Jonathan Rosenberg)建議道:“只要分一些編輯去做這項工作,我們的新聞產品在互聯(lián)網界就會是最好的?!钡抢?佩奇否決了這項提議,因為“人工方案不具規(guī)?!薄?/p>

當谷歌新聞網站在2002年9月正式推出時,它引用的新聞來源有4000多個。在新聞頁面的底端印有一個心血來潮的啟事:“本網頁在編制過程中無人受到傷害,甚至無人被利用?!痹谝粋€針對谷歌新聞提出問題的頁面的頂端,公司自己的提問和回答是――問:“谷歌新聞主頁的編輯是誰?有一條新聞的標題非常亂?!贝穑骸坝嬎銠C算法,沒有人工介入?!惫雀栩湴恋刈尵庉?、責任編輯和執(zhí)行編輯的位置空著?――決定某條新聞上頭條的不是某個人,也沒有政治觀點或意識形態(tài)的因素摻雜在內。谷歌說,和搜索網頁的運算規(guī)則一樣,編輯新聞報道的運算規(guī)則“也主要依靠網站出版商的集體判斷來確認哪些網站提供了最有價值又最有意義的信息”。谷歌知道,它的算法還存在著一些缺陷,所以只要讀者發(fā)現了“奇怪的結果”,一個電子郵件就可以讓谷歌的工程師知道,不必用人工調整結果,而只需幫助“微調一下算法”即可。


上一章目錄下一章

Copyright ? 讀書網 www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號