最近阿里入股新浪,鬧的滿城風(fēng)雨,各種評論橫空出世。那么本人基于公司基因的角度和看未來的角度,來解讀并暢想各種事情。(文中部分字段是宏觀思考而非具體細(xì)節(jié),請勿糾結(jié))
1. 大數(shù)據(jù)、人工智能與百度
阿西莫夫在他的《基地》科幻小說系列中有一個非常誘人的理論,銀河系帝國首相謝頓為了縮短人類文明崩潰后的恢復(fù)時間,將數(shù)學(xué)、統(tǒng)計學(xué)和心理學(xué)熔于一爐,造就了一整套數(shù)學(xué)模型,成就了可以預(yù)測人類歷史未來的“心理史學(xué)”,并將其用于人類帝國的重建工作。雖然非??苹?,但和今天的大數(shù)據(jù)其實有很多相通之處。
誰更加適合做大數(shù)據(jù)?
眾所周知,大數(shù)據(jù)應(yīng)當(dāng)做的就是預(yù)測需求,呈現(xiàn)相關(guān)性,為需求鋪路。阿里浪不出意外也許會做這么一套數(shù)學(xué)模型,但如果要指望它們真的做好,就不大可能了。他們能做好那不叫科幻應(yīng)該叫夢幻。
阿里與新浪的創(chuàng)立之初就不具有大數(shù)據(jù)基因,淘寶的數(shù)據(jù)魔方在百度看來只是一個小玩具罷了。你既然脫離淘寶做數(shù)據(jù),那就勢必要做大數(shù)據(jù)。但如果真要做大數(shù)據(jù),事實上應(yīng)該讓有數(shù)據(jù)基因的公司來做,也就是百度。(很多人可能會有,還有谷歌呢?其實如果從語義語詞的識別上來說,百度確實對中國更加了解)
事實上大數(shù)據(jù)應(yīng)該分層來看,淺層的大數(shù)據(jù)是非常好搞定的。如《大數(shù)據(jù)》中百貨公司給未成年少女寄孕婦產(chǎn)品目錄就是一個非常好的淺層案例,根據(jù)消費者購買東西的情況推算她可能將要購買什么。這個非常明顯,也無可厚非。但是在淺層之前還存在著深層次的數(shù)據(jù)挖掘,它是非常難以提煉的,“從阿里浪看大數(shù)據(jù)的層級關(guān)系”一文就指出,一個人可能喜歡蘋果但是在購物的過程的最后選擇了橘子,這樣的事情是大數(shù)據(jù)無能為力的。在該文作者看來解決這一方法的唯一途徑是選擇一個好的數(shù)據(jù)礦,而我并不贊同。個人認(rèn)為應(yīng)當(dāng)進(jìn)行人工智能解析,用人工智能去挖掘,再去影響消費者決策。
大數(shù)據(jù)與人工智能
由于信息的不對稱,很多人覺得百度除了賺醫(yī)療競價黑心錢之外就沒有向上奮斗過,事實上百度除了在賺黑心錢以外還是奮斗的。百度的奮斗原因更多的不是對用戶體驗的追求,而是對黑帽SEO 的控制。這就好比殺毒軟件必須把最基本的殺毒做好,與病毒斗爭一樣。這也就逼的百度自身進(jìn)步,原因很簡單,如果百度控制不了黑帽就會破壞用戶體驗,一旦用戶體驗下降流量就會大量流失,這是百度最不愿意看到的。所以百度和谷歌一樣經(jīng)常大變算法,寧可錯殺也不漏殺。Chinaz 這樣一個行業(yè)老站都曾經(jīng)被K得只剩1W收錄。(被K指網(wǎng)站已經(jīng)達(dá)到正常收錄的狀態(tài)下因為作弊或者其他原因,百度等搜索引擎突然刪除了所有網(wǎng)頁或只留下首頁。)
與其說百度做大數(shù)據(jù),倒不如說搜索引擎在為人工智能鋪路。谷歌最近不就是想要嘗試“復(fù)制人類大腦”嗎,這種事情如果沒有背后強(qiáng)大的數(shù)據(jù)庫,那是根本不可能的事情。正因為有了大數(shù)據(jù)才有了可能。
百度對 SEO黑帽的控制,撇開黑鏈、刷點擊、刷相關(guān)、入侵政府網(wǎng)站欺騙蜘蛛、虛擬外鏈及其黑客的事情之外,百度其實最要管的還是偽原創(chuàng),所謂偽原創(chuàng)就是對文章進(jìn)行關(guān)鍵詞替換和段落的重新排序,達(dá)到欺騙搜索引擎的目的。這樣的文章是搜索引擎最痛恨與頭大的,我們現(xiàn)在站在搜索引擎的角度去考慮,百度要做的事情其實就是要做一個大數(shù)據(jù)相關(guān)性的大連接,比如出現(xiàn)同義詞“A”,它會和“B”的意思進(jìn)行相關(guān)性混編,探測重復(fù)指數(shù)。根據(jù)相關(guān)性的重復(fù)疊加度,來提取文章的關(guān)鍵指紋進(jìn)行相似性判斷。一旦超過某個相似性數(shù)值就會自然剔除,達(dá)到排除偽原創(chuàng)的目的。當(dāng)然綜合來說肯定會考慮站點權(quán)重問題,這里撇開不討論。
百度近日已經(jīng)開始在搜索頁面標(biāo)注內(nèi)容原創(chuàng)與否
也就是說百度已經(jīng)達(dá)到了對關(guān)鍵詞的相關(guān)性大聯(lián)結(jié),并且能夠利用用戶新的搜索次數(shù)來再造新詞,并且和老詞進(jìn)行再聯(lián)結(jié)。百度目前的缺陷就是無法對首次原創(chuàng)文章進(jìn)行第一名排序,站點權(quán)重至上的算法還沒有變過,這點比不了谷歌,也有可能是中國的互聯(lián)網(wǎng)環(huán)境太亂使得百度不愿意輕信草根站點,寧可讓原文展示在高權(quán)重可信站點上。但試想如果讓百度脫離站點權(quán)重至上的思維,進(jìn)行原創(chuàng)文章的大關(guān)聯(lián)排序會是一種什么樣的情況?