因?yàn)閿?shù)據(jù)太多,所以計(jì)算特別的慢,所以需要非常大的計(jì)算量。
如何識(shí)別網(wǎng)站內(nèi)的正文位置倒還是個(gè)比較好解決的問題,如果你心一橫,決定只從幾大(十幾大)主流媒體內(nèi)復(fù)制文章的話,用if else都是可以解決的,畢竟雖然每個(gè)網(wǎng)站之間正文部分的規(guī)律不同,但每個(gè)網(wǎng)站內(nèi)部的文章還是基本遵循相同規(guī)律的。實(shí)在想做一個(gè)通用的算法來說,規(guī)律也不難找,比如正文部分的文字密度會(huì)突然變大而html代碼的密度則會(huì)暴跌,比如正文的始終基本都是<p></p>。如果網(wǎng)站每天能更新四五百篇文章的話,估計(jì)訓(xùn)練個(gè)十天左右就能達(dá)到非常高的準(zhǔn)確度了。
難點(diǎn)在于“追熱點(diǎn)”??!
互聯(lián)網(wǎng)的熱點(diǎn)每天都在變化,你的算法怎么知道今天的熱點(diǎn)是什么?又如何知道算法正在掃描的這篇文章是不是跟熱點(diǎn)有關(guān)的文章,寫的如何?要讓算法訓(xùn)練出判斷這些信息的能力,怎么說也要掃描個(gè)幾千萬上下篇文章來訓(xùn)練吧?作為一個(gè)終極發(fā)燒友碼農(nóng),你第一次感覺到了你面前的那臺(tái)電腦里的8核i7和GTX Titan是那么的無力,哎,寫個(gè)爬蟲慢慢爬著先吧。看改天能不能改天網(wǎng)絡(luò)低峰期用公司的服務(wù)器偷偷跑一跑。
要讓深度學(xué)習(xí)算法自己進(jìn)化到一個(gè)比較高的水平,李開復(fù)老師估計(jì)至少要有10億級(jí)別的數(shù)據(jù),如此龐大的數(shù)據(jù)是相當(dāng)難以收集的。而且,只有這些數(shù)據(jù)都是你自己的時(shí)候,他們?cè)谀闶种胁拍馨l(fā)揮出真正的價(jià)值,并且由于數(shù)據(jù)量的龐大其需要的運(yùn)算量也是相當(dāng)龐大的,要在深度學(xué)習(xí)領(lǐng)域大展身手,最好有自己的計(jì)算設(shè)備,比如擁有自己的服務(wù)器機(jī)群。因此我們看到,初期在人工智能有所建樹的都是世界級(jí)的、像微軟、谷歌和Facebook這樣的公司,他們不僅擁有更多的資金、更好的人才,最重要的是,他們擁有海量的數(shù)據(jù)。
深度學(xué)習(xí)挑戰(zhàn)之三:沒有反饋
“有點(diǎn)奇怪但也合理:機(jī)器無法用人的語言告知做事的動(dòng)機(jī)和理由。即便機(jī)器訓(xùn)練做了很棒的深度學(xué)習(xí),人臉識(shí)別、語音識(shí)別做的非常棒,但它不能和人一樣,它講不出來這是怎么做到的。雖然有人也在做這方面的研究,但是在今天,如果一個(gè)領(lǐng)域是不斷需要告訴別人該怎么做,需要向別人去解釋為什么的,那這個(gè)領(lǐng)域?qū)τ谏疃葘W(xué)習(xí)來講還是比較困難的。比如Alpha Go打敗李世石,你要問Alpha Go是為什么走這步棋,它是答不上來的。”
深度學(xué)習(xí)只是一個(gè)算法,它只能根據(jù)自己的初始設(shè)計(jì)不斷改變自己,但沒法通過一個(gè)有效的途徑告訴你它是怎么改進(jìn)自己和怎么在改進(jìn)后做出每一次選擇的,因此很多時(shí)候你只能通過它的最終表現(xiàn)來猜測(cè)它的運(yùn)行狀態(tài),然后瞎貓碰死耗子的改進(jìn)最初的算法了。而且你可能也沒法從算法的進(jìn)步上獲取幫助自己進(jìn)步的信息,比如李開復(fù)老師舉的AlphaGo的例子。
當(dāng)然,作為一個(gè)世界級(jí)的碼農(nóng),你是肯定知道這些的,而且也一定能根據(jù)算法最終的表現(xiàn)發(fā)現(xiàn)問題在哪里的,因?yàn)楫吘惯@個(gè)問題在結(jié)果上體現(xiàn)的還是比較明顯。
在這個(gè)虛擬的世界里,我們決定給所有苦逼的編輯們一個(gè)完美的結(jié)局:心懷天下的碼農(nóng)成功開發(fā)出了一套“全自動(dòng)文章轉(zhuǎn)載機(jī)”,這家媒體的編輯們終于能夠騰出一些精力,寫一些能夠精細(xì)打磨的文章了。
所以你看,雖然不知道AI最終會(huì)不會(huì)毀滅我們,但看起來它們倒是很快就能拯救不少人呢
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!