又有一個巧合,我現(xiàn)在的愛人當(dāng)時是我的同學(xué),她在海外時是學(xué)金融,我為了追求她就去她班上幫她蹭課,光蹭課沒誠意得幫她寫作業(yè)。幫她寫作業(yè)時發(fā)現(xiàn)金融理論里這一系列理論都非常原始,用excel拖拉拽的方法非常落后,我想能不能用人工智能技術(shù)預(yù)測呢?當(dāng)時做了一個嘗試用神經(jīng)網(wǎng)絡(luò)預(yù)測美股的市場,當(dāng)時把1970年的數(shù)據(jù)30年的數(shù)據(jù)放進(jìn)去,嘗試預(yù)測周度的成功率,當(dāng)時周度成功率達(dá)到60%左右,后來一直從事這方面的嘗試,到今天差不多十年時間。現(xiàn)在天弘基金做的新的嘗試又在哪些領(lǐng)域有新的發(fā)現(xiàn)呢后面也跟大家分享一下。
首先人工智能自己本身有三大件,硬件算法和大數(shù)據(jù),天弘基金做的是什么?我們不是一家硬件公司,也不是算法公司,更多做的是金融的大數(shù)據(jù)或者金融的樣本。我之所以加入天弘基金我非常認(rèn)可天弘基金在阿里巴巴整個文化下面有非常開放包容的心態(tài),我們能夠拿到很多數(shù)據(jù)。很多人知道天弘基金是因?yàn)橛囝~寶,余額寶管理15000億資產(chǎn)有3億用戶,平均每5個中國人當(dāng)中有一個是我們的用戶。在這樣一個龐大用戶群體下我們有很多數(shù)據(jù),在這樣數(shù)據(jù)的基礎(chǔ)下可以做很多的AI的研究和嘗試,比如對宏觀的經(jīng)濟(jì)預(yù)測對產(chǎn)業(yè)的預(yù)測,不是僅僅停留在以前理論層面上,而可以通過數(shù)據(jù)來進(jìn)行一些探索。
下面這幅圖是股票投資研究體系的流程,一家基金公司如果選出一支好的股票是怎么選的。這個圖我一直在思考,到底有多少環(huán)節(jié)能夠被AI所替代,換句話說有多少環(huán)節(jié)必須需要人來處理,這個我現(xiàn)在沒有明確的答案,也是我一直思考的話題。
就我自身來看有很多環(huán)節(jié),不低于50%以上的工作崗位在AI的時代可能需要重新定義和升級。如果不在AI的時代中進(jìn)步很可能在AI時代下被淘汰。傳統(tǒng)金融掙的錢一個是牌照、一個是信息不對稱,專業(yè)的人知道,但散戶不知道,互聯(lián)網(wǎng)時代、大數(shù)據(jù)時代把信息不對稱已經(jīng)極大地降低了,很多人可以通過社交媒體了解公司的情況,不是非得依賴這樣的金融機(jī)構(gòu)。金融機(jī)構(gòu)在信息時代的優(yōu)勢到底在哪兒?
作為天弘基金一家專業(yè)的金融機(jī)構(gòu),尤其是在阿里巴巴旗下一個非常重要的金融板塊,天弘基金一直倡導(dǎo)的價值觀也是創(chuàng)新和嘗試。非常有幸,我加入時是一個技術(shù)人員,一直在用技術(shù)做余額寶和相關(guān)數(shù)據(jù)的挖掘。但是在2015年時有機(jī)會給我30分鐘在公司500人面前的演講,當(dāng)時我們董事長支付寶董事長井賢棟也在場,我說明年會有一場非常重要的事件AlphaGo,我預(yù)測AlphaGo可能會贏得世界冠軍,當(dāng)時已經(jīng)在歐洲贏了樊輝,我們2015年時開始計(jì)劃。2015年時我們嘗試用AI替代初級信用分析師,金融行業(yè)有信用分析師讀新聞、公司相關(guān)信息,這些信息讀完之后要進(jìn)行分析和加工,這些工作對我看來用人來說,尤其公司招的很多人是北大、清華以前考試都是高考狀元,讓他們做這些工作有資源上的浪費(fèi)。后來我們嘗試了一些應(yīng)用,可以公開說的應(yīng)用是鷹眼,這個已經(jīng)拿到專利,也是對外公開。
這個專利是公募基金第一塊國家信用裝置,是信用評估方法的裝置。鷹眼評估算法是怎么做的?當(dāng)時找信用分析師一塊讀新聞,讀了10萬條新聞,拿其中八萬條新聞放到鷹眼算法里。先做分詞再分類,分正面、中立、負(fù)面,拿剩下兩萬條讓AI評價一下,剩下2萬條自己知道答案,8萬條當(dāng)時在時花了很多時間、很多資源,樣本收集整理花了三個多月的時間,剩下兩萬條新聞AI看5分鐘就看完了。如果它5分鐘看完和人看完的結(jié)果一樣,我們就沒必要看了。
第一版算法沒有經(jīng)過任何優(yōu)化時,準(zhǔn)確覆蓋率在85%左右,當(dāng)時我們非常驚訝,原來這個套路這么深,模式這么明顯。所以后來就嘗試?yán)^續(xù)提升算法,到今天做了兩年的提升,除了SBM當(dāng)時第一版入門的算法,嘗試了十余種算法,升級了機(jī)器,利用阿里云的優(yōu)勢。
現(xiàn)在這個算法提升到96.7%的水平,絕大多數(shù)的新聞現(xiàn)在在外面新聞不用自己在網(wǎng)上看,基本看鷹眼看完之后的二次信息。
簡單說看新聞這件事情到底對金融有什么影響,這后面是數(shù)據(jù)。從2015年開始開發(fā)到2016年一整年,難得是一整年的實(shí)際數(shù)據(jù),2016年時開始有信用債違約,也就是說有公司不還錢,以前把錢借給公司肯定要還錢,2016年國企、央企開始不還款了。2016年一共有79家企業(yè)不還款或說違約,鷹眼算法把發(fā)債4000家公司做了排名,從最容易違約到最安全的,排名之后前1%認(rèn)為是黑名單,10%是灰名單。這79家公司80%都在會名單里,從這個結(jié)果也可以看得出來,在互聯(lián)網(wǎng)上通過這些新聞分詞、語義、ALP包括情緒識別,已經(jīng)可以勝任信用分析師,而且是非常高級信用分析師團(tuán)隊(duì)的能力。