所以,那些尋求資本市場大數據挑戰(zhàn)的技術專家們,我們的合作點不在我出數據你出技術,而在你幫我找到讓兩個領域的數據之間能產生化學反應、產生全新生態(tài)的跨界關聯(lián)模式。我們翹首以待這樣的專家橫空出世。當然我說的兩個領域,不限于兩個傳統(tǒng)領域??梢砸粋€是傳統(tǒng)領域,另一個是全新打造的新潮領域。
我一直在想,如果有哪一項服務能匯聚全資本市場的流量,如果有哪一項服務能沉淀全資本市場玩家的行為數據,如果有哪一項服務能在傳統(tǒng)的行情和資訊服務之外另辟蹊徑并且與傳統(tǒng)服務產生跨界關聯(lián)的“化學反應”,我們這個行業(yè)的業(yè)態(tài)將會隨之發(fā)生顛覆性的變化。
三、“機器可讀新聞”
在諸多面向資本市場的新興服務形態(tài)中,我最關注的,是糅合了文本挖掘、情感分析技術的“機器可讀新聞”。我想就這個問題與大家展開來分享一下。
去年年中,美國股市出現(xiàn)了一個奇葩的事情:當黑客黑掉美聯(lián)社網站,發(fā)布白宮被炸、奧巴馬受傷的消息后,美國股市瞬間跳水,反應時間在秒級。
使我感到驚奇的不是黑客的手法有多高明,而是這反應時間怎么會這么短。很難想象人肉對這個消息能有如此迅速的反應。在這個反應鏈條中起關鍵作用的就是這個“機器可讀新聞”。
所謂機器可讀新聞,其原理是,對原始新聞文本進行自動化的分析,在一定條件滿足時,就形成一條攜帶預先定義好與這種條件相匹配的電子標簽數據。自動化程序交易系統(tǒng)可以自動識別這樣的電子標簽數據,并在資本市場上做出響應動作。這意味著,機器不僅讀得懂行情數據,也在一定程度上讀得懂插入了電子標簽的(基本面)文本資訊數據。當然,他們的系統(tǒng)大多是針對英文的,而且判斷的邏輯目前還稍嫌簡單粗暴,否則也不會有這樣的烏龍了。
但是公平地說,這是一個巨大的機會,特別是,針對中文還沒有這樣的東西,中國的資本市場還處在新興加轉軌的階段,信息不對稱還很普遍地存在,用機器代替人肉來扒皮有很高的價值,所以機器可讀新聞這玩意兒,誰先搞出來,誰就徹徹底底占有了先機。
特別是,以互聯(lián)網金融為代表的普惠金融,必然地會涉及更加草根化的公司的直接融資需求,在這個領域信息不對稱十分嚴重。用機器可讀新聞來打破信息不對稱,幫助投資者更好地掌握自己所投資的公司的全面信息,那可是如虎添翼了。
提問:@柚子:那和爬蟲技術有什么區(qū)別?
爬蟲不看內容,但屬于基礎設施。爬回來的東西在瞬間精選,不僅判斷跟啥相關,還判斷對相關投資決策而言是正面還是負面,這才是機器可讀新聞。
其實,標簽的潛在啟示作用比其字面啟示作用更大。今天大家盛傳東莞掃黃的信息意味著什么股看多什么股看空,這就是標簽沿價值鏈的傳播。有了好的傳播模型,標簽的價值會更加超出預期。
機器可讀新聞作為信息服務,單獨看已經有了這樣的機會,與資本市場傳統(tǒng)的信息服務結合起來看就更加不同了。誰訂閱了什么標簽,誰看了哪只股票的行情,誰在什么產品的什么價位上發(fā)表了哪些實質性的評價和建議……如果借助一定的媒介實現(xiàn)了這些跨界數據的集成,這種互聯(lián)網打法一定會顛覆我們這個行業(yè)信息服務的既有業(yè)態(tài)。
互動:@趙國棟:爬蟲先爬,然后“智蟲”解讀!標簽鏈?。?/p>
我注意到,今天傳播的段子中,既有掃黃影響到桑拿,也有桑拿影響到供水。這是典型的標簽沿價值鏈傳播。
提問:@雨醉天堂:請問白老師,行為金融學和大數據收集分析算不算這個領域
算,過去量化投資決策的很多事情,不是都由計算機來做了嗎?國內已經有一些IT公司試圖進入這一領域(畫外音:具體是哪家,大家自己發(fā)動個人智慧去吧,蘊含了股市中的機會哦)
兩個方向:結構化數據->新聞文本 vs. 新聞文本->結構化數據。前者是數據新聞,后者是機器可讀新聞。數據新聞是新聞的撰寫流程自動化、表現(xiàn)的數據化,機器可讀新聞是實現(xiàn)文章這種非結構化數據的結構化。
互動:@徐琪:“機器可讀新聞”無疑是人類努力開發(fā)的一個方向,但是白老師所提到的股市瞬間下跌還是和這沒有關聯(lián)。
@白碩:
三種可能的情況:(1)有人值守在美聯(lián)社的twitter賬號上;(2)有自動化的watchdog一頭盯在包括美聯(lián)社twitter賬號在內的一批信息源上,一頭連在自動化程序交易軟件上;(3)有第三方服務的watchdog一頭盯在一批信息源上,一頭把轉換成的機器可讀新聞喂給其客戶的自動化程序交易軟件。不排除(1)和(2)同時作出了反應, (3)這種服務形態(tài),搭架子容易,有好的質量難, 但是絕對是方向。