本文基于第一屆網絡經濟與大數據國際會議-申德周的演講稿整理而成。
大數據是近些年來的熱門話題,無論國際上還是國內,影響很大。經濟學、政治學、社會學和許多科學門類都會發(fā)生巨大甚至是本質上的變化和發(fā)展,進而影響人類的價值體系、知識體系和生活方式。而全球經濟目前生成了史無前例的大量數據,如果把每天產生的大量數據比作神話時期的大洪水是完全正確的,這個數據洪流是我們前所未見的,他是全新的、強大的、當然,也是讓人恐慌但又極端刺激的。
而我所分享的話題,正是在互聯網環(huán)境下,如何利用大數據技術,進行股票預測的研究。–今天,我想分享我認為有意義的四點。
1.大數據下的商業(yè)預測
根據大數據,我們可以有效地進行故障、人流、流量、用電量、股票市場、疾病預防、交通、食物配送、產業(yè)供需等方面的預測。而本文我們所關心的內容是股票市場的預測。
大數據的核心是預測,預測依賴于對數據的分析。那么分析的方法是否是基于隨機采樣的結果而設計的,這樣的分析方法是否會有誤差?
從傳統(tǒng)認識上,由于資源和科技的局限,如人和計算資源受限、從計算機處理能力來講無法處理全部數據來獲取人們所關注的結果。因此隨機采樣應運而生,通過所選取的個體來代表全體,如使用隨機抽取的方式來使得推論結果更科學。但既然提到了大數據,它是資源發(fā)展到一定程度、以及技術發(fā)展到一定階段產生的一個新的認識。如同電力的出現,使人類進入了一個快速發(fā)展階段,大數據也一樣,它的含義是全體樣本,從整體樣本來做推論。在本文大數據的含義是所有股票在整個社交網絡上的流動信息,從數據源上講,本文沒有采用所有社交網絡上的數據,只分析了微信這個最具代表性的社交媒體作為信息源。
互動數據能反映用戶情緒,搜索數據能反映用戶的關注點和意圖,在股市預測時這兩種數據哪種更具有參考價值?
我認為都有價值,互動數據反映了用戶對某一特定股票的喜好和厭惡,可以簡單描述為對該股票的操作是繼續(xù)持有還是賣出;而搜索數據則代表用戶在收集該股票信息的過程,它是關注度的概念,某只股票搜索度高則意味著消息的影響力大。互動代表著方向,搜索代表著振幅。
我們知道這兩種數據得出的結論會有差異,您是如何平衡這兩種數據反映的情況來進行預測的?
正如上一個問題里提到的,如果是股票推薦,買進賣出等原則問題,則應該考慮互動數據,但如果已經買到手了,搜索數據可以提供一個幅度的概念,類似債券評級A級、AA級、AAA級等,供投資者參考,因為不同投資者對風險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發(fā)布,是否意味著主要發(fā)布渠道是微博?現在微信公眾號很火,有沒有考慮通過這個渠道也發(fā)布消息?
事實上,信息傳播的方式很多,微信作為新媒體當然影響力不容小覷,但目前技術投入最小的還是郵件、短信等方式,未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息,那么推送的消息會不會作為數據來源被再次采集?這會有多大的影響?