會(huì)被采集,但互聯(lián)網(wǎng)上的每日關(guān)于個(gè)股的信息數(shù)量會(huì)達(dá)到很大,該推送會(huì)增加推薦股票1點(diǎn)權(quán)重,每只股票的權(quán)重成百上千,因此影響極小。
數(shù)據(jù)來源是微信公眾號(hào),除了準(zhǔn)確性的考慮之外,是否還考慮過這樣收集數(shù)據(jù)會(huì)較少觸犯?jìng)€(gè)人隱私?
從法律角度來看,搜索微信或其他個(gè)人聊天記錄,是侵犯?jìng)€(gè)人隱私權(quán)的,因此如果騰訊開放了這樣的接口,每個(gè)公民都可以對(duì)這樣的行為進(jìn)行投訴、抗議、甚至進(jìn)行法律起訴直至其改正過錯(cuò)、賠償損失的。
這樣是否意味著即使存在違法的行為,其結(jié)果也是由騰訊來承擔(dān),而我們作為數(shù)據(jù)的使用方不需要承擔(dān)任何法律責(zé)任?
在整個(gè)社會(huì),我們作為系統(tǒng)技術(shù)提供方,應(yīng)恪守大數(shù)據(jù)的倫理道德,遵守國家法律,如侵犯?jìng)€(gè)人隱私,系統(tǒng)不會(huì)采集,谷歌有一句座右銘“谷歌不作惡”,本文提到的系統(tǒng)也一樣。
2.基于大數(shù)據(jù)進(jìn)行股票推薦實(shí)驗(yàn)
股票的及時(shí)度反應(yīng)了微信文章所發(fā)布的時(shí)效性,及時(shí)度越高,數(shù)據(jù)價(jià)值就越大。
股票的熱度反應(yīng)了當(dāng)前某只股票被關(guān)注的頻度,關(guān)注頻度越大,上漲的可能性越高。
數(shù)據(jù)的完整性:我們采用循環(huán)的方式對(duì)所有深滬兩地發(fā)行約2236只股票(創(chuàng)業(yè)版除外)在微信搜索網(wǎng)站上的搜索結(jié)果進(jìn)行保存。
數(shù)據(jù)的一致性:文件格式由負(fù)責(zé)保存數(shù)據(jù)文件的程序決定,單一的流程保障了文件的一致性。
數(shù)據(jù)的準(zhǔn)確性:由于所分析的訂閱號(hào)文章的是由微信公共平臺(tái)的公眾號(hào)所提供,在一定程度上杜絕了虛假消息對(duì)于預(yù)測(cè)系統(tǒng)的破壞。
數(shù)據(jù)的及時(shí)性:考慮到磁盤讀寫以及采集程序所處的網(wǎng)絡(luò)帶寬,以及搜索引擎對(duì)于采集程序的屏蔽,程序中采集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個(gè)小時(shí))可收集完當(dāng)日推薦所需要的數(shù)據(jù)。對(duì)于每個(gè)交易日,在9點(diǎn)-9點(diǎn)30分之間采集所有數(shù)據(jù),需要7臺(tái)以上的設(shè)備可達(dá)到最佳效果。本次試驗(yàn)受限于試驗(yàn)設(shè)備,在一臺(tái)設(shè)備上,交易日每天早六時(shí)開始進(jìn)行數(shù)據(jù)采集,也滿足及時(shí)性要求。
數(shù)據(jù)分析:查看三個(gè)高優(yōu)先級(jí)的股票,該股票當(dāng)日的開盤價(jià)與收盤價(jià),再與當(dāng)日(2015-4-8)上證綜指進(jìn)行比較,可得在收益上該算法是優(yōu)于上證綜指為樣本的整體股票的股價(jià)差收益的。
實(shí)驗(yàn)結(jié)論:按照上述方式,系統(tǒng)每天推薦出當(dāng)日股票,在開盤時(shí)進(jìn)行買進(jìn),在第二個(gè)交易日進(jìn)行賣出。經(jīng)過一個(gè)月21個(gè)交易日(2015-3-1至2015-3-31),系統(tǒng)的收益為20%/月。通過微信搜索公眾號(hào)來預(yù)測(cè)市場(chǎng)走勢(shì)和投資情緒呈現(xiàn)出正相關(guān)性,因此可以作為股票甄選的因子。
3.股票預(yù)測(cè)的大數(shù)據(jù)發(fā)展趨勢(shì)
網(wǎng)絡(luò)數(shù)據(jù)分成三種:
一是瀏覽數(shù)據(jù),主要用于電商領(lǐng)域的消費(fèi)者行為分析,瀏覽數(shù)據(jù)反映了用戶每一步的訪問腳步,進(jìn)一步刻畫出用戶的訪問路徑,分析不同頁面的跳轉(zhuǎn)概率等。
二是搜索數(shù)據(jù),主要指搜索引擎記錄的關(guān)鍵詞被搜索頻次的時(shí)間序列數(shù)據(jù),能反映數(shù)億用戶的興趣、關(guān)注點(diǎn)、意圖。
三是互動(dòng)數(shù)據(jù),主要是微博、微信、社交網(wǎng)站的數(shù)據(jù),反映用戶的傾向性和情緒因素。