中泰證券是經中國證監(jiān)會批準設立的大型綜合類創(chuàng)新試點證券公司,集證券、基金、期貨、直投為一體的綜合性證券控股集團。多年來,公司積極致力于為廣大投資者提供證券代理買賣、投資咨詢、財務顧問、證券發(fā)行與承銷、收購兼并、資產重組、資產管理、融資融券、證券投資基金代銷、股指期貨中間介紹、向保險機構投資者提供綜合服務等全方位的專業(yè)化證券投、融資服務。
憑借良好的專業(yè)能力和業(yè)績表現(xiàn),中泰證券得到了社會各界的廣泛認可。2007年以來,公司多次被山東省政府授予“山東省金融創(chuàng)新獎”、“山東省金融發(fā)展貢獻獎”;公司先后榮獲“金鑰匙獎”、“中國最具成長性證券經紀商”、“中國最佳證券經紀商”、“最具成長性投行”、“最佳套利服務券商”、“最具創(chuàng)新力證券公司”、“優(yōu)秀保薦機構”、“金牛投行進步獎”等稱號;在2011年中國證監(jiān)會證券行業(yè)分類評價中,公司成為16家A類AA級券商之一。
而近年來,隨著業(yè)務的發(fā)展與規(guī)模的擴張,中泰證券數(shù)據(jù)呈指數(shù)級增長,各類IT系統(tǒng)數(shù)據(jù)量已經達到20多TB的規(guī)模。每日還有大量新增的日志數(shù)據(jù)、交易數(shù)據(jù)需要存儲和處理。中泰證券的IT系統(tǒng)也面臨著一些問題的困擾。
首先是數(shù)據(jù)存儲量龐大。現(xiàn)有系統(tǒng)存儲了5年的數(shù)據(jù),總共20多TB,日志數(shù)據(jù)超過一半,使用分區(qū)存儲方式,歷史數(shù)據(jù)采用離線存儲方式,存儲資源緊缺,存儲擴展花費非常高。
其次是現(xiàn)有系統(tǒng)計算負載高、延遲長?,F(xiàn)有系統(tǒng)在運行中跨歷史范圍查詢延遲長,一次計算的數(shù)據(jù)量大,計算和存儲資源都存在瓶頸;大范圍查詢時,對生產業(yè)務影響較大,例如:持倉分析、對賬流水情況、區(qū)間查詢等應用,嚴重影響日常業(yè)務的正常運行。
同時,歷史數(shù)據(jù)服務請求帶來額外工作負擔。歷史數(shù)據(jù)查詢時需要額外將離線的歷史數(shù)據(jù)導入,再等到系統(tǒng)資源空閑時進行查詢,不僅效率低,而且工作負擔繁重,也極易出錯。
最后,現(xiàn)有系統(tǒng)的資源已經嚴重緊缺,CPU負載高、存儲空間不足,已經影響到業(yè)務的正常發(fā)展。
由此背景,本著不斷發(fā)展、不斷進步的原則,中泰證券力求解決現(xiàn)有IT系統(tǒng)的這四大問題,并據(jù)此做了一些解決方案的調研。希望能夠建設具有高效數(shù)據(jù)處理能力,同時兼具性價比的新平臺。
調研結果發(fā)現(xiàn),在解決分布式存儲、計算問題上,Hadoop技術近年來得到了廣泛的應用。Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。它是針對大規(guī)模分布式數(shù)據(jù)而開發(fā)的軟件框架,目前已經成為企業(yè)管理大數(shù)據(jù)的基礎支撐技術,是解決企業(yè)數(shù)據(jù)中心大數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)計算、快速數(shù)據(jù)分析的優(yōu)秀基礎數(shù)據(jù)平臺。
現(xiàn)在物聯(lián)網、多媒體、移動互聯(lián)時代,Hadoop最適合用于解決由于數(shù)據(jù)爆發(fā)式增長所帶來的傳統(tǒng)架構下存儲和計算瓶頸的問題。
Hadoop技術發(fā)展迅速,同時也有眾多國內、外廠商為企業(yè)客戶提供了的成熟度一站式的大數(shù)據(jù)平臺產品,個別技術領先的廠商也已經將Hadoop平臺用于了金融客戶的數(shù)據(jù)倉庫系統(tǒng),經調研,恒豐銀行、民生銀行、平安銀行等金融機構,就已經在用Hadoop技術解決現(xiàn)有數(shù)據(jù)倉庫存儲、計算、分析等問題。
從行業(yè)內成功經驗及案例來看,Hadoop平臺已成為現(xiàn)有數(shù)據(jù)倉庫平臺的必要補充,主要體現(xiàn)在以下五個方面。
首先是數(shù)據(jù)類型支持,Hadoop平臺擴展了企業(yè)數(shù)據(jù)平臺對數(shù)據(jù)處理類型的支持。傳統(tǒng)的數(shù)據(jù)倉庫僅僅能夠處理結構化數(shù)據(jù),而對半結構化、非結構化數(shù)據(jù)的處理,只能依賴于Hadoop平臺,例如:來自新聞的個股/主題新聞聚合、智能研報,情感指數(shù),熱度統(tǒng)計、事件研究、主題跟蹤和發(fā)現(xiàn)等等。
其次是數(shù)據(jù)處理能力方面,Hadoop平臺使得企業(yè)數(shù)據(jù)處理平臺的處理能力變得更強大,它能夠處理從中小數(shù)據(jù)量到大數(shù)據(jù)量的數(shù)據(jù)。能夠作為傳統(tǒng)數(shù)據(jù)倉庫之前的數(shù)據(jù)統(tǒng)一存儲和計算平臺,將大規(guī)模的數(shù)據(jù)先進行清洗、計算、建模、匯總等,并將最終的精細化數(shù)據(jù)傳遞給數(shù)據(jù)倉庫。例如恒豐銀行就已經將數(shù)據(jù)倉庫中復雜的、高負載的拉鏈表程序遷移至Hadoop平臺。
同時,在業(yè)務應用的支持方面,相比于傳統(tǒng)的數(shù)據(jù)倉庫平臺,大數(shù)據(jù)平臺可以完成更多的體現(xiàn)企業(yè)特質的有價值的應用,例如:通過數(shù)據(jù)挖掘、機器學習算法和模型,結合相關數(shù)據(jù),完成財經新聞搜索、新聞類型分析、新聞聚類、情感分析、知識圖譜等等。