第2屆“2012中國數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展大會”于20112年月17日在北京舉行,在下午的云計算與靈活高效的IT基礎(chǔ)設(shè)施分論壇上,中國民族證券信息技術(shù)部總經(jīng)理顏陽博士做了“企業(yè)級數(shù)據(jù)中心的演變之路及證券業(yè)大數(shù)據(jù)應(yīng)用”主題演講。以下是演講全文。
中國民族證券信息技術(shù)部總經(jīng)理顏陽博士
顏陽:大家下午好。我來自于金融行業(yè),我從用戶的角度談一談云計算相關(guān)的工作,接下來我把我們推進云計算,特別是大數(shù)據(jù)的運用相關(guān)的工作,尤其去年我主持了證券行業(yè)共有云相關(guān)的工作給大家做一個共享。
企業(yè)級數(shù)據(jù)中心,在基礎(chǔ)層面,很多企業(yè)都在研究云計算的工作,這里面也包括了虛擬化的過程。在具體做的時候并不難,但是難的是把它做得更完整,而且很多標準化和規(guī)范化的工作,比如我們在(英語)的推進過程中間,由于云計算和虛擬化引進以后,(英語)一些標準的修改,在企業(yè)推進云計算的過程中間,有一個工作,這幾年在我們金融企業(yè)做的比較多的,首先要建立企業(yè)級數(shù)據(jù)中心,因為資源共享它可以把很多職能部門,很多業(yè)務(wù)鏈條通過業(yè)務(wù)的方式整合起來,可能會對業(yè)務(wù)帶來一些沖擊。這是我們這幾年工作的總結(jié),在推的過程中是非常艱辛的。
第一為什么要建立數(shù)據(jù)中心?它是集中化管理的必然。包括管理,包括業(yè)務(wù),包括技術(shù),它是一個完整的整合。
第二分離的訴求,在我們的推進過程中間,不光要有集成,而且要根據(jù)各方面的規(guī)則要進行分離,不然的話效率達不到最滿意。
第三,數(shù)據(jù)的統(tǒng)一,使得相互之間的交換有一個依據(jù)。
第四,通過數(shù)據(jù)整合,我們可以得到相關(guān)業(yè)務(wù)的創(chuàng)新,很多的數(shù)據(jù)是埋藏在我們地下的資源,必須要統(tǒng)一挖掘,才能使我們隱含的業(yè)務(wù)的價值才能挖掘出來。
第五,決策的依據(jù),給決策部門提供相關(guān)的依據(jù)。
第二,怎么去建企業(yè)級數(shù)據(jù)中心,首先這個數(shù)據(jù)中心一定要是高效的,怎么樣打造高效的平臺?一定要選用成熟的平臺,現(xiàn)在很多的技術(shù)都走在業(yè)務(wù)的前沿,關(guān)鍵是我們怎么樣用現(xiàn)有成熟的技術(shù)來為我們的業(yè)務(wù)服務(wù)。數(shù)據(jù)模型也是很重要的,很多是由應(yīng)用系統(tǒng)演變?yōu)閿?shù)據(jù)中心,它的問題是拓展性很難。以前的數(shù)據(jù)中心是由公共系統(tǒng)引發(fā)過來的,它畢竟是控制我們現(xiàn)有用戶相關(guān)的數(shù)據(jù)操作,和我們現(xiàn)有人員的操作,我們的潛在客戶一定是納入到我們這個企業(yè)的,所以我們把銀行的金融模型引入進來,建立數(shù)據(jù)中心是非常重要的。數(shù)據(jù)中心一定是分布建設(shè)的一個過程。
第三個原則,我們數(shù)據(jù)中心有哪些內(nèi)容,第一,要進行數(shù)據(jù)的整理,第二用我們的數(shù)據(jù)提供服務(wù)。第三,我們可以通過數(shù)據(jù)的整合為我們的業(yè)務(wù)提供支持,為我們的決策提供依據(jù)。我們在建設(shè)的過程中,你IT部門要推進一個項目,或者建設(shè)一個龐大的數(shù)據(jù)中心也好,它要通過立項,做數(shù)據(jù)中心是相對比較抽象的,而且在短期內(nèi)是不會產(chǎn)生效益的,就像我們在做一個高樓,最初挖地基的時候你看是不到它的外觀。
你前期的立項的依據(jù)要有非常充分的理由,才能推進這項工作。所以這個3W原則是我們在這些年推進數(shù)據(jù)中心建設(shè)中間的一個完整的描述。
在企業(yè)級數(shù)據(jù)中心的建設(shè),我們選擇什么樣一個平臺?我們的IB是什么?我們的ETL是什么?當時08年的時候我們可選擇的東西很少,現(xiàn)在開元的東西很多,可選擇的余地很大。我們在中國,在金融行業(yè)第一個引入NPP架構(gòu)這樣一個數(shù)據(jù)中心,數(shù)據(jù)倉庫這樣一個架構(gòu),現(xiàn)在我們整個操作的效率,就是查詢的時間每秒鐘可以上億條記錄就是幾秒鐘之內(nèi)就可以出來,而且你在進行數(shù)據(jù)切片越復(fù)雜,時間增長并不多。所以使我們走上一條跟云計算將來的架構(gòu)對接這樣一個非常光明的大路。
它是一個完整的解決方案,我們在推進過程中,技術(shù)平臺的選擇它是非常重要的。大金融的信息應(yīng)用,銀行還是走得比較前面的,我們是把金融數(shù)據(jù)模型用證券行業(yè)做了一個融合,這對于我們創(chuàng)新業(yè)務(wù)的發(fā)展,基本上不需要做什么修改了。
這面一個客戶體驗,我們很多的工具是針對我們技術(shù)人員的,我們要開放給我們客戶的應(yīng)用,一定要考慮客戶的體驗,我們把一些工具和開發(fā)平臺聯(lián)系在一起,可以用我們客戶很好體驗的這種工具來得到相關(guān)的應(yīng)用的展示。
在企業(yè)數(shù)據(jù)中心里面還有一個比較關(guān)注的,就是安全性,第一就是我們數(shù)據(jù)數(shù)量的管理,很可能出現(xiàn)數(shù)據(jù)的不完整,數(shù)據(jù)的信息出現(xiàn)錯誤的情況,這樣你采取什么樣的機制來保證我們的數(shù)據(jù)是完整的,一致的,而且是準確的。這里面在設(shè)計的時候,都是有相關(guān)的技巧在里面。
第二,數(shù)據(jù)從各個結(jié)點之間的調(diào)度,它必須要有相應(yīng)的規(guī)則。比如從數(shù)據(jù)源再到我們的核心的數(shù)據(jù)層,再到我們數(shù)據(jù)倉庫,都有相關(guān)的規(guī)則來推進。
MPP架構(gòu)也是我們當今在云計算中比較流行的這種MPP架構(gòu),包括新浪各大網(wǎng)站里面,需要進行分析運算的架構(gòu),都是采用這樣一個模式。我們現(xiàn)在利用(英語)來做這個數(shù)據(jù)倉庫的時候,就用(英語),我們就用了兩個結(jié)點,像淘寶有將近280多個結(jié)點,我們兩個結(jié)點基本上對于我們中性的券商企業(yè)就足夠了,所以擴展性非常好。 在這種架構(gòu)里面,一般的編程人員就可以進行相互的編程。它和我們傳統(tǒng)的方式是不一樣的,數(shù)據(jù)可以是分塊進行執(zhí)行的。
前面我介紹了企業(yè)級數(shù)據(jù)中心的狀況,我們證券行業(yè)當前的生態(tài)環(huán)境是這樣的,這幾天是比較好一些,去年我們整個行業(yè)里面109家券商收入是大幅度縮水的,最多的將近縮水了7、80%,平均縮水了將近50%。整個行業(yè)還沒有找到一個比較好的運營模式,在這個過程中發(fā)展就有競爭,產(chǎn)生的結(jié)果就是白熱化的競爭,采取打折,死拼的方式。
從11年開始,監(jiān)管部門也看到了一個比較危險的狀態(tài),我們在11年頭出了投顧業(yè)務(wù),它改變了行業(yè)的狀況,業(yè)務(wù)有兩個理念,第一,必須進行產(chǎn)品全深度分析的管理,證券行業(yè)是沒有產(chǎn)品的,由于產(chǎn)品的引入是可以政變證券行業(yè)盈利的模式。我把產(chǎn)品的生命周期包含了這樣幾個部分,從需求一直到服務(wù)跟蹤,這個需要業(yè)務(wù)管理和技術(shù)相關(guān)的支持。
另外一個就是客戶的全生命周期管理,包括客戶退出,在我們的營銷過程中間它是非常重要的一個生命周期的一個結(jié)點,一個客戶他如果說不在我這里交易了,他有很多原因,現(xiàn)在我們在網(wǎng)上購物中間有一個大家比較流行的詞叫口碑,如果一個遠離我們的客戶,退出我們的服務(wù)體系的客戶,他給我們一個很好的口碑,帶給我們潛在的客戶,對我們后來是很有好處的。證券行業(yè)也在研究怎么樣對客戶進行全生命周期的管理,尤其是我們看到在整個行業(yè)里面有這樣一個機遇和挑戰(zhàn),第一,就是我們的行業(yè)將進行產(chǎn)業(yè)化升級,由于對客戶進行全生命周期管理,對產(chǎn)品進行全生命周期,就像產(chǎn)業(yè)的生產(chǎn)線一樣,只要我們原材料不一樣,后面出來的產(chǎn)品是不一樣,但是中間的過程是標準化的,由于有了標準化,才能實現(xiàn)產(chǎn)業(yè)的規(guī)?;?,這是我們從工業(yè)化這樣一個角度把它應(yīng)用在金融行業(yè)這樣引出來的。
第二個就是敏捷化服務(wù),很多時候IT人員,我們就說業(yè)務(wù)人員提的需求不全,業(yè)務(wù)人員說IT人員的反應(yīng)很慢,這里面雙方都有道理,但是在實際工作的推進過程中,最終總有一方為主。
第三運維的新理念,這也是從敏捷化服務(wù)引出來的,我們IT部門總是一個反應(yīng)型的,業(yè)務(wù)部門提出需求,IT部門去做,這是傳統(tǒng)的IT企業(yè)的一個做法。在當今這個時代,特別是像我們網(wǎng)絡(luò)運營商一樣,他要提到運營的概念,它是屬于IT部門是主動推進的,這個不是一種被動反應(yīng)的一種方式。第三點運維的新概念就是這樣來的。
第四,企業(yè)級數(shù)據(jù)中心一定要升級為社會化的數(shù)據(jù)中心,就是因為企業(yè)級的數(shù)據(jù)中心,大部分的數(shù)據(jù)是來源于我們的業(yè)務(wù)系統(tǒng),實際上它是一個相對封閉的,由于互聯(lián)網(wǎng)的發(fā)展,它很多外部的數(shù)據(jù)對我們服務(wù)的評價,對我們管理的評價,它的依據(jù)更多,它給全面。這樣就勢必將我們現(xiàn)有的企業(yè)級的數(shù)據(jù)中心要升級為社會化的數(shù)據(jù)中心。
第五,就是大數(shù)據(jù)的BI。一會兒我們再講。
金融工業(yè)化的產(chǎn)業(yè)升級就需要我們有一個標準化,而且要產(chǎn)業(yè)化。敏捷服務(wù)是與IT治理有關(guān)系的。我們涉及到的企業(yè)級數(shù)據(jù)中心,它包括了企業(yè)的數(shù)據(jù)倉庫,這來自于我們內(nèi)部系統(tǒng),將來一定要打開。
通過我們大數(shù)據(jù)的商業(yè)智能,就把我們前面的客戶的全生命周期的管理和我們的產(chǎn)品把它對接起來。我們最近幾年推進金融行業(yè)的云計算的時候,很敏感的話題就是數(shù)據(jù),數(shù)據(jù)憑什么要放在云上面,我們客戶的數(shù)據(jù)都是比較隱私的,有的時候我們在推進云計算的過程中間,有的時候是過于把安全太強調(diào)了。
我舉一個例子,當我們以前沒有錢莊的時候,大部分人是把錢放在一個罐子里面埋在地下,當錢莊出來的時候,大家覺得把自己的錢放在那里確實不安全,但是往往是一個專業(yè)化服務(wù)的團隊給你提供這樣一個數(shù)據(jù)服務(wù),從某種意義上來講,它可能比你放在家里面更安全,這就是為什么大家的錢很少有人放在家里面的,都放在銀行。
實際上云計算也是這樣的,在某些層面上是過于對安全敏感了,在企業(yè)推行云計算的過程中間,一定是一個長期規(guī)劃的過程,這里面包括業(yè)務(wù)管理和技術(shù)幾個方面,這個圖是我們在去年提出來的,特別是我們在證券行業(yè)里面涉及到一個云的生態(tài)圖,它有三種形式,第一個是企業(yè)的私有云,企業(yè)私有云并不一定非得放在企業(yè)內(nèi)部里面,我放在外部,由第三方負責管理,它也是一種企業(yè)私有云的一種表現(xiàn)。我們在一些大型的證券公司將來會用得比較多。
這個是聯(lián)盟私有云,有幾個組織,大家為了一個共同的業(yè)務(wù)發(fā)展目標聚集起來,這樣一個私有云,為這樣一些組織服務(wù)的,將來這種形式可以為一些中小金融企業(yè)來進行服務(wù)。
這個就是行業(yè)云,它將來可能會比較敏捷,可能涉及到行業(yè)云的數(shù)據(jù),包括公有的數(shù)據(jù),但是對公有數(shù)據(jù)的挖掘和分析方式不一樣,將來能夠提供這些服務(wù)的一些運營商,就可以在行業(yè)云這方面提供相關(guān)的服務(wù)。這就是我們在證券行業(yè)里面企業(yè)云的生態(tài)。
在企業(yè)云的中間有一個安全控制的機制,簡單講就是內(nèi)防、外堵、審計,它對于我們企業(yè)云的一些風險問題我就不講了。
在證券行業(yè)里面我們設(shè)計了一個云存儲的架構(gòu),由于有了這樣一個技術(shù)的推進,我們就把以前IT部門的救火隊方式轉(zhuǎn)化為互動的形式,從標準化,規(guī)?;姆绞?,用計算機自動處理的形式,我們就把工作集中在創(chuàng)新的結(jié)點上。
下面我講一下大數(shù)據(jù)的應(yīng)用,大數(shù)據(jù)的特性,一般提到大數(shù)據(jù),大家更關(guān)心是CE,提到大數(shù)據(jù)就是非結(jié)構(gòu)化,實際上大數(shù)據(jù)關(guān)心它的速度還有它的復(fù)雜性。通過我們建立月前分析這樣一個系統(tǒng),就把我們的客戶系統(tǒng),服務(wù)體系把它整合起來,比如說我們在制定一個產(chǎn)品的過程中間,我可以把它發(fā)布到我們新媒體上面去,看客戶的反應(yīng),這里面它的來源不光是在我們證券公司做交易的客戶,不在我們證券公司做交易的客戶,他也可以提出他贊成的,或反對的一些意見和建議,這樣它就更加全面了。對于月前分析幾個流程是這樣幾個部分,第一一定要確定主題,對于月前分析這樣一個現(xiàn)在的應(yīng)用方式,它不可能做一個很寬放的一個樸實性的系統(tǒng),因為中文的語義分析是非常難的,因為中文和英文完全不一樣,英文每個單詞之間有分割的,中文除了一句話,每個字和詞之間沒有分割,如果說你在截取它的時候,它的位置不一樣產(chǎn)生的含義是不一樣的,非常難。所以說一定要選取最好的主題。
比如前期公布了一條消息,制藥方面出了一些問題,這個消息是負面消息,這個對股市是一個打壓的過程。在對抓取信息進行一些過濾,在我們的新媒體上有些廣告信息,它必須要做過濾的。要對信息抓取以后要做一些預(yù)處理,這個工作做得越好,對我們后面分析的效率越高。
建立相關(guān)的模型預(yù)分析,大家看到美國的一個片,就是專門講(英語)成長的一個,就是對于大學(xué)生照片貼上去然后做一些評價,實際上我們中國有個特色,市場化程度不是很高,人們受輿論的影響很大,如果有某一個股票對我們大盤的走勢相關(guān)的意見是非常的火熱,而且是達到一定的相關(guān)性,它一定是對我們的股市是有影響的。這樣的模型你可以用一些很好的,很簡單的統(tǒng)計都可以算得出來。
通過這種方式最終我們給它發(fā)布出來,這樣就會形成我們內(nèi)部做一些決策的依據(jù),外部可以形成一些數(shù)據(jù)的產(chǎn)品,這也是我們在數(shù)據(jù)中心的建設(shè)過程中間做的一個應(yīng)用,而且這種應(yīng)用將來可以逐步的把它延伸,跟我們的交易系統(tǒng)關(guān)聯(lián)起來。
大家如果炒股就知道,有的時候我們看著性情有個股票有一個異動,可能就要打電話問怎么回事,這個時候我們在網(wǎng)站上已經(jīng)是可以把信息采集出來,比如說汶川大地震出來了,我們在分析系統(tǒng)里面馬上就可以看到,只要你有個提前量,至少有負面效果的時候我可以先出手,賣個比較好的價格。但是不一定是非常好的一種方式,用這種方式的推進,一定是一個系統(tǒng)的工程。
在大數(shù)據(jù)的應(yīng)用過程中間,我覺得有幾個關(guān)鍵點,智能分詞庫,它一定是一個積累的過程,它一定要有學(xué)習(xí)的功能,我們在推進的時候,發(fā)現(xiàn)它和我們實現(xiàn)出現(xiàn)是相悖的,你一定要對它修改,這樣才能使它更準確。
第二個就是存儲,大數(shù)據(jù)不能每一個數(shù)據(jù)都做存儲,因為你沒有這么大的存儲的空間,而且你一定要跟應(yīng)用走,比如說我們在做應(yīng)用的時候,我們不一定把所有抓取的數(shù)據(jù)都保存下來。
第三,對于結(jié)構(gòu)化與非結(jié)構(gòu)化處理,把它轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),利用以前結(jié)構(gòu)化處理的系統(tǒng)就可以實現(xiàn),短期之內(nèi)我們就可以用我們的企業(yè)級的數(shù)據(jù)中心做一個漸變。
從產(chǎn)品到服務(wù)的跟蹤,我們通過分析可以形成我們的數(shù)據(jù)產(chǎn)品提供給我們的客戶,可以給客戶提供相關(guān)的依據(jù),可以幫助他做一些投資建議。
綜合起來,我們在云計算推進的過程中,它是一個漸進的過程,使得企業(yè)要把自身的信息化要進行相關(guān)的規(guī)范和一些標準化的梳理,找出適合于我們自身實際應(yīng)用的一個架構(gòu),逐漸與我們當今現(xiàn)在的流行的技術(shù)和推進的方式結(jié)合起來,才能達到事半功倍的效果。這是我和大家分享的內(nèi)容,謝謝大家。