時至今日,“Big data”(大數(shù)據(jù))時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。這種趨勢已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。恰逢此時,為了讓更多的人了解和使用分析大數(shù)據(jù),CSDN獨(dú)家承辦的大數(shù)據(jù)技術(shù)大會于今日在北京中旅大廈召開。本次大會匯集Hadoop、NoSQL、數(shù)據(jù)分析與挖掘、數(shù)據(jù)倉庫、商業(yè)智能以及開源云計(jì)算架構(gòu)等諸多熱點(diǎn)話題。包括百度、淘寶、新浪等業(yè)界知名專家與參會者齊聚一堂,共同探討大數(shù)據(jù)浪潮下的行業(yè)應(yīng)對法則以及大數(shù)據(jù)時代的抉擇。
新浪云計(jì)算高級技術(shù)經(jīng)理叢磊
新浪云計(jì)算高級技術(shù)經(jīng)理叢磊表示2011年新浪SAE平臺注冊用戶已達(dá)50000,應(yīng)用超過100000,日均PV達(dá)到1億,活躍開發(fā)者達(dá)到10000名。
叢磊還介紹了新浪自己開發(fā)的的KVDB,KVDB用來支持公有云計(jì)算平臺上的海量key-value存儲。KV DB支持的存儲容量很大,對每個用戶支持100G的存儲空間,可支持1000000000條記錄,用戶可以用KV DB存放簡單數(shù)據(jù),如好友關(guān)系等。KVDB具備存儲引擎可替換、任意模塊水平擴(kuò)展、支持讀寫分離、支持前綴查找、支持secondary index、支持認(rèn)證、支持重平衡和無縫遷移等優(yōu)勢。
以下為文字實(shí)錄
大家好,很高興在這里跟大家分享關(guān)于SAE在NoSQL上一個話題。如果大家對SAE有一些看法,和意見,也可以關(guān)注新浪官方微博。另外,SAEJava平臺,已經(jīng)在內(nèi)測了,大家有興趣也可以通過官方微博去申請測試渠道,加入我們測試,大家一起來提高SAE。今天先簡單向大家匯報(bào)一下SAE發(fā)展,這張圖就是SAE發(fā)展的一個,相對于一個里程碑,從09年8月份SAE云計(jì)算小組成立,當(dāng)時還非常小只有幾個人,09年11月份SAE發(fā)布了一個版本,到今年正好2年,到2010年SAE發(fā)布一個重量級云存儲產(chǎn)品微盤。今年5月份也有很大的事開放注冊,目前任何人去使用SAE不需要什么邀請碼,審批流程,只要有新浪帳號就可以使用。
現(xiàn)在SAE開通了支付,SAE也劃歸為新浪云計(jì)算,還有一些第三方站點(diǎn),互聯(lián)網(wǎng)的咨詢類站點(diǎn)也跑到SAE上。那么,在SAE產(chǎn)品主要有計(jì)算類服務(wù),存儲類服務(wù),還有一個是云應(yīng)用商店跟云服務(wù)商店CDN。關(guān)于云應(yīng)用商店和云服務(wù)商店,應(yīng)用商店大家都聽說過,比如App Store,但是我們所知道App Store要不就是基于蘋果IOS,要不就是Android上的,SAE如果做并不是OS,我們OS是互聯(lián)網(wǎng),互聯(lián)網(wǎng)上的App Store,你現(xiàn)在在SAE上只需要花30秒時間就可以開通一個自己的團(tuán)購網(wǎng)站,可以開通一個論壇,相冊網(wǎng)站,維基百科類網(wǎng)站,做互聯(lián)網(wǎng)上App Store。
反過來說什么是服務(wù)商店?我們作為一個開發(fā)者,你開發(fā)的東西并不一定都有界面,有的人開發(fā)東西,比如我是蘋果語言開發(fā)商,我開發(fā)這個東西非常有價(jià)值但并沒有界面,這種東西你開發(fā)者是想把他的API賣給用戶的,這個時候?qū)嶋H上可以借助SAE分裝商店,進(jìn)行整個統(tǒng)計(jì),日志,報(bào)表流程,你把你API架構(gòu)在其上面進(jìn)行銷售,這是一個服務(wù)的概念。
來看一下現(xiàn)在SAE發(fā)展的三個指標(biāo),一個是注冊用戶,目前SAE注冊用戶大部分都是開發(fā)者,雖然數(shù)目不多,但是質(zhì)量很高。尤其目前SAE做開發(fā)者認(rèn)證,如果大家使用SAE的話應(yīng)該聽說過,任何一個人只要通過了開發(fā)者的認(rèn)真都可以獲取到相當(dāng)多的云,相當(dāng)于SAE給真正開發(fā)者免費(fèi)的錢讓他在SAE上開發(fā)應(yīng)用。另外一個應(yīng)用數(shù),應(yīng)用數(shù)目前是10萬,日均PV不止1億,應(yīng)該有好幾個億。
我們也看了一下SAE上面跑的這些應(yīng)用和服務(wù)來講可靠不可靠?這是Q3的一個宕機(jī)時長45分鐘,宕機(jī)次數(shù)4次,總體時間56.05??匆幌禄钴S開發(fā)者1萬多名,剛才提到開發(fā)者認(rèn)證,實(shí)際上SAE還是將更多的精力關(guān)注在能夠創(chuàng)造價(jià)值核心開發(fā)者上面,這主要是指外部開發(fā)者,包括移動互聯(lián)網(wǎng)領(lǐng)域。當(dāng)然還有SAE跟PHP官方合作,如果大家是愛好者登錄PHP,目前PHP在大陸唯一官方網(wǎng)站就是SAE提供的,這說明二者之間合作也在加強(qiáng),這塊我們跟官方合作也會加強(qiáng)。
最后一個是應(yīng)用商店,都有哪些應(yīng)用,這塊就是一個列表,不多說了,weibo,HDwik,團(tuán)購等等。從這一頁開始今天關(guān)于技術(shù)類的話題,我們今天題目是在HCE上MySQL,我今天先講SQL,我個人從06年畢業(yè)之后,07年就開始做云計(jì)算方面開發(fā)。當(dāng)時我們是看著亞馬遜長大的一批人,亞馬遜認(rèn)為SQL不重要,這里是指亞馬遜云計(jì)算,因?yàn)樗X得他可以推出自己的產(chǎn)品,這個產(chǎn)品是叫HDB,他的目的,我不知道他的目的,一個目的因?yàn)樗胪瞥鲎约旱腍DB,另外因?yàn)镾QL不具備可擴(kuò)展性,也不具備其他云計(jì)算的特性,他想把用戶導(dǎo)向?qū)氲絊QL里面去,后來嘗試是失敗的,亞馬遜被迫推出RDS。
換句話說你妄想用自己一個NoSQL去改變開發(fā)者對MySQL的習(xí)慣,只要你的NoSQL,你需要用戶去改代碼,有實(shí)際成本,那么NoSQL就不會完全替代SQL作用。所以SAE從09年推出的時候,一定要支持SQL,那么怎么來支持MySQL呢?我們在云計(jì)算上做MySQL最重要的問題就是隔離性問題,因?yàn)槭褂肕ySQL人水平不一樣,我們在HCE上確實(shí)有一些開發(fā)者,連索引都不知道是什么,就建了幾千幾億的表。我們做公有云計(jì)算,如果這樣的人特別多勢必影響到我們分布式數(shù)據(jù)庫服務(wù),實(shí)際上SQL,或者M(jìn)ySQL對SAE來講最大挑戰(zhàn)就是隔離性。如何一個人好的壞的,黑客也好,他的爛使用不應(yīng)該影響到其他人的使用,怎么做到?就是通過虛擬機(jī)來做這個事。
現(xiàn)在虛擬機(jī)技術(shù),應(yīng)該說還是比較成熟。比如我可以把VCPO綁定到VPO上,當(dāng)然網(wǎng)絡(luò)隔離大家都能做,實(shí)際磁盤IO隔離有一些虛擬化也可以做到,我就一個虛擬機(jī)起一個SQL,用戶A需要SQL就成立一個虛擬機(jī)來實(shí)現(xiàn),這種方案還是不錯的。最重要一個問題,這個方案成本太大了,SAE很窮,沒有錢,沖不起。我舉個例子,現(xiàn)在在SAE從目前虛擬化來說,一個物理機(jī)最多也就3萬臺,3萬多臺需要1千臺物理機(jī)。我告訴大家一個秘密,SAE到目前也沒有1千臺物理機(jī),這個成本對SAE是不可承擔(dān)的,我們一定要減少成本來做隔離。
怎么減少成本?一個虛擬機(jī)一個SQL不行,我就多個SQL一個虛擬機(jī),大家不同instance也是可以,我們之前也討論過,其實(shí)這個方案實(shí)施起來也有最大一個問題,維護(hù)起來特別麻煩。你想想那么多端口,都有自己的主和從,如果用管理人員來管理就會瘋掉,可能開發(fā)人員還好,開發(fā)人員開發(fā)東西很少,但是管理人員運(yùn)維成本非常大,SAE怎么來做,SAE提出一個很瘋狂觀念,讓所有用戶跑到一個SQL里面行不行,貌似是一個很不好的任務(wù),但是SAE自己研發(fā)一套產(chǎn)品來實(shí)現(xiàn)這個技術(shù),就是RDC,是國內(nèi)唯一面對公有云,就是讓所有用戶,或者說一部分用戶跑在一個instance,而不互相影響。