也就是說,每建立一個(gè)新數(shù)據(jù)檔,就要針對所有現(xiàn)存的檔案運(yùn)行一次“去重復(fù)性”檢驗(yàn),目前這個(gè)數(shù)字已經(jīng)超過了 5 億。
前英特爾工程師 Srikanth Nadhamuni 于 2010 年 9 月幫助設(shè)計(jì)了 Aadhar 的技術(shù)平臺,該平臺目前在班加羅爾的 Khosla 實(shí)驗(yàn)室運(yùn)行。他告訴我,這些數(shù)據(jù)包都經(jīng)過 2048-bit 加密存儲處理,一旦有未授權(quán)的調(diào)用嘗試即觸發(fā)自我銷毀(self-destruction)功能。
有關(guān)針對 MongoDB 的批評
那么為什么 Aadhar 一開始要與 MongoDB 合作?這種合作關(guān)系是否會繼續(xù)下去呢?
Aadhar 技術(shù)中心的助理總干事 Sudhir Narayana 表示,MongoDB 只是最初為數(shù)據(jù)檢索所選擇的幾種產(chǎn)品之一,其他還包括 MySQL、Hadoop 和 HBase。與只能夠存儲人口數(shù)據(jù)的 MySQL 不同,MongoDB 還能夠存儲圖像。
但是后來 Aadhar 逐漸將大部分?jǐn)?shù)據(jù)庫方面的工作轉(zhuǎn)移到 MySQL 平臺上,因?yàn)樗麄円庾R到 MongoDB 無法處理大規(guī)模的數(shù)據(jù),也就是上百萬的數(shù)據(jù)包裹。
目前他們已經(jīng)在使用“數(shù)據(jù)庫分片(database sharding)”技術(shù):將數(shù)據(jù)包裹存儲在不同的機(jī)器上,確保系統(tǒng)不會在數(shù)據(jù)量增加時(shí)崩潰。
這種做法幫助 Aadhar 減少了對于 MongoDB 的依賴,而改用 MySQL 存儲大部分?jǐn)?shù)據(jù)。
Aadhar 技術(shù)中心的副總干事 Ashok Dalwai 告訴我,MongoDB 無法調(diào)用任何生物識別數(shù)據(jù)。
“我們認(rèn)為使用開源技術(shù)可以避免過分依賴某一供應(yīng)商的情況,但是這不代表我們以任何方式在安全方面做出妥協(xié)。”Ashok Dalwai 這樣說道。
MongoDB 方面的一位發(fā)言人在我們聯(lián)系采訪時(shí),建議我們到該公司網(wǎng)站上閱讀有關(guān) In-Q-Tel 投資的聲明文件。
更重要的是,印度唯一身份識別局(UIDAI)早在這家創(chuàng)業(yè)公司從 In-Q-Tel 獲得投資之前就開始使用 MongoDB 的開源軟件技術(shù)。Crunchbase 的數(shù)據(jù)顯示,MongoDB 僅僅在 2012 年從紅帽(Red Hat)、英特爾資本(Intel Capital)和 In-Q-Tel 三方募集了總共 770 萬美元。
Aadhar 前景如何?
拋開所有的爭議不談,Aadhar 將于 2014 年完成錄入超過 12 億印度國民數(shù)據(jù)的目標(biāo),數(shù)據(jù)庫總量將達(dá)到 15 petabytes。目前項(xiàng)目的進(jìn)展速度是每天 100 萬人,從明年開始將會實(shí)現(xiàn)每天大約 200 萬人的速度,將剩下的 7 億人納入此數(shù)據(jù)庫系統(tǒng)當(dāng)中。