負載均衡(Load balancing) – 將工作量分配到多臺電腦或服務器上,以獲得最優(yōu)結果和最大的系統(tǒng)利用率。
位置信息(Location data) – GPS信息,即地理位置信息。
日志文件(Log file) – 由計算機系統(tǒng)自動生成的文件,記錄系統(tǒng)的運行過程。
M
M2M數(shù)據(jù)(Machine2Machine data) – 兩臺或多臺機器間交流與傳輸?shù)膬热?/p>
機器數(shù)據(jù)(Machine data) – 由傳感器或算法在機器上產(chǎn)生的數(shù)據(jù)
機器學習(Machine learning) – 人工智能的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現(xiàn)自我改進。
MapReduce – 是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map: 映射,Reduce: 歸納)。
大規(guī)模并行處理(MPP: Massively Parallel Processing) – 同時使用多個處理器(或多臺計算機)處理同一個計算任務。
元數(shù)據(jù)(Metadata) – 被稱為描述數(shù)據(jù)的數(shù)據(jù),即描述數(shù)據(jù)數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。
MongoDB – 一種開源的非關系型數(shù)據(jù)庫(NoSQL database)
多維數(shù)據(jù)庫(Multi-Dimensional Databases) – 用于優(yōu)化數(shù)據(jù)聯(lián)機分析處理(OLAP)程序,優(yōu)化數(shù)據(jù)倉庫的一種數(shù)據(jù)庫。
多值數(shù)據(jù)庫(MultiValue Databases) – 是一種非關系型數(shù)據(jù)庫(NoSQL), 一種特殊的多維數(shù)據(jù)庫:能處理3個維度的數(shù)據(jù)。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。
N
自然語言處理(Natural Language Processing) – 是計算機科學的一個分支領域,它研究如何實現(xiàn)計算機與人類語言之間的交互。
網(wǎng)絡分析(Network analysis) – 分析網(wǎng)絡或圖論中節(jié)點間的關系,即分析網(wǎng)絡中節(jié)點間的連接和強度關系。
NewSQL – 一個優(yōu)雅的、定義良好的數(shù)據(jù)庫系統(tǒng),比SQL更易學習和使用,比NoSQL更晚提出的新型數(shù)據(jù)庫
NoSQL – 顧名思義,就是“不使用SQL”的數(shù)據(jù)庫。這類數(shù)據(jù)庫泛指傳統(tǒng)關系型數(shù)據(jù)庫以外的其他類型的數(shù)據(jù)庫。這類數(shù)據(jù)庫有更強的一致性,能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。
O
對象數(shù)據(jù)庫(Object Databases) – (也稱為面象對象數(shù)據(jù)庫)以對象的形式存儲數(shù)據(jù),用于面向對象編程。它不同于關系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫,大部分對象數(shù)據(jù)庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象.
基于對象圖像分析(Object-based Image Analysis) – 數(shù)字圖像分析方法是對每一個像素的數(shù)據(jù)進行分析,而基于對象的圖像分析方法則只分析相關像素的數(shù)據(jù),這些相關像素被稱為對象或圖像對象。
操作型數(shù)據(jù)庫(Operational Databases) – 這類數(shù)據(jù)庫可以完成一個組織機構的常規(guī)操作,對商業(yè)運營非常重要,一般使用在線事務處理,允許用戶訪問 、收集、檢索公司內部的具體信息。
優(yōu)化分析(Optimization analysis) – 在產(chǎn)品設計周期依靠算法來實現(xiàn)的優(yōu)化過程,在這一過程中,公司可以設計各種各樣的產(chǎn)品并測試這些產(chǎn)品是否滿足預設值。
本體論(Ontology) – 表示知識本體,用于定義一個領域中的概念集及概念之間的關系的一種哲學思想。(譯者注: 數(shù)據(jù)被提高到哲學的高度,被賦予了世界本體的意義,成為一個獨立的客觀數(shù)據(jù)世界)
異常值檢測(Outlier detection) – 異常值是指嚴重偏離一個數(shù)據(jù)集或一個數(shù)據(jù)組合總平均值的對象,該對象與數(shù)據(jù)集中的其他它相去甚遠,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題,需要對此另加分析。
P
模式識別(Pattern Recognition) – 通過算法來識別數(shù)據(jù)中的模式,并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預測
P字節(jié)(PB: Petabytes) – 約等于1000 TB(terabytes), 約等于1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產(chǎn)生的粒子個數(shù)就約為1 PB
平臺即服務(PaaS: Platform-as-a-Service) – 為云計算解決方案提供所有必需的基礎平臺的一種服務
預測分析(Predictive analysis) – 大數(shù)據(jù)分析方法中最有價值的一種分析方法,這種方法有助于預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過使用各種不同的數(shù)據(jù)集,例如歷史數(shù)據(jù),事務數(shù)據(jù),社交數(shù)據(jù),或者客戶的個人信息數(shù)據(jù),來識別風險和機遇
隱私(Privacy) – 把具有可識別出個人信息的數(shù)據(jù)與其他數(shù)據(jù)分離開,以確保用戶隱私。
公共數(shù)據(jù)(Public data) – 由公共基金創(chuàng)建的公共信息或公共數(shù)據(jù)集。