大數(shù)據(jù)的出現(xiàn)帶來了許多新的術(shù)語,但這些術(shù)語往往比較難以理解。因此,我們通過本文給出一個常用的大數(shù)據(jù)術(shù)語表,拋磚引玉,供大家深入了解。其中部分定義參考了相應(yīng)的博客文章。當然,這份術(shù)語表并沒有100%包含所有的術(shù)語,如果你認為有任何遺漏之處,請告知我們。
A
聚合(Aggregation) – 搜索、合并、顯示數(shù)據(jù)的過程
算法(Algorithms) – 可以完成某種數(shù)據(jù)分析的數(shù)學公式
分析法(Analytics) – 用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義
異常檢測(Anomaly detection) – 在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關(guān)鍵的可執(zhí)行信息
匿名化(Anonymization) – 使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)
應(yīng)用(Application) – 實現(xiàn)某種特定功能的計算機軟件
人工智能(Artificial Intelligence) – 研發(fā)智能機器和智能軟件,這些智能設(shè)備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應(yīng)的反應(yīng),甚至能自我學習
B
行為分析法(Behavioural Analytics) – 這種分析法是根據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結(jié)論,而不是僅僅針對人物和時間的一門分析學科,它著眼于數(shù)據(jù)中的人性化模式
大數(shù)據(jù)科學家(Big Data Scientist) – 能夠設(shè)計大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人
大數(shù)據(jù)創(chuàng)業(yè)公司(Big data startup) – 指研發(fā)最新大數(shù)據(jù)技術(shù)的新興公司
生物測定術(shù)(Biometrics) – 根據(jù)個人的特征進行身份識別
B字節(jié) (BB: Brontobytes) – 約等于1000 YB(Yottabytes),相當于未來數(shù)字化宇宙的大小。1 B字節(jié)包含了27個0!
商業(yè)智能(Business Intelligence) – 是一系列理論、方法學和過程,使得數(shù)據(jù)更容易被理解
C
分類分析(Classification analysis) – 從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程; 這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)
云計算(Cloud computing) – 構(gòu)建在網(wǎng)絡(luò)上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端)
聚類分析(Clustering analysis) – 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性
冷數(shù)據(jù)存儲(Cold data storage) – 在低功耗服務(wù)器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時
對比分析(Comparative analysis) – 在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果
復雜結(jié)構(gòu)的數(shù)據(jù)(Complex structured data) – 由兩個或多個復雜而相互關(guān)聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析
計算機產(chǎn)生的數(shù)據(jù)(Computer generated data) – 如日志文件這類由計算機生成的數(shù)據(jù)
并發(fā)(Concurrency) – 同時執(zhí)行多個任務(wù)或運行多個進程
相關(guān)性分析(Correlation analysis) – 是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負相關(guān)
客戶關(guān)系管理(CRM: Customer Relationship Management) – 用于管理銷售、業(yè)務(wù)過程的一種技術(shù),大數(shù)據(jù)將影響公司的客戶關(guān)系管理的策略
D
儀表板(Dashboard) – 使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中
數(shù)據(jù)聚合工具(Data aggregation tools) – 將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程
數(shù)據(jù)分析師(Data analyst) – 從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員
數(shù)據(jù)庫(Database) – 一個以某種特定的技術(shù)來存儲數(shù)據(jù)集合的倉庫
數(shù)據(jù)庫即服務(wù)(Database-as-a-Service) – 部署在云端的數(shù)據(jù)庫,即用即付,例如亞馬遜云服務(wù)(AWS: Amazon Web Services)
數(shù)據(jù)庫管理系統(tǒng)(DBMS: Database Management System) – 收集、存儲數(shù)據(jù),并提供數(shù)據(jù)的訪問
數(shù)據(jù)中心(Data centre) – 一個實體地點,放置了用來存儲數(shù)據(jù)的服務(wù)器
數(shù)據(jù)清洗(Data cleansing) – 對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性
數(shù)據(jù)管理員(Data custodian) – 負責維護數(shù)據(jù)存儲所需技術(shù)環(huán)境的專業(yè)技術(shù)人員