決策支持系統(tǒng)一般由交互語(yǔ)言系統(tǒng)、問(wèn)題系統(tǒng)以及數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù)、知識(shí)庫(kù)管理系統(tǒng)組成。在某些具體的決策支持系統(tǒng)中,也可以沒(méi)有單獨(dú)的知識(shí)庫(kù)及其管理系統(tǒng),但模型庫(kù)和方法庫(kù)通常則是必須的。由于應(yīng)用領(lǐng)域和研究方法不同,導(dǎo)致決策支持系統(tǒng)的結(jié)構(gòu)有多種形式。
決策支持系統(tǒng)強(qiáng)調(diào)的是對(duì)管理決策的支持,而不是決策的自動(dòng)化,它所支持的決策可以是任何管理層次上的,如戰(zhàn)略級(jí)、戰(zhàn)術(shù)級(jí)或執(zhí)行級(jí)的決策。
但是,不要認(rèn)為大數(shù)據(jù)會(huì)使數(shù)據(jù)倉(cāng)庫(kù)過(guò)時(shí)。大數(shù)據(jù)系統(tǒng)可以讓您在很大程度上處理非結(jié)構(gòu)化數(shù)據(jù),但是所得到的查詢結(jié)果與數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜程度是不一樣的。畢竟,數(shù)據(jù)倉(cāng)庫(kù)是為了深入數(shù)據(jù)而設(shè)計(jì)的,它之所以能夠做到這一點(diǎn),是因?yàn)樗呀?jīng)將所有數(shù)據(jù)轉(zhuǎn)換成一種一致的格式,讓您可以像構(gòu)建立方體一樣進(jìn)行深入查詢。
多年來(lái),數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商一直在優(yōu)化他們的查詢引擎,以回答典型的業(yè)務(wù)環(huán)境問(wèn)題。大數(shù)據(jù)可以讓你從更多的數(shù)據(jù)源中獲取更多的數(shù)據(jù),但分辨率要低一些。因此,在未來(lái)一段時(shí)間內(nèi),我們將與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)一起并存。
3.技術(shù)突破大數(shù)據(jù)背后
為了完成大數(shù)據(jù)量,品種,非破壞性使用和速度的四個(gè)方面,包括分布式文件系統(tǒng)(hadoop)的開(kāi)發(fā),一種意識(shí)到不同數(shù)據(jù)的方法(Google的Map、Reduce以及最近的Apache Spark),以及云/互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,用于根據(jù)需要訪問(wèn)和移動(dòng)數(shù)據(jù)。
直到大約十幾年前,在任何一個(gè)時(shí)間都不可能操縱比較少的數(shù)據(jù)。(嗯,我們都認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)當(dāng)時(shí)是巨大的,隨著互聯(lián)網(wǎng)的產(chǎn)生和連接的數(shù)據(jù)到處都是這樣的背景)。對(duì)數(shù)據(jù)存儲(chǔ)的數(shù)量和位置的限制、計(jì)算能力以及處理來(lái)自多個(gè)數(shù)據(jù)源的不同數(shù)據(jù)格式的能力使得這項(xiàng)任務(wù)幾乎不可能完成。
然后,在2003年左右的時(shí)間里,Google的研究人員開(kāi)發(fā)了Map、Reduce。 這種編程技術(shù)通過(guò)首先將數(shù)據(jù)映射到一系列鍵/值對(duì)來(lái)簡(jiǎn)化處理大數(shù)據(jù)集,然后對(duì)類似的鍵執(zhí)行計(jì)算以將它們減少到單個(gè)值,以數(shù)百或數(shù)千個(gè)低位并行處理每個(gè)數(shù)據(jù)塊 成型機(jī)。 這種巨大的并行性允許Google從越來(lái)越大量的數(shù)據(jù)中產(chǎn)生更快的搜索結(jié)果。
在2003年,Google創(chuàng)造了兩個(gè)突破,使得大數(shù)據(jù)成為可能:一個(gè)是Hadoop,它由兩個(gè)關(guān)鍵服務(wù)組成:
· 使用Hadoop分布式文件系統(tǒng)(HDFS)可靠的數(shù)據(jù)存儲(chǔ)
· 使用稱為Map、Reduce的技術(shù)進(jìn)行高性能并行數(shù)據(jù)處理。 Hadoop運(yùn)行在商品,無(wú)共享服務(wù)器的集合上。 您可以隨意添加或刪除Hadoop集群中的服務(wù)器; 系統(tǒng)檢測(cè)并補(bǔ)償任何服務(wù)器上的硬件或系統(tǒng)問(wèn)題。 換句話說(shuō),Hadoop是自我修復(fù)的。 盡管發(fā)生系統(tǒng)更改或故障,它可以提供數(shù)據(jù)并運(yùn)行大規(guī)模,高性能的處理作業(yè)。
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和Map、Reduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則Map、Reduce為海量的數(shù)據(jù)提供了計(jì)算。
· 盡管Hadoop為數(shù)據(jù)存儲(chǔ)和并行處理提供了一個(gè)平臺(tái),但實(shí)際價(jià)值來(lái)自于該技術(shù)的附加組件,交叉集成和自定義實(shí)現(xiàn)。 為此,Hadoop提供的子項(xiàng)目為平臺(tái)增加了功能和新功能: · Hadoop Common:支持其他Hadoop子項(xiàng)目的常用工具。
· Chukwa:用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。
· HBase:可擴(kuò)展的分布式數(shù)據(jù)庫(kù),支持大型表格的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
· HDFS:分布式系統(tǒng),可提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn)。
· 蜂巢:提供數(shù)據(jù)匯總和即席查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施。
· Map/Reduce:用于在計(jì)算集群上分布式處理大型數(shù)據(jù)集的軟件框架。
· pig:并行計(jì)算的高級(jí)數(shù)據(jù)語(yǔ)言和執(zhí)行框架。
· ZooKeeper:分布式應(yīng)用程序的高性能協(xié)調(diào)服務(wù)。
Hadoop平臺(tái)的大多數(shù)實(shí)施方案至少包括這些子項(xiàng)目中的一些,因?yàn)樗鼈兺ǔJ情_(kāi)發(fā)大數(shù)據(jù)所必需的。 例如,大多數(shù)組織選擇使用HDFS作為主分布式文件系統(tǒng),將HBase用作數(shù)據(jù)庫(kù),可以存儲(chǔ)數(shù)十億行的數(shù)據(jù)。 并且使用Map/Reduce或更新近的Spark幾乎是給定的,因?yàn)樗鼈優(yōu)镠adoop平臺(tái)帶來(lái)了速度和靈活性。