數據壓縮是以盡可能少的數碼來表示信源所發(fā)出的信號,減少容納給定的消息集合或數據采樣集合的信號空間。這里講的信號空間,就是被壓縮的對象,是指某信號集合所占的時域、空域和頻域。信號空間的這幾種形式是相互關聯的,存儲空間的減少,意味著信號傳輸效率的提高,所占用帶寬的節(jié)省。只要采取某種方法來減少某個信號空間,就能夠壓縮數據。
數據壓縮是信息論中一個很重要的概念。從信息論的角度來看,信源編碼的一個最主要的目的,就是要解決數據的壓縮問題。這一點,反映在整個通信過程中。
五十七:數據恢復(Data Recovery)
數據恢復是指由于各種原因導致數據損失時,把保留在介質上的數據重新還原。即使數據被刪除或硬盤出現故障,在介質沒有嚴重受損的情況下,數據均有可能被無損恢復。
格式化或誤刪除引起的數據損失情況,大部分數據仍未損壞,只要用軟件重新恢復連接環(huán)節(jié),即可重讀數據。如果硬盤因硬件損壞而無法訪問時,只要更換發(fā)生故障的零件,即可恢復數據。但在介質嚴重受損或數據被覆蓋時,數據將極難恢復。
五十八:數據集成(Data Integration)
數據集成就是將若干個分散的數據源中的數據,邏輯地或物理地集成到一個統一的數據集合中。數據集成的核心任務是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,只關心以何種方式訪問何種數據。實現數據集成的系統稱作數據集成系統(見下圖),它為用戶提供統一的數據源訪問接口,執(zhí)行用戶對數據源的訪問請求。
五十九:數據遷移(Data Migration)
數據遷移是數據系統整合中保證系統平滑升級和更新的關鍵部分。在信息化建設過程中,隨著技術的發(fā)展,原有的信息系統不斷被功能更強大的新系統所取代。從兩層結構到三層結構,從Client/Server到Browser/Server。在新舊系統的切換過程中,必然要面臨一個數據遷移的問題。
六十:數據元(Data Element)
數據元即數據元素,是通過定義、標識、表示和允許值等一系列屬性描述的數據單元,在一定語境下,構建一個語義正確、獨立且無歧義的特定概念語義的信息單元。數據元可理解為數據的基本單元,將若干具有相關性的數據元按一定次序組成一個整體結構,即數據模型。
六十一:數據冗余(Data Redundancy/Redundant Data)
數據冗余是指同一個數據在系統中多次重復出現。在文件系統中,由于文件之間沒有聯系,有時一個數據在多個文件中出現;而數據庫系統則克服了文件系統的這種缺陷,但仍然存在數據冗余問題。消除數據冗余的目的是為了避免更新時可能出現的問題,以便保持數據的一致性。
六十二:數據抽取
數據抽取是從數據源中抽取數據的過程。數據抽取是指從源數據源系統抽取目的數據源系統需要的數據。實際應用中,數據源較多采用的是關系數據庫。
六十三:網絡數據抽取 (Web data mining)
網絡數據抽?。╓eb data mining),是指從網絡中取得大量的又利用價值的數字化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點挖掘(Opinion mining)等。
結構化數據抽取(Structured Data Extraction)的目標是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在后臺數據庫中,由網頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結果頁面等。
信息集成(Information integration)是針對結構化數據而言的。其目標是將從不同網站中抽取出的數據統一化后集成入庫。其關鍵問題是如何從不同網站的數據表中識別出意義相同的數據并統一存儲。
六十四:數據標準化(data standardization)
數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。