目前在教育大數(shù)據(jù)領(lǐng)域中有很多研究領(lǐng)域,比較主要的是數(shù)據(jù)挖掘和學(xué)習(xí)分析。兩者既有相同之處,又存在一定差異。
1.教育大數(shù)據(jù)和數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識(shí)的非平凡過程。目前認(rèn)可度較高的一種處理模型是Fayyad等人設(shè)計(jì)的多處理階段模型,在此不再贅述。在大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念上有三大轉(zhuǎn)變:抽樣到全體、絕對(duì)精確到效率、因果到相關(guān)[10]。大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘繼承于傳統(tǒng)數(shù)據(jù)挖掘又不同于傳統(tǒng)數(shù)據(jù)挖掘。首先是分析對(duì)象不同,傳統(tǒng)數(shù)據(jù)分析的對(duì)象是在已知的數(shù)據(jù)范圍中易處理的數(shù)據(jù),而基于大數(shù)據(jù)的數(shù)據(jù)挖掘?qū)ο髸r(shí)包括非結(jié)構(gòu)化數(shù)據(jù)的全部數(shù)據(jù),不能保證原始數(shù)據(jù)是完整的、清洗過和沒有錯(cuò)誤的。其次是分析基礎(chǔ),傳統(tǒng)分析是建立在關(guān)系數(shù)據(jù)模型之上的,是在系統(tǒng)內(nèi)就創(chuàng)立的主題之間的關(guān)系基礎(chǔ)上進(jìn)行的,而在大數(shù)據(jù)分析中,絕大部分分析基于縱裂數(shù)據(jù)庫之外。再其次是分析效率,傳統(tǒng)數(shù)據(jù)處理過程中需要等待抽取、轉(zhuǎn)換、加載等工作完成。而大數(shù)據(jù)分析是對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。最后是硬件差別,在傳統(tǒng)數(shù)據(jù)處理中所使用硬件比較昂貴。而大數(shù)據(jù)處理過程加入了對(duì)分析軟件的使用,所以硬件成本較低。
近幾年出現(xiàn)了許多有關(guān)教育數(shù)據(jù)挖掘(EDM)的文獻(xiàn)。研究者對(duì)EDM研究的主題范圍集中在使用數(shù)據(jù)挖掘提高機(jī)構(gòu)效率和促進(jìn)學(xué)生的學(xué)習(xí)過程。但是教育數(shù)據(jù)挖掘領(lǐng)域內(nèi)還存在更廣泛的話題,例如,在課程管理系統(tǒng)內(nèi)(CMS)學(xué)生的退出和保留、個(gè)性化推薦系統(tǒng)、以及學(xué)生學(xué)習(xí)評(píng)價(jià)。
教育數(shù)據(jù)挖掘可以向教育者、學(xué)習(xí)者、教育管理者、家長及教育研究者提供決策幫助,最終提高學(xué)習(xí)者的學(xué)習(xí)水平。基于教育大數(shù)據(jù)的數(shù)據(jù)挖掘過程即將學(xué)習(xí)結(jié)果、學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源與教學(xué)行為等教育原始數(shù)據(jù)使用多種技術(shù),如聚類、關(guān)系挖掘和模型構(gòu)建等,最終達(dá)到預(yù)測(cè)學(xué)習(xí)者發(fā)展趨勢(shì)、促進(jìn)有效學(xué)習(xí)的目標(biāo)。具體過程如圖3所示。