網(wǎng)絡(luò)教育環(huán)境分為開(kāi)放式教學(xué)環(huán)境和非正式社會(huì)性教育環(huán)境,其中,非正式社會(huì)性教育環(huán)境是指基于智能終端(如,PC、移動(dòng)終端等)和以自主學(xué)習(xí)為主的學(xué)習(xí)環(huán)境,數(shù)據(jù)存儲(chǔ)于網(wǎng)絡(luò)空間。從數(shù)據(jù)的角度看,封閉式教學(xué)環(huán)境是教育小數(shù)據(jù)環(huán)境,開(kāi)放式教學(xué)環(huán)境和網(wǎng)絡(luò)教育環(huán)境是教育大數(shù)據(jù)環(huán)境。
(二)作用過(guò)程
機(jī)器學(xué)習(xí)一般作用于教育數(shù)據(jù)挖掘過(guò)程。教育數(shù)據(jù)挖掘涉及開(kāi)發(fā)、研究和應(yīng)用計(jì)算機(jī)方法在收集的大量教育數(shù)據(jù)中檢測(cè)模式,是教育與數(shù)據(jù)挖掘的融合。數(shù)據(jù)挖掘技術(shù)最早于1995年應(yīng)用于教育領(lǐng)域,拉開(kāi)了教育數(shù)據(jù)挖掘研究的帷幕,此后逐漸發(fā)展成為獨(dú)立的研究領(lǐng)域。教育數(shù)據(jù)挖掘涉及的學(xué)科主要包括教育學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)[22],如圖2所示。其中,機(jī)器學(xué)習(xí)作為計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的融合,為教育數(shù)據(jù)挖掘提供了強(qiáng)有力的技術(shù)支持。

在教育數(shù)據(jù)挖掘過(guò)程中,機(jī)器學(xué)習(xí)主要作用于數(shù)據(jù)挖掘和解釋部分,實(shí)現(xiàn)傳統(tǒng)教育中缺少或人工難以完成的功能,通過(guò)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化分析來(lái)發(fā)現(xiàn)未知的新知識(shí)和模式,如圖3所示。

其中,在數(shù)據(jù)解釋部分,機(jī)器學(xué)習(xí)方法通過(guò)建立預(yù)測(cè)模型(Predictive Model)和描述模型(Descriptive Model)分析教育數(shù)據(jù)來(lái)發(fā)現(xiàn)模式和知識(shí)。預(yù)測(cè)模型通過(guò)已知的數(shù)據(jù)預(yù)測(cè)未知的數(shù)據(jù),例如,通過(guò)分析學(xué)生的成績(jī)來(lái)預(yù)測(cè)學(xué)習(xí)表現(xiàn);描述模型通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)新的模式或結(jié)構(gòu)。
知識(shí)是機(jī)器學(xué)習(xí)的發(fā)現(xiàn),主要分為原理類、實(shí)踐類和優(yōu)化類知識(shí)[23]。其中,原理類知識(shí)旨在驗(yàn)證或修正現(xiàn)有的教育理論,例如,發(fā)現(xiàn)新的學(xué)習(xí)規(guī)律;實(shí)踐類知識(shí)旨在幫助教師開(kāi)展教學(xué)實(shí)踐,例如,預(yù)測(cè)學(xué)生表現(xiàn)和成績(jī);優(yōu)化類知識(shí)旨在改進(jìn)學(xué)習(xí)系統(tǒng)的效果和性能,例如,通過(guò)分析學(xué)習(xí)者知識(shí)提高系統(tǒng)的自適應(yīng)能力。這些知識(shí)將最終反饋給教育系統(tǒng)進(jìn)行迭代循環(huán),以促進(jìn)和改善學(xué)習(xí)。
(三)作用方法
目前,應(yīng)用于教育領(lǐng)域的機(jī)器學(xué)習(xí)方法有很多,例如,分類、回歸、聚類、文本挖掘、異常檢查、關(guān)聯(lián)規(guī)則挖掘、社會(huì)網(wǎng)絡(luò)分析、模式發(fā)現(xiàn)和序列模式分析等[24-26]。其中,預(yù)測(cè)和聚類是目前最熱門的。
1、預(yù)測(cè)(Prediction)
預(yù)測(cè)旨在開(kāi)發(fā)一個(gè)模型,從數(shù)據(jù)其他方面的集合(預(yù)測(cè)變量)中,推斷數(shù)據(jù)的一個(gè)單一方面(被預(yù)測(cè)變量)。簡(jiǎn)言之,就是從已知事件推測(cè)未知事件的過(guò)程。在教育應(yīng)用中,常用的預(yù)測(cè)方法是分類(Classification)和回歸(Regression),一般用來(lái)預(yù)測(cè)學(xué)生的表現(xiàn)和檢測(cè)學(xué)生行為。
(1)分類:一般用于預(yù)測(cè)學(xué)生的學(xué)習(xí)表現(xiàn),常用算法有決策樹(shù)、隨機(jī)森林、角色規(guī)則、逐步回歸和邏輯回歸等。例如,Lauria等使用邏輯回歸、支持向量機(jī)和C4.5決策樹(shù)等機(jī)器學(xué)習(xí)方法分析了不同數(shù)據(jù)源的學(xué)生數(shù)據(jù)集[27];Thammasiri等使用邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等機(jī)器學(xué)習(xí)技術(shù)對(duì)七年的學(xué)生學(xué)習(xí)數(shù)據(jù)進(jìn)行分析,來(lái)預(yù)測(cè)新生是否會(huì)在第二學(xué)期繼續(xù)學(xué)習(xí)[28]。
(2)回歸:一般用于分析學(xué)習(xí)行為與學(xué)習(xí)表現(xiàn)之間的關(guān)系,常用算法有線性回歸和回歸樹(shù)等。例如,Kotsiantis采用回歸算法分析學(xué)生在線提交作業(yè)的評(píng)分?jǐn)?shù)據(jù)和學(xué)生的關(guān)鍵人口特征數(shù)據(jù),來(lái)預(yù)測(cè)學(xué)生的學(xué)習(xí)表現(xiàn)[29];Hachey等采用二元邏輯回歸算法分析學(xué)生在線課程記錄及其GPA,來(lái)預(yù)測(cè)學(xué)生能否完成在線課程[30]。
2、聚類(Clustering)
聚類通常用于發(fā)現(xiàn)數(shù)據(jù)集中事先未知的常見(jiàn)分類。在教育應(yīng)用中,通常用來(lái)基于學(xué)生學(xué)習(xí)和交互模式對(duì)學(xué)生分組或?qū)ο嗨频恼n程材料分組。例如,Yanto等基于使用屬性變精度的近似值的精度均值,論證了使用變精度粗糙集模型對(duì)焦慮學(xué)生進(jìn)行聚類的適用性[31];Aher和Lobo采用聚類算法和關(guān)聯(lián)規(guī)則挖掘,對(duì)Moodle課程的學(xué)習(xí)記錄進(jìn)行聚類和分析,然后向?qū)W習(xí)者推薦合適的課程[32]。
(四)利益相關(guān)者與目標(biāo)
我們通過(guò)梳理文獻(xiàn)發(fā)現(xiàn),機(jī)器學(xué)習(xí)教育應(yīng)用的利益相關(guān)者包括學(xué)習(xí)者、教育者、教育管理者、教育研究者和開(kāi)發(fā)人員(課程或軟件)等,如表1所示。其中主要目標(biāo)體現(xiàn)在:支持學(xué)習(xí)者開(kāi)展個(gè)性化學(xué)習(xí),通過(guò)學(xué)習(xí)行為分析預(yù)測(cè)和可視化反饋,提高學(xué)習(xí)者的學(xué)習(xí)表現(xiàn);支持教育者掌握整體和個(gè)體學(xué)生的學(xué)習(xí)情況,自動(dòng)獲得實(shí)時(shí)客觀的教學(xué)反饋,促進(jìn)教學(xué)表現(xiàn)的改善;支持教育管理者制定決策,提供客觀全面的教育反饋;支持教育研究者和開(kāi)發(fā)人員更精準(zhǔn)地評(píng)估和維護(hù)教育系統(tǒng)和在線課程。