人文社會科學大數(shù)據(jù)研究的基本特征
綜合已有的研究,人文社會科學的大數(shù)據(jù)研究具有如下基本特征:
一是所涉及資料均大大超過一般的閱讀、分析和理解所能處理的范疇,是以往“不可研究”或“難以研究”的,大數(shù)據(jù)分析方法的出現(xiàn)提供了人文社會科學研究新的研究空間,提供了新的研究可能。
二是一般引入計算分析方法,其結論并非觀察、思索、領悟等傳統(tǒng)方法獲得,而是通過大量數(shù)據(jù)的匯集而“自動涌現(xiàn)”,其理論的獲得不同于傳統(tǒng)人文社會科學研究。
三是均構建了可持續(xù)完善和豐富的數(shù)據(jù)集和分析工具,其可用性、共享性、重用性、協(xié)作性大大增強,提供了人文社會科學學者大規(guī)模協(xié)作的可能。
四是均具有跨學科特征。數(shù)字人文研究需要匯集專業(yè)領域技能、數(shù)據(jù)管理技能、數(shù)據(jù)分析技能和項目協(xié)作技能,因而這類項目往往由跨度較大的不同學科的專業(yè)學者共同完成。
五是決定研究質量的主要是數(shù)據(jù)集的質量、數(shù)量和利用方式,而研究假設相對容易。在某種程度上,數(shù)據(jù)科學家將成為人文社會科學大數(shù)據(jù)研究中的主角。
人文社會科學大數(shù)據(jù)研究的隱憂
雖然以微軟、谷歌、IBM為代表的主流數(shù)據(jù)服務商都極力推崇數(shù)字化人文社會科學研究的美好前景,但其也存在不足:
首先,非場景化的研究邏輯缺乏適用性與人文關懷。由于完全剝離了數(shù)據(jù)所處的具體環(huán)境,數(shù)據(jù)可能生澀,并且缺乏可理解性和適用性。比如商業(yè)分析中的數(shù)據(jù)挖掘,其可用性僅10%左右,并非“一挖就靈”。2012年,加拿大作家史蒂芬·馬爾什在其文章《文學不是數(shù)據(jù):反對數(shù)字人文》中也表示,將文學當作數(shù)據(jù)會失去文學本身豐富的意蘊。
其次,人文社會科學的大數(shù)據(jù)研究有可能“敏銳地”發(fā)現(xiàn)問題,卻無法給問題合理的解釋,也無法給出有針對性的對策,限制了其應用范圍。比如輿情分析、政策計算、情感計算的應用。
再次,數(shù)據(jù)分析的集群研究會消滅重要的個體特征,而個體反而是眾多人文社會科學研究關注的焦點。
最后,人文社會科學大數(shù)據(jù)研究過分關注技術分析,可能忽視創(chuàng)新思維和思辨分析,不利于大師級人文社會科學學者的培養(yǎng)。
總之,隨著人文社會科學數(shù)據(jù)的快速增長以及大數(shù)據(jù)分析技術的日益完善,人文社會科學的大數(shù)據(jù)研究必然會成為人文社會科學的主流領域,但不會替代現(xiàn)有的人文社會科學研究,而是相互補充,相得益彰。
(孫建軍 作者為國家社科基金重大項目“面向學科領域的網(wǎng)絡信息資源深度聚合與服務研究”首席專家、南京大學教授)