概述
Patterns and Predictions(P&P)是一家預(yù)測分析公司,其核心技術(shù)提供非結(jié)構(gòu)化和語義驅(qū)動的預(yù)測。正是該技術(shù)為Durkheim項(xiàng)目的“大數(shù)據(jù)”分析網(wǎng)絡(luò)提供了用于評估心理健康風(fēng)險(xiǎn)的技術(shù)支撐。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、達(dá)特茅斯的蓋瑟醫(yī)學(xué)院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客戶包括全球100強(qiáng)大型公司。該公司的主要合作伙伴Chris Poulin,是該公司核心Centiment®技術(shù)的共同發(fā)明者,Centiment®是一種提供非結(jié)構(gòu)化和語義驅(qū)動預(yù)測的技術(shù)。
Durkheim 項(xiàng)目是為了紀(jì)念法國社會學(xué)家David Émile Durkheim在1897年出版的書籍《自殺論(Suicide)》而命名的,在該書中其最早定義了自殺風(fēng)險(xiǎn)的文本分析,并且提供了與社會脫節(jié)相關(guān)的重要理論解釋。該項(xiàng)目遵循其Durkheim的研究方向,即Durkheim所稱的自殺的“特性” – 指向自殺風(fēng)險(xiǎn)的具體模式和線索。而Durkheim 項(xiàng)目具有一個(gè)創(chuàng)始社會學(xué)家未曾擁有的有價(jià)值的工具,即技術(shù)。
面臨的挑戰(zhàn)
自殺多年來一直困擾著美國軍方。如今,這種無處不在的戰(zhàn)爭后遺癥對于美國社會來說,是一場長期且無處不在的戰(zhàn)爭,并且令人震驚的是傷亡率仍在持續(xù)增加。在很多文章中都提到了這一問題,其中美國《時(shí)代(Time)》雜志報(bào)道說,2012年全年美軍達(dá)到了創(chuàng)紀(jì)錄的349例士兵自殺事件,遠(yuǎn)遠(yuǎn)超過了美軍同期在阿富汗戰(zhàn)死的士兵數(shù)。士兵自殺的比例大約是美國一般民眾中成年人的兩倍。
在《2012年自殺數(shù)據(jù)報(bào)告》中,美國退伍士兵事務(wù)部(VA)指出,“關(guān)于退伍士兵自殺風(fēng)險(xiǎn)的特征和結(jié)果的信息對于改善自殺預(yù)防計(jì)劃的制定是至關(guān)重要的。”
Durkheim 項(xiàng)目旨在提供這一重要信息。憑借其強(qiáng)大的高級分析、實(shí)時(shí)預(yù)測建模和機(jī)器學(xué)習(xí)協(xié)同工作功能,該項(xiàng)目尋求確定退伍士兵的溝通和自殺風(fēng)險(xiǎn)之間的關(guān)鍵相關(guān)性,F(xiàn)ast Company 稱贊其為我們所見過的“對大數(shù)據(jù)最重要的使用”。
關(guān)鍵要點(diǎn)
行業(yè)
• 政府
• 醫(yī)療保健和生命科學(xué)行業(yè)
地理位置
• 美國新罕布什爾州普茨茅斯
支持的業(yè)務(wù)應(yīng)用
• 識別自殺風(fēng)險(xiǎn)因素的預(yù)測分析
影響
• 實(shí)時(shí)溝通和自殺風(fēng)險(xiǎn)之間的準(zhǔn)確的、語義驅(qū)動的相關(guān)性
• 基礎(chǔ)架構(gòu)提供了更低的成本,更好的計(jì)算吞吐量,并降低了IT 支持的復(fù)雜性
使用的技術(shù)
• Hadoop 平臺:CDH
• Hadoop 組件:Cloudera Impala和Cloudera Search
• 服務(wù)器:Cray grid、Amazon EC2
• 分析工具:Patterns and Predictions Centiment®;Attivio
大數(shù)據(jù)規(guī)模
• 每天實(shí)時(shí)處理超過1TB 的作業(yè)
• 實(shí)時(shí)支持高達(dá)100,000 名現(xiàn)役和退伍士兵
解決方案
第一階段
Durkheim 項(xiàng)目于2010年開始設(shè)立,該項(xiàng)研究最初由達(dá)特茅斯學(xué)院(Dartmouth College)發(fā)起,并且P&P 和Poulin 都參與了該項(xiàng)研究。Poulin 及其專家是該項(xiàng)目的多學(xué)科協(xié)作團(tuán)隊(duì)的關(guān)鍵成員,其中還包括人工智能領(lǐng)域的專家,以及來自私人公司、達(dá)特茅斯蓋瑟醫(yī)學(xué)院(Dartmouth’s Geisel School of Medicine)和VA 的醫(yī)療專業(yè)人員。
該項(xiàng)目的第一階段開始對三個(gè)實(shí)驗(yàn)組進(jìn)行研究,每個(gè)實(shí)驗(yàn)組包含100 名受試者,分別代表“非精神失調(diào)”、“精神失調(diào)”和“自殺陽性”狀態(tài)。研究人員開發(fā)了語義驅(qū)動的預(yù)測模型,從非結(jié)構(gòu)化臨床診治記錄數(shù)據(jù)中預(yù)估可能的自殺風(fēng)險(xiǎn)。
2011 年,P&P 開始引入該技術(shù),并建立了綜合性的基礎(chǔ)架構(gòu)和預(yù)測模型,在經(jīng)過系統(tǒng)擴(kuò)展之后可以支持該項(xiàng)目海量的數(shù)據(jù)收集和分析工作。此外,Apache
Hadoop 等分布式技術(shù)為高效和高度可擴(kuò)展的大數(shù)據(jù)平臺提供了適宜的解決方案;但是該項(xiàng)目需要一個(gè)輕量級的機(jī)器學(xué)習(xí)框架,該框架可以在Hadoop 上運(yùn)行并能檢測大規(guī)模的實(shí)時(shí)風(fēng)險(xiǎn)。
Poulin 解釋說:“大多數(shù)大數(shù)據(jù)機(jī)器學(xué)習(xí)解決方案的精確度都很低,或者在實(shí)施以及與我們現(xiàn)有環(huán)境的集成方面非常復(fù)雜。”
Cloudera 公司在Hadoop 和大數(shù)據(jù)領(lǐng)域的領(lǐng)導(dǎo)地位和豐富的專業(yè)知識使Poulin 能夠充分利用Cloudera 專業(yè)服務(wù)共同開發(fā)貝葉斯計(jì)數(shù)器(Bayesian counters),這是一個(gè)基于Apache HBase 和市場主流的100%開源CDH(Cloudera’s Distribution Including Apache Hadoop)基礎(chǔ)上,能夠大規(guī)模檢測風(fēng)險(xiǎn)的輕量級統(tǒng)計(jì)模型?;贑loudera 的框架體系是Durkheim 項(xiàng)目的技術(shù)基石。