它的使用步驟如下,第一步是數(shù)據(jù)預處理,用戶不需要寫Spark代碼而只需要拖拽出一個圖標,我們稱之為一個算子,然后就可以提交數(shù)據(jù)清洗等數(shù)據(jù)預處理任務了。通過拖拽數(shù)據(jù)拆分算子,可以將數(shù)據(jù)集拆分為訓練集和測試集兩部分,其中一部分留在左邊用于特征抽取。一般來說,用Spark、Mapreduce等開源工具也可以做特征抽取,但對編程技能和工程能力有一定的要求,我們通過定義特征抽取的配置或者腳本,讓用戶可以不寫代碼也可以實現(xiàn)對原始數(shù)據(jù)集的特征工程。然后,連接我們自主研發(fā)的高維邏輯回歸、高維GBDT等模型訓練算子,也可以連接基于開源的TensorFlow或者MXNet等框架實現(xiàn)的算法。最后,經(jīng)過模型訓練得到模型文件后,用剛剛拆分出來的測試集進行模型預測,還可以使用通用的模型評估算子進行AUC、ROC、Logloss等指標的可視化展示。
在先知平臺上,用戶只需要通過構(gòu)建流程圖的方式,就可以實現(xiàn)數(shù)據(jù)處理、模型訓練等功能,真正解決真實場景下機器學習業(yè)務的問題。在先知平臺的最新版本中,提供了以極高的效率生成特征工程配置腳本,獲取自主研發(fā)的LR、GBDT算法的最佳參數(shù)等AutoML特性。這些特性能夠大幅降低在獲取一個有效建模方案過程中的重復性勞動,也可以有效輔助數(shù)據(jù)科學家獲得對數(shù)據(jù)的初步理解。在一些場景下,能夠獲得媲美甚至超越專家建模的效果。
目前先知平臺主要解決以下幾個目標場景:
1. 簡化數(shù)據(jù)引入,平臺不要求數(shù)據(jù)必須使用分布式存儲,也可以直接從RDBMS這類的SQL數(shù)據(jù)庫中導入訓練樣本數(shù)據(jù)。
2. 簡化數(shù)據(jù)拆分,用戶不需要寫Spark代碼,只需要提供數(shù)據(jù)拆分后的存儲路徑,并且支持按比例拆分或者按規(guī)則拆分兩種模式。
3. 簡化特征抽取,平臺支持連續(xù)特征、離散特征的抽取和組合,對于連續(xù)特征支持自動化的多分桶算法,我們也會歸納常用的特征抽取方法并且封裝成腳本或者配置,用戶只需了解對應的配置而不需要自己編碼實現(xiàn)具體的邏輯。平臺還可以根據(jù)已有的特征配置自動進行特征組合拓展,提升模型效果。
4. 簡化模型訓練,平臺可以支持開源的機器學習算法實現(xiàn)和第四范式自主研發(fā)的超高維度LR算法,這個LR算法實現(xiàn)了Parameter server可以解決幾十億、上百億特征維度的高速分布式訓練問題。對于學習率、正則化參數(shù)等可以做到自動調(diào)優(yōu)。另外,平臺還提供了線性分形分類器等擴展算法,可以無須人為干預的更加有效利用數(shù)值類特征。
5. 簡化模型評估,得到模型預估結(jié)果后,我們可以計算模型的ROC、Logloss、K-S等指標,不同模型計算指標的方式是類似的,用戶就不需要重復編寫實現(xiàn)代碼,直接通過拖拽算子調(diào)用即可,以上都是先知平臺所解決的問題。
6. 簡化模型上線,對于常見的高維LR/GBDT模型,可以一鍵發(fā)布為線上服務實例,不僅簡化了模型的部署和運維,而且上線實例還包括大部分的特征工程邏輯,無須手動再次開發(fā)特征處理邏輯的線上版本。
目前,先知平臺已經(jīng)成功應用于銀行、金融和互聯(lián)網(wǎng)等各行各業(yè),基于“先知平臺”的反欺詐模型能夠幫助銀行在毫秒級識別可疑交易,同時在新聞、視頻、音頻等內(nèi)容推薦場景下,“先知平臺”也成功大幅度提升關(guān)鍵業(yè)務指標。此外,在賦能企業(yè)利用機器學習升級運營效率的同時,更有意義的是,“先知平臺”也極大地降低了機器學習的使用門檻。
作為一個針對全流程機器學習業(yè)務的人工智能平臺,先知封裝了從數(shù)據(jù)處理、模型訓練到模型上線和反饋更新的系統(tǒng)閉環(huán),用戶不再需要很強的編程技術(shù)和工程能力,領(lǐng)域?qū)<液蜆I(yè)務人員都可以通過推拽方式進行建模和上線,幫助企業(yè)快速實現(xiàn)從數(shù)據(jù)收集到業(yè)務價值提升的終極目標。
隨著專利算法的不斷更新,更加實時高效的極致工程優(yōu)化,未來先知平臺將進一步降低人工智能工業(yè)應用的門檻,幫助越來越多的企業(yè)享受人工智能服務。