音樂行業(yè)一直在被人的直覺所推動。一首歌會不會火,一個歌手會不會紅,一場演唱會不會大賣,這些往往都是靠音樂公司高管們的直覺判斷。于是,才有了各種意外的“走紅”或者“滑鐵盧”。
大數(shù)據(jù)時代,音樂界迎來一場革命:下一首歌流行什么,聽眾說了算。
阿里音樂正在開展一項嘗試:將阿里音樂平臺上的用戶行為數(shù)據(jù)與社交網(wǎng)絡數(shù)據(jù)、新聞資訊數(shù)據(jù)等結合,借助阿里云“數(shù)加”上的大數(shù)據(jù)工具,預測哪些音樂人會成為下一個音樂巨星。
有猜測指出,這項技術同阿里音樂一直秘而不宣的新平臺有密切聯(lián)系。
先鋒藝術家安迪·沃霍爾曾說過:“在未來世界,每個人都有可能出名5分鐘。”對于唱片公司來說,如何預知誰會是下一個5分鐘的黑馬,成為難題。
阿里音樂的數(shù)據(jù)工程師介紹,用戶在音樂平臺上收聽、分享、收藏音樂的行為,以及在社交網(wǎng)絡、視頻網(wǎng)站、貼吧論壇上做出關注、評論、轉發(fā)、點贊等動作,反應了對音樂人的喜好程度。我們用word2vector算法對關鍵詞進行聚類,結合轉發(fā)點贊等原始及衍生特征,通過gbdt分布式算法進行預測分析。“尋找隱藏在其中的下一個TFboy”。
數(shù)字唱片公司DigSin首席執(zhí)行官杰·弗蘭克曾表示,大數(shù)據(jù)技術不是要把人的因素抹去,而是最大程度地呈現(xiàn)人的因素--受眾的反應。“這恐怕是音樂史上最平民化的時刻,”他說。
收集所有人的意見并作出判斷,并非易事。阿里音樂的工程師介紹,該項目僅每天要處理的阿里音樂平臺數(shù)據(jù)就達到了100TB,更不用說海量的外部互聯(lián)網(wǎng)數(shù)據(jù)。大數(shù)據(jù)技術的飛躍為這一設想的實現(xiàn)提供了基礎。
在過去的5年里,全球大數(shù)據(jù)計算性能實現(xiàn)了超過21倍的提升。2011年,Tritonsort排序100TB數(shù)據(jù)需要8274秒;到2015年,阿里云的MaxCompute只需要377秒。
開發(fā)團隊用不到2個月時間就完成了整個項目。“就像搭積木一樣,阿里云上有我們需要的所有大數(shù)據(jù)工具”。
除了MaxCompute,阿里云的分析性數(shù)據(jù)庫Analytic DB可以對90億條的粉絲關系數(shù)據(jù)進行實時查詢計算;機器學習工具集成了大量算法,簡單拖拽便可實現(xiàn)特征工程及訓練模型的搭建。
紐約音樂數(shù)據(jù)分析公司“Next Big Sound”的藝人分析
預測黑馬還只是音樂行業(yè)大數(shù)據(jù)革命的一角。BBC基于音樂雷達軟件Shazam提供的數(shù)據(jù),在全球4900個城市中找到了擁有相同音樂品味的“孿生”城市。Shazam能夠采集外部歌曲的指紋,并同服務器端指紋比對,從而實現(xiàn)歌曲識別。
美國的House of Blues采用一種獨特的算法去安排“拼盤明星巡演”。對于音樂人而言,可以結合粉絲地理位置數(shù)據(jù),安排更合理的演唱會巡演路線,以便最廣泛地接觸忠實歌迷。同時,還能根據(jù)當?shù)厍闆r,編排不同的曲目。
眼下,大數(shù)據(jù)正在嘗試回答音樂圈內(nèi)一個古老的問題:下一首歌,你想聽什么?