谷歌收購的數(shù)據(jù)科學(xué)社區(qū) Kaggle 的數(shù)據(jù)準(zhǔn)備分析師 Rachael Tatman 在今年早些時候發(fā)表了一篇關(guān)于性別和方言如何影響 YouTube 自動化標(biāo)題準(zhǔn)確性的文章。她發(fā)現(xiàn) YouTube 自動標(biāo)題對于女性和蘇格蘭口音的演講不太準(zhǔn)確,但根據(jù)訓(xùn)練數(shù)據(jù)的使用情況,不同的系統(tǒng)可能會出現(xiàn)不同的錯誤模式。
“如果是我看了很多弗吉尼亞州的女性發(fā)表的演講,我也會對來自弗吉尼亞州的女性的演講聽得更準(zhǔn)確,而對來自加利福尼亞州的男性就聽不了這么準(zhǔn)確。”Tatman 說。
現(xiàn)有的開源數(shù)據(jù)集已經(jīng)被發(fā)現(xiàn)存有“偏見”——例如德州儀器最初收集的交換機(jī)對話數(shù)據(jù)集,現(xiàn)在托管在賓夕法尼亞大學(xué)語言數(shù)據(jù)聯(lián)盟。有偏見的數(shù)據(jù)在人工智能的其他領(lǐng)域一直是個問題,一些算法被認(rèn)為更好地識別白人面孔,或者在理解推特上非裔美國人的英語時有困難,這對旨在為不同受眾服務(wù)的高科技公司和開源項目來說尤其是問題。
Mozilla 還邀請用戶驗證提交的樣本,驗證錄音的正確性。最近,由網(wǎng)站進(jìn)行驗證的樣品包括來自英語世界各個地方口音的正確錄音,還配了一個聽不清的樣本,以及一段貓王的音樂。
Tatman 說,大多數(shù)語音助手背后的公司都沒有提供內(nèi)部語音記錄,這并不完全是為了防止競爭。 由于很多查詢都包含了個人信息,例如網(wǎng)絡(luò)搜索或短信,如果開放數(shù)據(jù)將會造成隱私泄露。通過一個人獨(dú)特的聲音就可以識別他。
不過,這些公司仍會在內(nèi)部使用這些數(shù)據(jù):蘋果公司過去曾表示,它可以保留兩年的Siri數(shù)據(jù),以及相應(yīng)的用戶標(biāo)識(如抽取出的 ID 號碼和電子郵件地址),以幫助改進(jìn)算法。該公司沒有對其當(dāng)前Siri音頻保留政策引發(fā)的每個評論的進(jìn)行反饋。
“你的聲音是可識別的,”Tatman 說。 “這被認(rèn)為是可識別的信息。”
Mozilla 也采取了措施來保護(hù)用戶隱私,因為它收集的是開源語音數(shù)據(jù)。“我們費(fèi)盡心力地將用戶與相應(yīng)的錄音分開,使得剪輯本身沒有嵌入個人識別信息。”
和一些現(xiàn)有的公開可用語音記錄數(shù)據(jù)集(如經(jīng)過標(biāo)記的 TED 演講)相比,Mozilla 數(shù)據(jù)集的一個優(yōu)點是,和Siri或Alexa設(shè)備的聲音樣本一樣,錄音時的環(huán)境條件與人們實際使用語音識別軟件時的環(huán)境條件相似。
Rudnicky解釋道:“他們基本上是用瀏覽器來收集數(shù)據(jù),這意味著所收集的數(shù)據(jù)的更多地代表了目標(biāo)用戶可能具有的特征。例如,我坐在辦公室里,我用的麥克風(fēng)是辦公環(huán)境下桌面使用的那種,類似這樣。”
所收集的錄音擁有各種各樣的講者及口音以及所預(yù)期規(guī)模的數(shù)據(jù)集,因而會比現(xiàn)有的那些免費(fèi)的音頻資源更實用,甚至比那些大公司秘而不宣的數(shù)據(jù)集更有價值。“我們在盡可能地撒一張大網(wǎng)”,Henretty稱。