智慧語音四大階段:語音聊天;語音操控;情感化和人格化;人機合一目前智慧語音帶來了互動溝通樂趣,養(yǎng)成了初步習慣,也逐漸可以語音操控智慧語音會變得更加有趣語音操控核心是語言系統(tǒng)和操作系統(tǒng)的無縫整合,語音指令權重將更高
在周末的極客公園年會上,百度公司創(chuàng)始人李彥宏大談人工智能,robin認為現(xiàn)在人工智能已經趨于成熟,在移動互聯(lián)網時代,技術變得更加重要。與此同時,奇點大學的校長RayKurzweil表示2020年我們模擬人類智能的成本就很低了,2045年人工智能超越人類的智慧帶來全新形態(tài)的文明。
相比頗具科幻感的未來人工智能,普通大眾更容易接觸到的是智能語音技術帶來的生活改變,中興通訊、nuance、audience、百度、高德、中國科學院自動化所等近十家單位成了智慧語音聯(lián)盟,已經在布局智慧語音技術的規(guī)模應用和生態(tài)建設。智慧語音作為人工智能前端的交互模式,更接近于人類交流模式,而且可以分階段、分層次、分深度地融入手機、汽車、家電等設備中,一步步地牽引人們走向人工智能的時代。
科技革命:智慧語音的四大階段
智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段:語音聊天、語音操控、情感化人格化、人機合一。
語音聊天。這是語音技術的初級模型建立期。語音聊天是機器學習的過程,也是賦予機器思考能力的過程,人們和機器人進行對話聊天的過程中,機器人越來越智慧,并逐步建立人的樣本特征庫。像iphone上的siri、小娜等聊天機器人都是用大數(shù)據和機器學習的技術進行人機對話,這些聊天大多數(shù)是娛樂需求,在早期活躍度很高,但隨著人們新鮮期的退潮,語音聊天的熱度持續(xù)性在大幅降低。
語音操控。這是智慧語音的應用階段,將語音技術和系統(tǒng)軟件的深度整合,是賦予機器功能以運動能力和語言系統(tǒng)控制的能力,好比人的語言命令系統(tǒng)。此階段,讓機器和人的溝通超出了聊天對話,而具有現(xiàn)實的應用價值,發(fā)揮技術生產力價值。把語音內嵌到操作系統(tǒng)里,可以通過智慧語音來喚醒手機的應用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機,不需要觸摸手機或屏幕就可以喚醒手機,并操控手機,還可以智能播報短信、語音轉文字等,將智慧語音的交互模式優(yōu)勢發(fā)揮到了極致。
情感化和人格化。相比語音操控的語音和機器深度整合,智慧語言的下一步也許是更加充滿情感,像人一樣有情感交流,人格化是智慧語音接近于人類自然語言系統(tǒng)的高級境界。此階段,語音操控會是最基本的智慧能力,星星x號的智慧語音或許可以聽出人的語氣、情緒、態(tài)度,而不僅僅是通過簡單的字面意義的互動,它們會像你的助理一樣陪著你生活、快樂、感傷,這就要要求智慧語音系統(tǒng)有高超的聲紋識別技術和聰明的大腦。
人機合一。這聽起來就比較科幻了,但是從目前的人工智能技術發(fā)展來看,也許10-20年內是能夠實現(xiàn)的,這個階段智能語音交互模式已經無限接近于人類的語言系統(tǒng),并能將人類的自然語言轉化成操控機器的指令系統(tǒng),能夠主動地為主人提供服務,并通過開放api能夠語音操控非常多設備。機器像人一樣思考,能夠理解人的語言含義和情感系統(tǒng),每一個機器像自己的兄弟一樣可以一起戰(zhàn)斗。
現(xiàn)階段智慧語音給我們帶來了什么
Siri、小娜們帶了智能手機的擬人化互動溝通樂趣,偶爾放松一下也無妨,但由于其只是獨立app,需要觸控操作喚醒,能夠實現(xiàn)的語音操控十分有限,是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發(fā)現(xiàn)了語音技術的力量,并培養(yǎng)了初步的用戶習慣,開啟了智慧語音的大門。
星星2號的智慧語音水平是第二階段的,重點強化了語音系統(tǒng)和手機操作系統(tǒng)的深度整合,語音可以操控手機的主要功能需求,其最大的特點是駕駛模式場景,智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了,語音操控交互模式在駕駛模式下變成剛性需求了。