在被3D打印、Google Glass和智能手表等各種未來技術(shù)和未來設(shè)備輪番轟炸之后,我們又迎來了一波新的熱潮--手勢識別。簡單地說,這項技術(shù)是利用各類傳感器對手部/手持工具的形態(tài)、位移等進行持續(xù)采集,每隔一段時間完成一次建模,形成一個模型信息的序列幀,再將這些信息序列轉(zhuǎn)換為對應(yīng)的指令,用來控制實現(xiàn)某些操作。隨著各項技術(shù)的成熟和傳感器的發(fā)展,手勢識別已經(jīng)進入可用性階段,各類產(chǎn)品和解決方案也開始涌現(xiàn)。
目前最火熱的當屬把這個概念帶入消費市場的Leap Motion。它的最大頻率是每秒鐘290幀,即每秒鐘建立290個手部的3D模型,這保證了其能夠順暢且細致地實現(xiàn)手勢到指令的轉(zhuǎn)換(有開發(fā)者指出在USB2.0下實際工作在115幀左右)。同時,根據(jù)介紹,它可以追蹤到傳感器上方25 mm~ 600 mm范圍內(nèi),150度視角中精確到0.01毫米的動作(不過有已經(jīng)入手的開發(fā)者表示,其實際操作范圍要比文檔中描述的更小,類似于一個倒四棱錐體)。隨后,我們看識別范圍更廣且只需夠結(jié)合普通攝像頭進行識別的Pebbles,利用生物電來實現(xiàn)手勢識別的MYO臂環(huán),微軟也將在Kinect for Windows中也將引入手勢操作和3D掃描技術(shù)……而在前幾天,一個類Leap Motion的解決方案DUO也登陸了KickStarter,不同的是,這個由NUIgroup發(fā)起的項目是一個開源的產(chǎn)品--提供開放的硬件設(shè)計方案、驅(qū)動代碼和SDK,這使得開發(fā)者們更容易將這個項目整合到自己的產(chǎn)品之中。
看到這一系列的產(chǎn)品和解決方案,我心開始思考兩個問題:一、它們的使用場景有哪些?二、在這個新領(lǐng)域的競爭中誰將取得勝利?
對于第一個問題,我想還是應(yīng)該從這些方案的實現(xiàn)原理中找答案。如前文所述,手勢識別技術(shù)實現(xiàn)了手部信息的捕捉和手部信息到命令的轉(zhuǎn)換,它引發(fā)了兩個改變:空間信息采集方式的改變和交互模式的改變。所以我認為它主要有三方面的應(yīng)用場景:
1.對物體進行靜態(tài)/動態(tài)捕捉。最基礎(chǔ)的就是類似于3D掃描的技術(shù)--可以輕松復制實物的3D數(shù)字模型,用于3D打印。當然,它也可以是動態(tài)的,尤其是當能夠做到從手勢到人的延伸,那么通過電腦精準的模擬一個人的運動狀態(tài)將對電影、游戲產(chǎn)業(yè)起到重大的影響。
2. 替代原有的交互模式。由于對交互模式的顛覆,Leap Motion最初帶給人們的幻想是來自于對鍵盤、鼠標的替代。當然,實際上它可以引發(fā)更多的變革:全新的游戲操控方式,用手指完成繪畫、在空中演奏音樂,設(shè)計師、建筑師等也可以對以上所說的3D模型進行設(shè)計、拆解……就像我們常常在科幻電影里看到的那樣。
3.改變信息的輸入和傳達方式。時至今日,鍵盤輸入已經(jīng)在很大程度上取代了筆作為輸入的工具,但信息最主要的呈現(xiàn)方式卻沒有改變--文本。語音雖然也在崛起,但實際上它也需要通過的文本進行轉(zhuǎn)化和呈現(xiàn)(所以我一直認為信息皆文本)。那么,在語音識別之后,隨著圖形、圖像識別精度的提高,把手勢轉(zhuǎn)換為文本也成為了可能。我想到了兩個比較有意思的場景:一個是將聾啞人手語轉(zhuǎn)化為文字/語音,另一個是也許可以用它發(fā)明一套全新的編碼。
正因為手勢識別(延伸到動態(tài)圖像識別)擁有廣闊的想象空間,可以延伸出無數(shù)的產(chǎn)品,所以這個領(lǐng)域的爭奪也會十分激烈。前文提到的各類產(chǎn)品都有各自的優(yōu)勢:Leap Motion識別精度高、Pebbles范圍更廣、DUO是開源可定制的、MYO伴隨人體且反應(yīng)更迅速……我相信還會有一批各有千秋的產(chǎn)品/解決方案出現(xiàn),但它們能否獨占鰲頭的決定性因素還是在于其是否能夠建立一個完善的應(yīng)用生態(tài)系統(tǒng)。