本文來自微信公眾號:硅谷密探(SVS-007)
在舊金山街頭,會有人使用一個叫“Alice Who”(神馬愛麗絲)的APP。
你只要把手機(jī)攝像頭對準(zhǔn)一棟建筑,或一家餐廳,“Alice Who”就會告訴你,這是什么地方,這家餐廳叫什么名字;“Alice Who”還能夠幫你鏈接去美國版的大眾點評網(wǎng)Yelp、FourSquare等,讓你能夠了解這家餐廳的詳細(xì)信息和評價。
有了Alice Who,地方搜索變得異常簡單,就像有一個當(dāng)?shù)氐暮糜言谏磉叄阊劬聪蚰膬?,這位當(dāng)?shù)嘏笥丫湍芨嬖V你看到的是什么。這或許就是未來的搜索體驗吧!
看似簡單的應(yīng)用,背后包含了復(fù)雜的技術(shù)。對于戶外環(huán)境中建筑、店面的識別,一直是計算機(jī)視覺的難點。如何讓計算機(jī)看清楚,看得準(zhǔn)?即使戶外的光線千變?nèi)f化,即使環(huán)境中存在眾多干擾因素?
帶著這些問題,硅谷密探連線了Alice Who的開發(fā)者,以色列創(chuàng)新公司Fringefy的聯(lián)合創(chuàng)始人Assif Ziv,請他介紹了Fringefy在計算機(jī)視覺技術(shù)領(lǐng)域的研發(fā)情況,以及Fringefy的愿景和方向。
獨辟蹊徑的計算機(jī)視覺技術(shù)
計算機(jī)視覺(Computer Vision)是近年來大家談的較多的話題。無人駕駛汽車、無人機(jī)等產(chǎn)品漸漸進(jìn)入大眾視野,如何讓機(jī)器能夠像人一樣,有看見、辨識周圍環(huán)境的能力,成為這些產(chǎn)品成功的關(guān)鍵。
隨著計算機(jī)視覺技術(shù)的發(fā)展,人們開發(fā)了不同的手段來幫助機(jī)器“看見”物體。大部分技術(shù)是基于同一基礎(chǔ)的,那就是點狀云(Point Cloud)。通過3D掃描物體,構(gòu)建點狀云,然后用點狀云訓(xùn)練機(jī)器的算法,讓機(jī)器能夠辨識出這個物體。
(Point Cloud 示意)
但是,這種標(biāo)準(zhǔn)的技術(shù),在室內(nèi)適用,識別物體、人臉都很給力,卻不擅長識別戶外建筑。在戶外,隨著光線的變化,不但建筑反光的顏色和強度會變化,陰影會變化;此外,建筑物周圍的行人、停靠的車輛,也會影響機(jī)器對其的識別。
(戶外環(huán)境和物體受多種因素影響,圖片來自asl.ethz.ch)
舉個例子,我們在上午10點拍攝的咖啡的圖像,與下午4點再次拍攝的圖像,對于機(jī)器識別來講,可能是完全不同的兩個場景。并且,建筑物的體積較大,人通常并不能拍到其全貌。這也給機(jī)器識別帶來了挑戰(zhàn)。
而Fringefy的計算機(jī)視覺技術(shù)主要集中于應(yīng)對這些挑戰(zhàn)。Fringefy所開發(fā)的算法,專注于把握建筑的幾何形狀,而非整體和細(xì)節(jié)。也就是說,通過把握建筑的門、窗及主要結(jié)構(gòu),避開光線和干擾物的影響。
Azzif的團(tuán)隊已經(jīng)專注開發(fā)這個技術(shù)兩年,并在美國申請了專利,成為同一領(lǐng)域的最前沿的公司。
首先,他們的商業(yè)模式是什么?
其實,“Alice Who”APP只是Fringefy推出的一款展示用APP。Fringefy真正的商業(yè)模式,是通過提供API或SDK為客戶提供服務(wù)。
目前,F(xiàn)ringefy的目標(biāo)客戶包含三類。
第一類是地區(qū)搜索引擎,如Yelp、大眾點評、Trip Advisor等,讓這些搜索引擎的用戶,能夠非常簡便的用手機(jī)攝像頭識別周圍環(huán)境,提供不一樣的搜索體驗。
Fringefy的第二類目標(biāo)客戶是品牌和公司,這些公司希望通過分析其用戶在社交媒體上發(fā)布的照片的地理位置,來獲得商業(yè)洞察。例如,這些公司的用戶,通過社交媒體發(fā)布了自己的照片,但并沒有注明拍攝地址。Fringefy可以幫助客戶分析這個圖片,告訴客戶,這是什么地方,從而幫助客戶分析其用戶的行為模式和喜好。
而第三類,當(dāng)然是國防和安全行業(yè)了。以色列政府目前也是Fringefy的合作伙伴之一。
Azzif告訴硅谷密探,F(xiàn)ringefy成立到現(xiàn)在,盈利模式也經(jīng)歷了多個變化。最先是希望通過授權(quán)技術(shù)給客戶來盈利,例如收取年度授權(quán)費用。后來,逐漸轉(zhuǎn)向提供API,基于客戶所消費的圖像分析服務(wù)的數(shù)量和需求來收費。
(Assif Ziv)
如何快速準(zhǔn)確地進(jìn)行圖片識別?
通常,F(xiàn)ringefy會把用戶通過手機(jī)攝像頭捕捉到的圖像,與數(shù)據(jù)庫中的圖像進(jìn)行比較、匹配。那么,如何將一個圖像,與云上的成千上萬張圖像比較, 并且快速、精準(zhǔn)?背后的兩個關(guān)鍵詞是:數(shù)據(jù)庫和標(biāo)簽策略。
Fringefy的數(shù)據(jù)庫來源分為兩類。對于一些客戶,例如國防安全類的,客戶會負(fù)責(zé)提供圖像數(shù)據(jù)庫。但是Fringefy也能夠自己抓取公開網(wǎng)絡(luò)上的圖像,快速形成圖像數(shù)據(jù)庫,例如,Yelp,Trip Advisor等網(wǎng)站上,有用戶上傳的大量圖片,包含了建筑外觀,并有相應(yīng)的地點信息。
在制作“Alice Who”APP時,F(xiàn)ringefy建立了整個舊金山的商業(yè)類建筑的數(shù)據(jù)庫,包括所有的餐廳、酒吧等,只用了2到3天的時間。目前,這個公開網(wǎng)絡(luò)數(shù)據(jù)抓取的能力,還不是全自動的。Fringefy的下一步,就是研發(fā)能全自動的從浩瀚的網(wǎng)頁上抓取圖像,形成數(shù)據(jù)庫的解決方案。
不過,如果每次都要將一個圖像與云上的成千上萬張圖像比較、匹配,可能會減緩識別的速度。所以Fringefy配合使用了標(biāo)簽(signature)策略,讓計算機(jī)算法根據(jù)某類標(biāo)簽,先進(jìn)行預(yù)篩選,然后再匹配識別,以配合現(xiàn)有的電腦處理的條件。
例如,地址可以作為一種標(biāo)簽。當(dāng)用戶在某一個地點用攝像頭捕捉圖像時,用戶的手機(jī)會上傳地理位置信息。Fringefy就能根據(jù)這個地理位置信息,先篩選出數(shù)據(jù)庫里附近的建筑的圖像,再與用戶手機(jī)捕捉到的圖像進(jìn)行匹配,從而更快、更準(zhǔn)的得到結(jié)果。
數(shù)據(jù)庫里關(guān)于被拍攝建筑的圖像越多,F(xiàn)ringefy就能越快、越準(zhǔn)確的得到答案。對于小型的建筑,例如一個咖啡館,只要云端數(shù)據(jù)庫上有10到20張圖像,F(xiàn)ringefy就能很準(zhǔn)確的辨識出這個建筑。而對于中央火車站這樣的大型建筑,大約需要500張左右的數(shù)據(jù)庫圖像。目前Fringefy能夠做到的程度是,在80%的實驗中,能準(zhǔn)確的辨識出建筑。
以色列政府資助,邁出第一步
跟很多以色列公司一樣,F(xiàn)ringefy的三位創(chuàng)始人是在服兵役時認(rèn)識的。Assif Ziv和另外兩位創(chuàng)始人都在空軍服過役。在空軍訓(xùn)練中,他們體驗了高端的AR技術(shù),產(chǎn)生了把這樣的技術(shù)帶到民間的想法。離開軍隊后,Assif和朋友們組建團(tuán)隊,并獲得了以色列政府的投資。
(Fringefy團(tuán)隊)
獲得以色列政府的孵化投資時,F(xiàn)ringefy只有一個技術(shù)概念,和一個簡單的展示(demo)。但至關(guān)重要的,F(xiàn)ringefy有四個關(guān)系緊密的顧問,對如何解決建筑識別的技術(shù)提出了很多想法。顧問團(tuán)隊幫助Fringefy拿到了這筆重要的投資。據(jù)Assif透露,這筆投資占到了他們迄今籌得的總投資數(shù)(約150萬美元)的一半。
初創(chuàng)團(tuán)隊工作了數(shù)個月,驗證了技術(shù)的可行性,并做出了產(chǎn)品。之后,他們將目光轉(zhuǎn)向了硅谷。在這里,有大量的潛在客戶,例如社交媒體,例如無人汽車、無人機(jī)公司。而Fringefy的第二輪融資,主要來自硅谷,例如硅谷的投資機(jī)構(gòu)Rothenberg Ventures 和 Super Ventures等,以及一些天使投資人等。
未來,或許會是新一代的谷歌?
在成立之初,F(xiàn)ringefy的團(tuán)隊就有一個愿景。那就是把由技術(shù)帶來的“超級力量”帶給大眾。就像美國硅谷的技術(shù)創(chuàng)新最早是由軍方流向民間,在以色列也是一樣。Assif覺得,現(xiàn)在的時代是“天時、地利、人和”。
谷歌開創(chuàng)了一個時代。在那個時代里,谷歌將網(wǎng)絡(luò)上的文字內(nèi)容貼上標(biāo)簽(index),通過標(biāo)簽進(jìn)行搜索,使得搜索引擎成為可能。而漸漸的,隨著移動設(shè)備的普及,人們更多的開始在戶外使用搜索引擎,而非在辦公室和家里。并且,移動設(shè)備上的攝像機(jī)越來越強大,使得機(jī)器“看見”世界成為可能。
人們使用習(xí)慣的變化和硬件技術(shù)的前進(jìn),把我們推向了另一個未來,那就是視覺搜索的時代。在這個時代里,一切的圖像、不管是平面的還是立體的,都可以被標(biāo)注、被搜索;這也是Fringefy想要一展自己所長的未來。
這個未來還很遠(yuǎn)嗎?No。就像一句有名的廣告詞:未來已來。在硅谷,大公司已經(jīng)在大力投入,計算機(jī)圖像識別的創(chuàng)業(yè)公司被收購、投資無數(shù)。在這里,投資者青睞的很多技術(shù),都指向同一個目的,讓機(jī)器更好的“看見”環(huán)境,并理解四周的環(huán)境。
而Fringefy,正在這個路途中大展宏圖。