Face Parts
各個部分通過一些“彈簧”連接起來,所有彈簧的彈性決定了這種連接方式的能量——能量越低,配置就越好。外觀和結(jié)構(gòu)分?jǐn)?shù)的加權(quán)和確定了一個特定的連接的“良好”程度。
由于彈簧模型使用了特殊的樹形結(jié)構(gòu),所以所有連接的良好程度可以使用消息傳遞算法來進(jìn)行評估和最大化。由于允許使用一些額外的樹形結(jié)構(gòu)——比如,一個用于前臉,一個用于輪廓——所以姿勢估計、檢測以及標(biāo)志性的檢測都可以使用相同的步驟來完成。相當(dāng)不錯。
訓(xùn)練是用結(jié)構(gòu)化SVM學(xué)習(xí)方法的最大邊界的設(shè)置來完成的。一旦模型訓(xùn)練完成,它就會使用eHarmony的臉部數(shù)據(jù)集進(jìn)行評估,各種特征會從圖像中提取出來:像臉的寬度和高度的比率,是否展示了乳溝等。Jon實現(xiàn)了一個高效的版本,并且將它開源,放置在GitHub上。
我的理解是,這些特征沒有在相似性模型中進(jìn)行雙向性的編碼:比如,它沒有嘗試把有胡子的家伙跟展示乳溝的女士進(jìn)行匹配。相反,這些單向性的特征都是決定了你吸引別人進(jìn)行交往的能力。
那么,下一步,你有多讓人喜歡從而收到交流邀請就是很重要的了。這時候,匹配就用來使得每個人都開心了。
潛在相似性匹配
最后,我們必須給用戶最佳匹配。系統(tǒng)設(shè)置了每個人有6到10個匹配對象,它使用了CS2算法來最大化有向無環(huán)圖中的流——相匹配的人的相似性分?jǐn)?shù)總和。
一個非常有趣的發(fā)展前沿——不是現(xiàn)在在用的——是根據(jù)人們的個人資料來給他們提供恰當(dāng)?shù)钠ヅ鋽?shù)量。有些人喜歡更多的選擇,而有些人,比如內(nèi)向的人,或許更喜歡少一點的。
如果事先不知道一個人是喜歡多的還是少的,那么怎么給他提供一個更合適的匹配數(shù)量呢?一種解決方法是:一個月內(nèi),每天都給他一些隨機數(shù)量的匹配,然后挑出他最常用的交往數(shù)量作為他的最佳匹配數(shù)字。但是使用這種策略,我們會不會浪費了太多的時間呢?
其實這個問題是變相的經(jīng)典多臂匪徒問題(multi-armed bandit problem)。你面對許多個單臂匪徒——數(shù)學(xué)理想化的老虎機,每個機器具有一定的但是未知的概率能中獎。每次試驗中,你挑一個賭博機,并得到了回報。問題是,怎樣在一定時間周期內(nèi)獲取最大化的收益,也就是說,最小化遺憾。這就需要深度和廣度的一種平衡。
一種不太理想,但仍然非??焖俸陀行У牟呗苑Q為UCB策略,它說的是你應(yīng)該挑選那個上限信心索引最大的機器。所以在這種情況下部署UCB策略,可以迅速找到一個用戶的最佳匹配的數(shù)目。
在這里,我們還有更多的數(shù)據(jù)可以利用——我們知道用??戶的基本信息。這個問題就可以在具有上下文的匪徒問題框架下處理——經(jīng)典匪徒問題+特征回歸。在Yahoo!上有一篇非常不錯的文章,它通過實驗演示了如何使用UCB策略來生成帶上下文的匪徒問題,強烈建議感興趣的讀者參閱。
總結(jié)
這一天的參與值得嗎?John特別提到了發(fā)表在PNAS的一篇文章,文章提到,通過網(wǎng)上交友而完成的婚姻比線下的婚姻具有更高的滿意度;在交友網(wǎng)站中,eHarmony公司擁有最好的婚姻滿意度。
盡管該文件所依據(jù)的調(diào)查由eHarmony公司自己來完成的,但是統(tǒng)計結(jié)果看起來是可信的,并且PNAS是一本相當(dāng)好的雜志。
當(dāng)然,我們不能排除自我選擇的偏見,也就是說如果有人想通過選擇某個特定網(wǎng)站來進(jìn)行約會,那么,如Aziz Ansari所指出的:視頻下載。
原文鏈接:MACHINE LEARNING IN ONLINE DATING
via:csdn