通過強化學習,工作人員發(fā)現原來這18個旋鈕可以這樣設置,此前他們根本不會這么考慮。而且,事實證明,雖然這種設置看起來很奇怪,但運行得相當不錯。
強化學習應用于哪類任務更為適合?
上述例子中,強化學習技術的旋鈕設置方案運行得不錯,因為每次可執(zhí)行的操作并不多。只有18個旋鈕,我們把旋鈕調高調低就行了。結果很容易觀察到。在適當的溫度范圍內,如果功率使用率得到改善,就可獲得獎勵信號。從這個角度來看,這幾乎可稱得上是一個理想的強化學習案例。
更為棘手的例子或許是它在搜索結果中的應用。對于不同的查詢請求,可呈現的搜索結果比旋鈕設置要寬泛得多,而且獎勵信號有點難辦——用戶對搜索結果是否滿意,這不好判斷。
如果用戶對搜索結果不滿意,你要怎么提供獎勵信號?
這有點棘手。這說明了,強化學習還不夠成熟,還不足以在無約束的、獎勵信號不那么明顯的環(huán)境中實現真正的運作。
把研究成果應用于人們每天使用的實際產品時,你們面臨哪些最嚴峻的挑戰(zhàn)?
很多機器學習解決方案以及對這些解決方案的研究可在不同的領域中重復使用。例如,我們與地圖團隊合作展開了一些研究。他們想要讀取出現在街景中的所有商業(yè)名稱和標志,以便更好地了解街道的具體環(huán)境,例如,這條街上開了比薩店還是其他什么店。
事實證明,為了在街景圖中識別文本,我們可以提供一些已經圈出文本的示例數據,訓練機器學習系統形成一種檢測出圖像文本像素的行為模式。
這是一個通用的功能,地圖團隊可使用這個功能來分析衛(wèi)星圖像,例如,用來識別美國或世界各地的屋頂來估計太陽能電池板的安裝位置。
同樣的模型也可用于醫(yī)學成像分析上。例如,分析醫(yī)療圖像,找到圖像中與臨床相關的信息。(靈越)
登陸|注冊歡迎登陸本站,認識更多朋友,獲得更多精彩內容推薦!