
2018年12月18日Google 被迫關閉了 Dragonfly 使用的一個數據分析系統,該數據分析系統關聯 Google 旗下的 265.com 導航網站,Google 通過中國用戶在 265.com 上的搜索查詢來構建 Dragonfly 原型。原項目員工也被分配至其他地區(qū)的搜索項目組。在內部爆發(fā)沖突之后,Google 秘密的中國搜索項目事實上終止了。GoogleCEO桑達爾·皮查伊也在近日舉辦的國會聽證中明確表示:“目前沒有在中國推出搜索引擎的計劃。”
然而2018年9月6日繼 Google Scholar(Google 學術搜索)之后,Google 為科研工作者推出了一款重磅產品—— Google Dataset Search(Google 數據集搜索)。
網址:https://toolbox.google.com/datasetsearch
為什么說這款產品如此重要?因為數據從未如此重要。由于深度學習的興起,AI 研究員需要大量的數據來訓練他們的模型,吳恩達就曾表示,深度學習像火箭,計算是引擎,數據是燃料。有時候,數據可能比算法更重要。
然而,數據集和相關數據往往分布在網上的多個數據存儲區(qū)中。在大多數情況下,搜索引擎既無法提供這些數據庫相關信息的鏈接,也不會將這些信息編入索引,這會導致數據尋找變得無比繁瑣,或者在某些情況下無法實現。
一些掌握了大量數據的互聯網公司也因此擁有很大的優(yōu)勢,而高校的學者除了一些公開的知名數據集,想要擁有大量的數據則非常困難,因此 Google 的這款產品可謂是及時雨。當然,其他需要各種數據的工作者也能從中受益。
Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數據的方式。
現在,就讓我們來一起看下這款搜索工具。
與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數據集,無論是出版網站、數字圖書館還是作者的個人網頁。
為了創(chuàng)建 Dataset Search,Google 還為數據集提供方制定了一套數據指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關數據集的重要信息:數據集的作者,發(fā)布時間,數據收集方式,使用數據的條款等等。然后,Google 收集并鏈接這些信息,分析同一數據集的不同版本可能在哪里,并找到可能描述或討論這一數據集的出版物。
Google 的指南是基于一個數據集的開放標準(schema.org),任何發(fā)布數據的人都可以通過這種方式描述他們的數據集。
在這個新版本中,用戶可以找到很多環(huán)境和社會科學相關的數據集,以及其他學科的數據,包括政府數據和新聞機構提供的數據,如 ProPublica。隨著越來越多的數據倉庫使用 schema.org 標準來描述他們的數據集,Google Dataset Search 能夠搜索到的數據集的種類和覆蓋面將持續(xù)增長。
目前 Google Dataset Search 已經支持多種語言,筆者嘗試了下,除了英文,還支持中文。
(以上文章被中國計算網收錄于2018年12月19日,轉自AI科技大本營,歡迎CAE與計算機行業(yè)人士投稿于中國計算網)
搜索微信公眾號: cncompute_Mall 直接關注,更多驚艷的資訊等你來關注~您也可以來投稿~
搜索微信公眾號: cncompute_Mall 直接關注,更多驚艷的資訊等你來關注~您也可以來投稿~