NeurIPS 大動作!專爲數據集和基準測試推出新track,李飛飛爲之點贊!

作者 | 陳大鑫

就在今天,NeurIPS 數據 & Benchmark 主席Joaquin Vanschoren在推特上宣佈NeurIPS 2021將專門爲數據集和基準測試推出一個新的論文track。

消息發出後,斯坦福大學李飛飛教授對之表示讚賞,終於在ImageNet的12年之後見到了這一天。

之後還有AI領域的教授表示這是一項偉大的創舉,將有望大大提高機器學習中基準測試的質量。

衆所周知,有多少人工就有多少智能,而這其實就是在說深度學習時代,沒有好的數據,就很難有好的模型。

但是NeurIPS社區的絕大多數人都專注於算法設計和創新,如強化學習、神經網絡、圖神經網絡、元學習、表示學習等。

這一點從NeurIPS 2020的熱門主題中可以看出一二,其中有關數據集和基準研究並不在其中。

接下來看看這個通知都說了什麼。

以下是NeurIPS官方口吻:

大家通常無法輕易找到對社區或從業人員最有效評估算法好壞的數據集。因此,許多研究人員訴諸於方便獲得的數據,但是這並不代表真實世界的數據。

例如說,很多算法僅是針對玩具問題( toy problem)或是在充滿偏見的數據上進行評估,這可能會導致產生有偏見的模型或誤導性的結果,以及隨後對該領域的公衆批評。

這裡插播一句:AI科技評論前些天剛報道過MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet等數據集中每100個標籤就有3個是錯的!

比如在CIFAR-10中的一張“青蛙”的圖片被標記成了“貓”。

研究人員通常會受到各種激勵,以在該領域已建立的一些流行數據集上對他們的方法進行基準(benchmark)測試,這些關鍵基準數據集上的最新結果有助於確保論文被接受。

相反,對鮮爲人知的真實世界數據集的評估,以及將模型與現實世界的影響聯繫起來的其他基準測試,通常更難在會議上發佈,因此會導致這些工作在該領域貶值。

總體而言,NeurIPS截至目前沒有足夠的動力來推進數據和基準的發佈出版,這可以從缺乏有關該主題的論文來證明。在近些年的NeurIPS會議上,每年只有極少數(少於5篇)被接受的論文關注提出新的數據集,而只有大約10篇關注在廣泛數據集上的算法的系統基準測試。這部分歸因於出版和評審的指導原則,這些指導原則對算法相關的論文有意義,而對數據集和基準論文則沒有意義。

例如,數據集通常不能以雙盲的方式進行評審,但是確實需要其他特定的檢查,例如數據集是如何收集的、是否顯示出內在偏見、是否仍可以正確訪問。

因此,我們建議在NeurIPS上開闢一條新的 track,作爲引導數據集和基準發佈的孵化器。它將充當出版物、演講和posters的場所,併成爲討論如何更廣泛地改善數據集開發和麪向數據的工作的論壇。

提交給track的數據集論文將是NeurIPS會議的一部分,該會議將與主會論文一起發表(並發表在相關期刊上)。

爲此,我們計劃建立一個稱爲機器學習研究數據集(DMLR)的JMLR子期刊。將根據專門爲數據集和基準設計的一組嚴格標準來審覈提交給該專題的論文。

除科學論文外,作者還必須提交補充材料,這些材料應詳細說明是如何收集和組織數據集、數據集包含哪些信息、應如何以道德和負責任的態度使用數據以及如何提供和維護數據集。

作者可以盡其所能自由地描述以上這一點。例如,數據集論文可以利用數據集文檔框架、數據集的數據表、數據集標籤、NLP數據報表和問責制框架。而對於基準,作者應遵循有關可重複性的最佳實踐。

此外,我們也歡迎作者提交詳細的介紹數據集收集和管理高級實踐的意見書,即使這些數據集本身無法共享,這些實踐指導也是十分有意義的。現有數據集的審查或對產生重要的新的insight的新數據集上的系統分析也被鼓勵。

作爲此track的一部分,我們旨在收集有關構建、記錄和使用數據集(包括已知示例數據集和有問題的數據集的示例)的最佳實踐的建議,並創建一個可輕鬆訪問此信息的網站。

與其他track不同,我們將要求對這個track進行單盲評審,因爲數據集不能總是轉移到匿名平臺上。我們將託管平臺的選擇權留給作者,但要明確指出出版具有一定的責任,尤其是保持數據集的可訪問性,並且作者應承擔其維護責任(例如,解決侵犯版權的責任)。

在更廣泛的社區中,有一些現有的相關工作,例如數據集描述符(如Nature Scientific Data)或有關AI領域狀態的論文(如AI Index Report)。但是,我們想要構建的數據集期刊傾向於僅關注數據,而較少關注數據與機器學習的關係,並且諸如AI Index的項目範圍很廣,但不關注新的實驗評估或此類評估的技術改進。

該 track 將以機器學習爲中心集中並涵蓋這些相關的工作。我們預計達到的目標將是圍繞諸如新數據集和基準的新穎分析、評估和指標已經可能的社會影響(例如道德考量)等主題的豐富出版物。

如果你有令人興奮的數據集、基準或idea想要分享,我們熱烈歡迎你提交到這個新track。爲了允許近乎連續的提交,我們將有兩個截止日期,分別是2021年6月4日和2021年8月23日。

屆時提交的論文和數據集將通過OpenReview進行審查,以促進更多的公衆討論,而最受歡迎的提交也將在2021年的首屆研討會上公佈。

https://twitter.com/joavanschoren/status/1379909326748454926

https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c

500元卡時GPU資源「限時」免費領!

並行AI雲 面向AI深度學習和高性能計算,提供A100、V100、T4等豐富的雲算力資源;預置TensorFlow、PyTorch等環境,開箱即用;三線專家團隊7x24小時在線提供多元化服務,助開發者提升科研效率,降低科研成本。