女王大學團隊提出AI基礎模型評審團方法,有望大幅提升AI研究效率

來源:DeepTech深科技

排版:何晨龍、劉雅坤

近年來,人工智能基礎模型(如 GPT-4 等大語言模型)快速發展,對各行各業產生了深遠影響。

然而,雖然學術界對這些模型在軟件工程中的應用進行了大量研究,但大部分研究主要聚焦於理論層面,很少涉及一線工程師在實際工作中的真實體驗和反饋。而這些反饋,往往僅在科技公司發佈的行業博客中隱約可見。

這些行業博客通常由頂尖科技公司的工程師和研究人員撰寫,分享他們在開發、部署和應用基礎模型時的實踐經驗。

這些博客不僅是科技公司展示技術實力的窗口,還記錄了最新技術趨勢、解決方案和遇到的挑戰。

然而,由於這些內容屬於“灰色文獻”(即非正式出版物),缺乏系統性的分析,很容易被學術界忽視。

這就好比聆聽樂隊的錄音室專輯,卻未能親臨他們的現場演唱會——缺乏的正是那種在一線“現場”工作的真實感受。

基於上述情況,來自加拿大女王大學的研究團隊決定轉換視角,直接傾聽那些實際使用這些模型的工程師們的聲音,包括:他們如何在日常工作中應用這些基礎模型,他們遇到了哪些具體的挑戰和機遇等。這些都是學術研究中難以觸及的寶貴信息。

圖|李豪(來源:李豪)

日前,相關論文以《軟件工程和基礎模型:使用基礎模型評審團從行業博客中獲取的見解》(Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models)爲題發表在預印本網站 arXiv 上 [1]。

女王大學博士後研究員李豪是第一作者兼通訊作者,加拿大阿爾伯塔大學考爾·保羅·貝澤默(Cor-Paul Bezemer)教授和女王大學艾哈邁德·E·哈桑(Ahmed E. Hassan)教授擔任共同通訊作者。

圖|相關論文(來源:arXiv)

創新方法:利用基礎模型提升技術文獻分析效率

爲了挖掘這座“寶藏”,該課題組收集了來自 17 家頂尖科技公司(如英偉達、谷歌等)的上千篇行業博客文章。面對海量數據,傳統的分析手段顯然難以勝任。於是他們提出:爲什麼不讓基礎模型自己來做這件事呢?

於是,研究人員創新地提出了“基礎模型陪審團”的方法。

簡單來說,讓多個基礎模型協作,對這些博客文章進行自動分類和標註,就像是讓 AI 幫人們讀懂這些文章。這種方法不僅大幅提升了研究效率,還展示了基礎模型在處理大量技術文獻上的潛力。

圖|研究方法學的概覽(來源:arXiv)

該團隊在這項研究中共經歷了七個重要階段,從最初的思路調整到最終的成果發佈,每一步都深思熟慮,系統化推進。

起初,課題組將目光聚焦於白皮書,因其通常展現公司在基礎模型(FMs, Foundation Models)和軟件工程(SE,Software Engineering)領域的技術戰略。然而深入探討後發現,白皮書更多用於宣傳公司理念,缺乏一線工程師的實際操作經驗。

因此,他們轉而分析科技公司的技術博客。相較之下,博客內容往往由工程師撰寫,貼近真實的技術應用場景,成爲研究基礎模型賦能軟件工程(FM4SE,FMs into SE practices)和軟件工程原則賦能基礎模型(SE4FM,SE methodologies to FMs)實踐的理想數據來源。

爲明確研究方向,團隊提出了兩個關鍵問題:

(1)業界博客中涉及哪些基礎模型在軟件工程中的應用?

(2)軟件工程原則如何應用於基礎模型的開發和部署?這兩個問題貫穿研究始終,確保內容緊扣業界需求。

接下來,在數據收集階段,他們從全球頂尖科技公司的博客中篩選出四千多篇相關文章,涵蓋基礎模型、軟件開發、雲計算等領域。

爲了保證數據的相關性,引入了“基礎模型陪審團”方法,以關鍵詞篩查與人工複覈結合,最終鎖定了千餘篇符合主題的博客文章。這一方法避免了無關信息的干擾,確保數據內容的可靠性。

另外,研究人員面對海量非結構化數據,傳統手動標註不僅耗時且容易出錯。爲此,課題組創新性地提出了“基礎模型陪審團”方法,讓多個大語言模型協作進行內容分類和信息提取。

每個模型如同陪審員,對內容進行評分與分類,最終以投票形式決定結果。這種方法提升了數據篩選的效率和準確性,使團隊能更迅速地聚焦於有價值的內容。

緊接着,在數據標註完成後,該團隊深入分析這些信息,發現 FM4SE 領域的熱點集中在代碼生成和代碼理解,而 SE4FM 則主要關注模型部署、系統架構和任務編排。通過這些分析,團隊進一步瞭解了業界在兩個方向上的實際需求和技術焦點。

基於這些洞見,課題組提出了未來研究的方向,以期推動學術界與業界的深度結合。

例如,如何利用基礎模型進行遺留系統現代化,如何在模型開發中提升性能並優化數據管理等。這些方向不僅爲學術研究提供了新思路,也爲基礎模型的實際應用帶來啓示。

完成研究總結後,團隊還整理併發布了研究成果,希望能爲學術界和業界提供實踐參考。同時,他們公開了數據與方法,期望其他研究者在此基礎上進一步優化和拓展,以更好地應對未來的技術挑戰。

推動學術與行業的協同發展:基礎模型與軟件工程的前景

通過分析這些博客,研究團隊觀察到兩個有趣的趨勢。

首先是基礎模型對軟件工程的賦能。工程師們利用基礎模型優化了軟件開發的各個流程,不僅包括代碼生成,還幫助理解複雜代碼、生成代碼摘要,以及推薦適合的應用程序編程接口。

這個“智能助手”角色爲開發者提供了實用的支持,大幅提升了工作效率,減少了日常開發中的重複性工作。

其次,軟件工程的方法也在反過來賦能基礎模型的開發和部署。面對資源消耗巨大的大型模型,工程師們探討如何高效部署和運營這些模型,如何設計靈活的系統架構以支持模型擴展等問題。

他們分享的實踐經驗包括通過雲服務部署模型,或利用模型壓縮技術使大型模型可在本地設備上運行,既解決了隱私問題,也顯著降低了硬件成本。

這些發現不僅對一線工程實踐有了更清晰的理解,也揭示了基礎模型與軟件工程之間的深度融合。

此次研究成果不僅在學術界產生了顯著影響,更在應用方面展現出重要的價值。

首先,這項研究爲學術界提供了一份清晰的指南,揭示了基礎模型在促進軟件工程和軟件工程優化基礎模型的關鍵難點。它有助於研究人員更精準地選擇研究方向,使學術探索更密切地貼合行業需求。

此外,該團隊提出的利用基礎模型自動化分析文獻的方法,如同爲研究人員配備了一臺智能文獻助手。

在快速發展的科技領域中,這一方法能高效地收集、分類和解讀大量非正式文獻,爲研究人員在海量信息篩選方面提供工具,以顯著提升研究效率。

總的來說,該研究展示了同行如何利用基礎模型提升代碼生成、漏洞檢測和模型部署等具體任務。這些經驗爲開發者優化工作流程提供了新思路,幫助基礎模型更好地融入項目實踐。

在教育領域,這項研究爲課程內容的更新提供了寶貴的參考。教育者們可以通過融入這些前沿知識,培養出更加符合行業需求的新型人才,讓學生們在畢業後更快適應基礎模型在實際工作中的應用。

基於這一成果,課題組對基礎模型在不同領域的潛力充滿興趣,並計劃在這一“無人區”深入探索,挖掘更多“寶藏”。

據瞭解,“基礎模型陪審團”方法也在進一步升級中,該團隊希望將這把“萬能鑰匙”打磨得更加精緻、高效,並嘗試應用於其他領域,以便在未來的技術探索中發揮更大作用。

此外,課題組還期待與企業深度合作,參與真實項目,通過了解開發者在應用基礎模型時面臨的實際挑戰,進而推動這一技術在各個領域的廣泛應用。

參考資料:

1.https://doi.org/10.48550/arXiv.2410.09012

閱讀最新前沿科技研究報告,歡迎訪問歐米伽研究所的“未來知識庫”

未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料範圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每週更新不少於100篇世界範圍最新研究資料。

截止到10月25日 ”未來知識庫”精選的100部前沿科技趨勢報告

接下來,我們將爲您逐一展示這100部精選報告的完整標題列表。

1. 牛津大學博士論文《深度具身智能體的空間推理與規劃》230頁

2. 2024低空經濟場景白皮書v1.0(167頁)

3. 戰略與國際研究中心(CSIS)人類地月空間探索的總體狀況研究報告(2024)

4. 人工智能與物理學相遇的綜述(86頁)

5. 麥肯錫:全球難題,應對能源轉型的現實問題(196頁)

6. 歐米伽理論,智能科學視野下的萬物理論新探索(50頁報告)

7. 《美國反無人機系統未來趨勢報告(2024-2029 年)》

8. Gartner 2025 年主要戰略技術趨勢研究報告

9. 2024人工智能國外大模型使用手冊+中文大模型使用手冊

10. 詳解光刻巨人ASML成功之奧妙-241015(94頁)

11. CB Insights:未來變革者:2025年九大科技趨勢研究報告

12. 國際電信聯盟2023-2024年聯合國人工智能AI活動報告388頁

13. 《人工智能能力的人類系統集成測試和評估》最新51頁,美國防部首席數字和人工智能辦公室(CDAO)

14. 2024瑞典皇家科學院諾貝爾化學獎官方成果介紹報告

15. MHP:2024全球工業4.0晴雨表白皮書

16. 世界經濟論壇白皮書《AI價值洞察:引導人工智能實現人類共同目標》

17. 瑞典皇家科學院諾貝爾物理學獎科學背景報告資料

18. AI智能體的崛起:整合人工智能、區塊鏈技術與量子計算(研究報告,書)

19. OpenAI o1 評估:AGI 的機遇和挑戰(280頁)

20. 世界知識產權組織:2024 年全球創新指數(326頁)

21. 美國白宮:國家近地天體防禦策略與行動計劃

22. 【CMU博士論文】持續改進機器人的探索,243頁

23. 中國信通院:量子計算髮展態勢研究報告2024年58頁

24. 2024年OpenAI最新大模型o1革新進展突出表現及領域推進作用分析報告

25. 【新書】通用人工智能,144頁

26. 聯合國:《未來契約》、《全球數字契約》和《子孫後代問題宣言》三合一

27. 世界氣候組織:2024團結在科學中,守衛地球系統的未來

28. 世界經濟論壇 《量子技術助力社會發展:實現可持續發展目標》研究報告

29. 人工智能科學家:邁向全自動開放式科學發現

30. 歐盟:石墨烯旗艦項目十年評估報告

31. 美國信息技術和創新基金會:美國的數字身份之路研究報告

32. 麥肯錫:2024能源轉型挑戰未來研究報告

33. 聯合國貿易與發展會議:2024世界投資報告

34. 蘭德:評估人工智能對國家安全和公共安全的影響

35. 蘭德:2024評估人工智能基礎模型市場的自然壟斷條件

36. 經合組織:2015-2022 年生物多樣性與發展融資

37. ITIF:中國半導體創新能力研究報告

38. 英國皇家學會:數學未來計劃, 數學和數據教育的新方法研究報告

39. 歐盟:10年人類大腦計劃創新評估報告

40. GLG格理集團:2024深度解讀半導體行業關鍵趨勢和專家洞見報告15頁

41. 華爲智能世界2030報告2024版741頁

42. 聯合國:2024爲人類治理人工智能最終報告

43. 達信Marsh:2024全球科技產業風險研究報告英文版27頁

44. 鼎帷諮詢:2024英偉達人工智能發展戰略研究報告149頁

45. 【博士論文】大語言模型的測試與評價:準確性、無害性和公平性,223頁pdf

46. 麥肯錫:2024世界能源產業展望

47. 世界經濟論壇《太空:全球經濟增長的 1.8 萬億美元機遇》

48. 世界經濟論壇:世界“技術先鋒”名單100家公司名單

49. 世界經濟論壇:2024繪製地球觀測的未來:氣候情報技術創新

50. 核聚變技術作爲清潔能源供應替代來源的全球發展和準備情況

51. 大模型生成的idea新穎性與人類對比研究報告(94頁)

52. IQM :2024 年量子狀況報告

53. 2024十大新興技術研究報告

54. 2024地球觀測 (EO) 洞察帶來的全球價值(58頁)

55. 2023-2024世界基礎設施監測報告

56. 世界銀行:2024世界發展報告,中等收入陷阱

57. 2024國際前沿人工智能安全科學報告132頁

58. 斯坦福大學2024人工智能指數報告

59. 美國總統科學技術顧問委員會:《利用人工智能應對全球挑戰》63頁報告

60. 柳葉刀行星健康:2024地球系統安全與健康評估報告

61. 中國未來50年產業發展趨勢白皮書III

62. OpenAI o1系列產品原理與安全最新研究報告(80頁)

63. 國家互聯網信息辦公室:國家信息化發展報告2023年110頁

64. 埃森哲:2024年風險研究報告-重大顛覆需要持續重塑英文版39頁

65. 36氪研究院:2024年中國城市低空經濟發展指數報告41頁

66. 美國信息技術與創新基金會:《中國在量子領域的創新能力如何》研究報告

67. 理解深度學習500頁報告

68. 鼎帷諮詢:2024全球人工智能發展研究報告44頁

69. 【伯克利博士論文】大型語言模型邁向能夠學習和發現一切的機器

70. 《量子技術:前景、危險和可能性》45頁報告

71. 英國皇家學會報告:人工智能在科學、技術、工程和數學領域的應用

72. 未來今日研究所:2024世界技趨勢報告(980頁)

73. 面向大規模脈衝神經網絡:全面綜述與未來方向

74. 大模型+知識庫市場全景報告

75. 《太空力量的理論基礎:從經濟學到不對稱戰爭》2024最新94頁報告

76. CBInsights:2024年第二季度全球企業風險投資狀況報告英文版124頁

77. 英國科學院:數據管理和使用:21 世紀的治理(2024),99頁

78. 蘭德智庫:展望2045 一項前瞻性研究探討未來 20 年全球趨勢的影響

79. 世界知識產權組織:2024年世界知識產權報告:讓創新政策促進發展

80. 全球災難風險研究所:評估大型語言模型接管災難的風險

81. 牛津馬丁學院:人工智能風險國際科學評估的未來

82. 聯合國貿易和發展署:2024世界投資報告

83. 蘭德公司:人工智能軍事應用的新風險和機遇

84. 英國皇家學會:AI時代的科學發展趨勢研究報告

85. 百頁風電行業研究方法論:從中國到世界從陸地到海洋-240902,98頁

86. 中國信通院發佈《大模型落地路線圖研究報告(2024年)》

87. 星河智源:2024年無人駕駛技術全景報告35頁

88. 星河智源:2024年光刻機技術全景報告37頁

89. 人形機器人行業研究方法論:特斯拉領銜人形機器人的從1到N

90. 蘭德:展望2045一項關於未來20年全球趨勢影響的前瞻性研究報告英文版45頁

91. 《軍事創新與氣候挑戰》2024最新152頁報告

92. 麥肯錫:2024困難點:駕馭能源轉型的物理現實(196頁)

93. 《麻省理工科技評論》萬字長文:什麼是人工智能?

94. 軟件與服務行業:從特斯拉智能駕駛看人形機器人發展路徑

95. 中國信通院:中國數字經濟發展研究報告2024年82頁

96. CB Insights:2024年第二季度全球風險投資狀況報告 244頁

97. 腦啓發的人工智能:全面綜述

98. 二十年關鍵技術跟蹤報告

99. 中國首部城市大腦系列建設標準(8項)彙編

100. 麥肯錫2024技術趨勢展望報告100頁