☰

OpenAI將開源SimpleQA新基準，以衡量大模型真實性

當地時間10月30日，美國開放人工智能研究中心（OpenAI）宣佈，爲了衡量語言模型的真實性，將開源一個名爲SimpleQA的新基準。該基準可衡量語言模型回答簡短的事實尋求（fact-seeking）問題的能力。

相關資訊

▣ 一週Martech新聞：OpenAI將發佈新開源AI模型
▣ 長江證券：開源模型性能追趕閉源大模型 OpenAI正式進軍AI搜索
▣ 全球科技早參丨雲服務助微軟業績雙超預期；OpenAI將開源SimpleQA新基準；蘋果宣佈MacBook Air升級標配16GB內存
▣ 開源模型Llama3發佈，原來Meta纔是真OpenAI？
▣ OpenAI員工公開指責xAI最新AI模型Grok3的基準測試結果具有誤導性
▣ OpenAI可能即將開源某個大模型，CEO發文徵詢意見
▣ 媲美OpenAI o3，DeepSeek深夜開源新版R1模型
▣ 李彥宏：無論開源閉源，基礎模型只有在大規模解決現實問題時，才具備真實價值
▣ 騰訊開源：3D素材生成模型、最大MoE模型，兼容OpenAI SDK
▣ 大模型融合！最新「進化算法」全自動組合開源模型，刷榜多項基準測試
▣ 全球開源大模型新王！阿里Qwen2.5來了，性能跨量級超Llama3.1
▣ Nvidia的新開源AI模型在基準測試中擊敗了GPT-4o
▣ OpenAI 的新“o1”模型真能帶來重大進步？
▣ 數智早參｜OpenAI官宣推出新的大語言模型GPT-4o；騰訊混元文生圖大模型開源
OpenAI o1 AI模型規劃能力實測準確率達97.8%
▣ 首屆大模型對抗賽即將開戰；OpenAI、Anthropic、谷歌同日上新
▣ 谷歌發佈Gemma 2輕量級模型，以牽制Meta的開源模型Llama 3
▣ DeepSeek 威脅下，OpenAI 稱考慮開源舊 AI 模型
▣ 真實世界複雜任務，全新基準GTA助力大模型工具調用能力評測
▣ 大模型一體機性能標準框架研討會即將召開
DeepSeek凌晨發佈新款開源AI模型！　Janus-Pro測試打敗OpenAI
▣ 火山引擎宣佈將大模型應用開源，正式上線“大模型應用實驗室”平臺
▣ 智譜發佈GLM-4.5開源模型：開源模型性能達SOTA水平
陸新一代旗艦大模型「智譜AI」宣佈開源　曾被OpenAI點名關注
▣ 美媒：OpenAI開放語言模型即將問世
▣ OpenAI開發者大會派禮包：大幅降低模型成本，AI語音加持App，小模型“蹭”大模型性能
▣ 馬斯克反擊“封閉”的OpenAI：開源全球最大參數模型
▣ AI早知道｜阿里通義開源R1-Omni模型；OpenAI推出新工具
▣ 階躍星辰發佈基礎大模型Step3 將於7月31日開源

DMCA | PRIVACY | s@bg3.co