智源研究院首次聯合權威教育機構進行大模型K12學科測試:普遍存在文強理弱情況

北京商報訊(記者楊月涵)5月17日,智源研究院舉辦大模型評測發佈會。現場北京商報記者獲悉,在海淀區教委支持下,智源研究院聯合與海淀區教師進修學校對齊學生測驗方式,考察大模型與人類學生的學科水平差異,其中,答案不唯一的主觀題,由海淀教師親自評卷。

智源評測發現,模型在綜合學科能力上與海淀學生平均水平仍有差距,普遍存在文強理弱的情況,並且對圖表的理解能力不足,大模型未來有很大的提升空間。

北京市海淀區教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出,在語文、歷史等人文學科的考試中,模型欠缺對文字背後的文化內涵以及家國情懷的理解。面對歷史地理綜合題時,模型並不能像人類考生一樣有效識別學科屬性。相較於簡單的英語題,模型反而更擅長複雜的英語題。解理科題目時,模型會出現以超出年級知識範圍外的方法解題的情況。當出現無法理解的考題時,模型依然存在明顯的"幻覺"。