階躍星辰推出自研推理模型Step Reasoner mini,性能優異

階躍星辰於1月16日正式發佈了其自主研發的推理模型Step Reasoner mini(簡稱Step R-mini)。該模型在AIME和Math等數學基準測試中表現優異,成績超越了o1-preview,並與OpenAI的o1-mini相媲美。此外,在LiveCodeBench代碼任務上,Step R-mini也展現出更佳的效果。

Step R-mini通過大規模的強化學習訓練,採用On-Policy(同策略)強化學習算法,實現了“文理兼修”。該模型不僅能準確解答數學、代碼和邏輯推理問題,還能富有創意地完成文學內容創作和日常聊天任務,展現了其多方面的應用潛力。

免責聲明:本文內容由開放的智能模型自動生成,僅供參考,不構成任何專業建議或決策依據。用戶應自行覈實信息的準確性和可靠性,本站對用戶因使用或依賴本文內容而產生的任何風險或損失不承擔任何責任。如有疑問或發現內容有誤,請聯繫本站進行處理。