中國銀河維持計算機推薦評級:國產開源MoE模型DeepSeek-V2性能媲美GPT-4,大模型價格戰拉開帷幕
每經AI快訊,中國銀河05月13日發佈研報稱:維持計算機推薦(維持)評級。
事件:5月7日,知名私募巨頭幻方量化旗下的AI公司DeepSeek發佈全新第二代MoE大模型DeepSeek-V2。
性能直逼GPT-4Turbo,綜合能力位於大模型第一梯隊:DeepSeek-V2是一個參數爲2360億的MoE模型,每個token僅激活210億參數,支持128K的上下文長度。1)縱向對比:對比去年11月發佈的DeepSeek67B性能取得顯著提升,訓練成本節省了42.5%,KV緩存減少了93.3%,最大生成吞吐量提高到了5.76倍。2)橫向對比:上下文長度對標GPT-4Turbo(128K);中文綜合能力(AlignBench)超越Llama3,在開源模型中表現最強,與文心4.0等閉源模型在評測中處於同一梯隊,僅次於GPT-4Turbo;英文綜合能力(MT-Bench)與最強的開源模型LLaMA3-70B處於同一梯隊,超過MoE開源模型Mixtral8x22B。此外在知識、數學、推理、代碼等方面也有出色的性能。
DeepSeek-V2訓練計算量降低,推理能力表現高效:DeepSeek-V2訓練數據集是由8.1Ttoken的高質量、多源預訓練語料庫組成,採用的Transformer架構中由一個注意力模塊和一個前饋網絡(FFN)組成,並且在注意力機制和FFN方面採用了創新架構:一方面設計了MLA(Multi-headLatentAttention)利用低秩鍵值聯合壓縮來消除推理時鍵值緩存的瓶頸,DeepSeek-V2消耗的顯存(KVCache)只有同級別Dense模型的1/5-1/100,每token成本大幅降低;另一方面,FFN採用高性能MoE架構DeepSeekMoE,以經濟的成本訓練強大的模型。我們認爲,DeepSeek-V2大幅提升訓練效率,訓練所需計算量約爲GPT-4的1/20,但性能基本上相差無幾,目前來看參數是影響大模型性能的關鍵因素之一,除此之外,架構優化能有效提升降低訓練成本,提升訓練效率,將成爲另一個影響大模型性能的關鍵因素。
API價格降至約GPT-4Turbo百分之一,大模型價格戰即將拉開帷幕,利好AI應用層快速滲透:目前DeepSeek-V2API定價爲每百萬token輸入1元、輸出2元(32K上下文),幾乎低於所有市面上主流大模型價格,約爲GPT-4Turbo的1/100。我們認爲,DeepSeek-V2提升數據集質量及優化架構,成本大幅降低,在價格方面提升競爭力,大模型將逐漸進入價格戰時期,AI應用將快速滲透。
風險提示:技術研發進度不及預期風險;供應鏈風險;政策推進不及預期風險;消費需求不及預期風險;行業競爭加劇風險。
每經頭條(nbdtoutiao)——大手筆!接盤王健林的萬達電影后,知名80後富豪又出手收購字節遊戲資產!背後是騰訊?
(記者 胡玲)
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請覈實。據此操作,風險自擔。