☰

史上最卷12月：全球15家Top級AI公司瘋狂上新

本文來自微信公衆號：四木相對論，作者：Lax、Dreamy，題圖來自：AI生成

2024年的最後一個月，全球AI圈好像約好了，一起開啓年底狂卷模式，批量發佈新品。

據“四木相對論”統計，這場年末上新的“戰局”，至少有15家全球Top級AI公司參與，上新了20+個功能。

在海外，最受關注的無疑是OpenAI開啓12天大放送，期貨Sora終於兌現。

差不多同期，Google、xAI、World Labs、Meta、Amazon、Pika、Runway等海外名企也都上新了AI功能。

國內的12月，大廠、六小虎和AI鮎魚DeepSeek，無一不踏入戰局。

“卷王”字節首當其衝。它在豆包和即夢中上新了圖像理解能力。

六小虎中的MiniMax、階躍星辰、智譜AI，有的卷模型，有的卷Agent應用。Deepseek和騰訊直接上新並開源了模型。

整體來看，各大公司近期的更新呈現以下特點：

視覺能力和生產力場景是兩大主題；

80%以上的更新都圍繞“視覺”；

可協作、可編輯是產品層更新的方向；

解析理解能力依舊是模型層的重點。

但卷歸卷，不少產品也出於缺乏曝光等因素，發佈得“悄無聲息”。

還有些萬衆期待的產品，比如Sora，收穫了滿屏差評。

在這個轟轟烈烈的12月，目前你記住了誰？

在這個12月，已經加入AI上新戰局的海外公司至少有OpenAI、Google、xAI、Meta、Amazon、Pika……

“營銷專家”OpenAI的聲勢最大。

12月6日，它拉開了“雙十二”的陣仗，要連做十二場發佈會。

目前日程已經進入到第七天，發佈成果如下：

Day1：發佈o1正式版以及o1 Pro版本，以及200美金的ChatGPT Pro會員。

Day2：介紹強化微調（Reinforcement Finetuning）功能，即通過少量數據讓模型在專業領域到達專家水平。

Day3：Sora登場，接入了新模型Sora Turbo的Sora，最高上限支持生成1080p、20秒視頻，支持橫屏豎屏各種常見尺寸。

Day4：發佈生產力工具Canvas，該功能允許用戶與ChatGPT合作寫作和編碼。

Day5：ChatGPT融入蘋果生態。

Day6：三個功能發佈：實時視頻通話、實時理解屏幕、聖誕老人限定語音。

Day7：推出了Projects In ChatGPT功能，可以將ChatGPT的各種功能整合至一處，便於用戶創建並管理各類項目。

不僅是OpenAI，Google、Pika、Midjourney、xAI也在這周有了新動作。

12月14日，Pika上新模型2.0，引入場景元素（Scene Ingredients）功能。

這一功能允許用戶自由選擇角色、物品、服裝和場景元素，根據需求構建特點鏡頭。同時， Pika 2.0支持多人在同一畫布上協作。

12月12日凌晨，谷歌發佈了Gemini2.0，聲稱“Gemini2.0 是我們迄今爲止最新、功能最強大的 AI 模型。”

這一模型可以支持圖片、視頻和音頻等多模態的輸入和輸出，速度也是1.5Pro的兩倍，還能直接調用Google Search、代碼執行等工具。

在Gemini2.0架構之上，谷歌還推出或升級了三個新的AI Agent原型：通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程助手Jules。

不過，Gemini2.0的聲量相較於Sora小得多。

幾乎在官宣之後不到半小時，Gemini 2.0詞條的熱度在Twitter上就已經掉到了第8。在不斷下降的過程中，網友們還在分享Sora的鬼畜視頻，以及Hunyuan、Hailuo、Kling與Sora的能力對比。

這可能也是因爲Gemini 2.0的更新雖然好評很多，但從表述上看起來很“常規”：更快速的響應、支持聯網搜索、新上線的“深度研究”功能支持多輪複雜推理、代碼生成增強、第三方工具調用能力補充。

同一天，Midjourney官宣了patchwork功能更新。

這是一個允許多人在線共同創建出一個世界的實驗性功能，所有參與者將在一塊白板畫布上共同創作（有點像Canva和Figma的共同編輯）。

而且畫布還給每個用戶的世界創建了一個傳送門，可以連接到別人的世界中。

之前Midjourney的更新基本都圍繞着圖片生成的能力，比如支持AI修圖、支持新畫風的模型等等。

但這次的Patchwork讓MJ在玩法上有了大不同，從一個只能一個人用的圖片生成工具，變成了一個可以讓大家一起玩起來的AI藝術創作產品。

手握巨卡的xAI，同樣在卷視覺方向。

12月10日，xAI發佈了首款完全自研圖像生成模型Aurora。

Aurora已經直接集成到了Grok中，這是一個自迴歸混合專家模型（MoE），在混合文本和圖像數據集上完成了訓練。除了圖片生成，Grok還有編輯能力，用戶可以直接在生成的圖像上進行修改，這一功能也將上線X。

Meta也在12月7日發佈了Llama 3.3，在性能上開卷。據說現在70B的版本就能實現以前405B的性能。

它在指令遵循（IFEval）、數學（MATH）、推理（GPQA Diamond）等領域的水平都超過了七月份發佈的Llama 3.1 405B。在語言（MMLU）、代碼（HumanEval）、長文本和多語種能力上，它的成績也和Llama 3.1 405B比較接近。

官方將Llama 3.3的進步歸功於新的對齊過程和在線強化學習技術的進步。

Runway則在前一天，也就是12月6日更新了自己的act-one功能。這個新功能允許用戶將自己拍攝的表演動作或聲音直接“套用”到已有的視頻角色上（包括AI角色）。

在12月最早打響發佈“競賽”的其實是“AI教母”李飛飛。

12月3日，李飛飛創立的World Labs首次官宣了“空間智能”模型，利用一張圖就能生成一個3D世界。

這些3D場景都能在瀏覽器中實時渲染，還能實現可控的相機效果，可調節的模擬景深。

也是在同一天，亞馬遜對外發布了多模態模型Nova系列。

亞馬遜這次直接發了一個大號全家桶，包括：超快速文本生成模型Amazon Nova Micro，能夠處理文本、圖像和視頻並生成文本的多模態模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier，用於生成高質量圖像的Amazon Nova Canvas和用於生成高質量視頻的Amazon Nova Reel。

不管這一波海外的年底上新如何轟轟烈烈，看起來，很多人只關注了Sora。

好吧，OpenAI的營銷又贏了。

相比海外，國內廠商們的“卷”勢更早出現。各家的方向從模型捲到產品，離不開視覺和生產力兩個話題。

“四木相對論”也對近半個月的新品進行了彙總：

在大公司裡，字節和騰訊是12月最卷的大廠（通義千問在11月28日發佈了QWQ模型）。

在這個12月，前者在豆包和即夢上先後更新功能，後者一下子開源了視頻生成模型。

先看字節。

12月10日，豆包官方表示，電腦版的視頻生成功能已經開啓內測。

獲得內測資格的賬號每日可免費生成十支視頻。內測申請通過後，選擇“視頻生成”功能，上傳一張圖片，輸入提示詞，並添加運鏡、分鏡信息，就能生成短視頻。

再往前的12月5日，豆包增加了AI生成文字圖功能。也就是說，用戶現在可以在提示詞中加入文本要求，生成帶有指定文字的圖片，做海報、做表情包都能用。

（四木用豆包做的圖，強調了“四木廚房”）

類似的功能還體現在即夢上。

12月2日晚，即夢上新2.1模型。這次的模型突破體現在中文文字可以穩定生成，當然也支持英文。

騰訊混元這個月最大的動作，就是正式上線視頻生成能力。

12月3日，騰訊不僅上線了這個130億參數的模型，還把它開源了。

目前，模型已上線騰訊元寶APP，用戶可在AI應用中的“AI視頻”板塊申請試用。企業客戶通過騰訊雲提供服務接入，API同步開放內測申請。

“四木相對論”觀察到，騰訊混元系列模型在這兩個月動作比較頻繁。

11月初，它宣佈最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式開源。12月又上新文生視頻能力，正式加入了卷視頻模型的隊列。

大廠之外，大模型六小虎中的三虎——智譜AI、MiniMax和階躍星辰也在本月上新。

先來看智譜。

12月的智譜在模型和應用兩端發力。首先是多模態模型——GLM-4V-Flash上線了智譜的開放平臺，可以免費調用。

GLM-4V-Flash模型擁有圖像描述生成、圖像分類、視覺推理、視覺問答（VQA）以及圖像情感分析等圖像處理功能。

多模態/視覺類的API都非常貴，號稱視覺能力對標GPT-4o mini模型的GLM-4V-FlashAPI免費，也稱得上是真卷。

產品方面，Auto-GLM是智譜近期的重點。

首先智譜在11月29日發佈了Auto-GLM的手機版和電腦版。半個月之後的12月12日，Auto-GLM又更新了一個版本。

用戶打開AutoGLM後，可以通過語音發指令，讓智能體接管自己的手機，並在可操作的App上自動執行購買外賣，訂高鐵票、目的地導航等任務。

經過“四木相對論”測試，更新之後，Auto-GLM支持的應用更穩定。同時它還增加了自定義高頻短口令，快速觸發常用任務等功能。

智譜CEO張鵬在發佈會現場的AI發紅包操作一度刷屏，“四木相對論”也復刻成功了。

Minimax同樣在這個月捲起了多模態。

12月3日，海螺AI圖生視頻模型I2V-01-Live上線了。

視頻生成一定是MiniMax今年的亮點之一。之前，MiniMax的亮點幾乎全部集中於Talkie，但海螺視頻的上線打破了這一印象。

這次的I2V-01-Live更新了二維插畫的動態呈現方式，讓動畫穩定性和細膩表現力有了增強。一張圖+一句話就能將2D插畫轉化爲動態視頻。

一直略顯低調的另一隻小虎階躍星辰也有模型層的更新。

週五（12月13日）階躍星辰發佈了端到端語音大模型——Step-1o 。

從官方介紹來看，Step-1o 支持語音、文本等混合形式的輸入和輸出，能理解和模仿音色、韻律、方言、個性化的口語表達習慣等聲音特徵。它還能夠通過自學和模仿不斷提升回覆質量，提供解決問題的專業建議。

從場景上看，它支持包括新聞播報、聊天陪伴、有聲讀物、在線教育、智能硬件、汽車等語音交互技術需求。

近期，Step-1o還將接入躍問App端，實現實時語音通話服務。

國內AI圈另一無法忽視的角色——DeepSeek，在短短半月內進行了兩次上新。

最新開源的DeepSeek-VL2（12月13日發佈）是一個專家混合（MoE）語言模型。

DeepSeek-VL2比一代DeepSeek-VL多一倍優質訓練數據，引入梗圖理解、視覺定位、視覺故事生成等新能力。視覺部分使用切圖策略支持動態分辨率圖像，語言部分採用MoE架構低成本高性能。

這次，大模型價格“卷王”更是在視覺模型上開“卷”。

根據DeepSeek提供的評測對比，DeepSeek-VL2在相似或更少的激活參數下實現了最先進的性能。

另外，DeepSeek V2.5系列的最終版微調模型——DeepSeek-V2.5-1210也在2月10日更新。

據官網介紹，這次更新通過Post-Training全面提升了模型各方面能力表現，包括數學、代碼、寫作、角色扮演等。同時，新版模型優化了文件上傳功能，並且全新支持了聯網搜索，可以服務各類工作生活場景。

不同於某些AI公司只強調功能或者模型的偏好，這次DeepSeekV2.5-1210模型更新後，它的Chat窗口呈現出兩個Tag——“深度思考”和“聯網搜索”。

這似乎在告訴外界：產品日常場景和模型推理能力我全都要。真的是卷王了。

12月纔剛剛過半，接下來，AI圈的上新還會繼續。

畢竟，OpenAI的年末發佈剛剛走過一半。字節也會在下週舉行大會，強調豆包、即夢的更新。

最卷12月，AI永不眠。

本文來自微信公衆號：四木相對論，作者：Lax、Dreamy

本內容爲作者獨立觀點，不代表虎嗅立場。未經允許不得轉載，授權事宜請聯繫 hezuo@huxiu.com

史上最卷12月：全球15家Top級AI公司瘋狂上新

相關資訊