史上最卷12月:全球15家Top級AI公司瘋狂上新

本文來自微信公衆號:四木相對論,作者:Lax、Dreamy,題圖來自:AI生成

2024年的最後一個月,全球AI圈好像約好了,一起開啓年底狂卷模式,批量發佈新品。

據“四木相對論”統計,這場年末上新的“戰局”,至少有15家全球Top級AI公司參與,上新了20+個功能。

在海外,最受關注的無疑是OpenAI開啓12天大放送,期貨Sora終於兌現。

差不多同期,Google、xAI、World Labs、Meta、Amazon、Pika、Runway等海外名企也都上新了AI功能。

國內的12月,大廠、六小虎和AI鮎魚DeepSeek,無一不踏入戰局。

“卷王”字節首當其衝。它在豆包和即夢中上新了圖像理解能力。

六小虎中的MiniMax、階躍星辰、智譜AI,有的卷模型,有的卷Agent應用。Deepseek和騰訊直接上新並開源了模型。

整體來看,各大公司近期的更新呈現以下特點:

視覺能力和生產力場景是兩大主題;

80%以上的更新都圍繞“視覺”;

可協作、可編輯是產品層更新的方向;

解析理解能力依舊是模型層的重點。

但卷歸卷,不少產品也出於缺乏曝光等因素,發佈得“悄無聲息”。

還有些萬衆期待的產品,比如Sora,收穫了滿屏差評。

在這個轟轟烈烈的12月,目前你記住了誰?

在這個12月,已經加入AI上新戰局的海外公司至少有OpenAI、Google、xAI、Meta、Amazon、Pika……

“營銷專家”OpenAI的聲勢最大。

12月6日,它拉開了“雙十二”的陣仗,要連做十二場發佈會。

目前日程已經進入到第七天,發佈成果如下:

Day1:發佈o1正式版以及o1 Pro版本,以及200美金的ChatGPT Pro會員。

Day2:介紹強化微調(Reinforcement Finetuning)功能,即通過少量數據讓模型在專業領域到達專家水平。

Day3:Sora登場,接入了新模型Sora Turbo的Sora,最高上限支持生成1080p、20秒視頻,支持橫屏豎屏各種常見尺寸。

Day4:發佈生產力工具Canvas,該功能允許用戶與ChatGPT合作寫作和編碼。

Day5:ChatGPT融入蘋果生態。

Day6:三個功能發佈:實時視頻通話、實時理解屏幕、聖誕老人限定語音。

Day7:推出了Projects In ChatGPT功能,可以將ChatGPT的各種功能整合至一處,便於用戶創建並管理各類項目。

不僅是OpenAI,Google、Pika、Midjourney、xAI也在這周有了新動作。

12月14日,Pika上新模型2.0,引入場景元素(Scene Ingredients)功能。

這一功能允許用戶自由選擇角色、物品、服裝和場景元素,根據需求構建特點鏡頭。同時, Pika 2.0支持多人在同一畫布上協作。

12月12日凌晨,谷歌發佈了Gemini2.0,聲稱“Gemini2.0 是我們迄今爲止最新、功能最強大的 AI 模型。”

這一模型可以支持圖片、視頻和音頻等多模態的輸入和輸出,速度也是1.5Pro的兩倍,還能直接調用Google Search、代碼執行等工具。

在Gemini2.0架構之上,谷歌還推出或升級了三個新的AI Agent原型:通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程助手Jules。

不過,Gemini2.0的聲量相較於Sora小得多。

幾乎在官宣之後不到半小時,Gemini 2.0詞條的熱度在Twitter上就已經掉到了第8。在不斷下降的過程中,網友們還在分享Sora的鬼畜視頻,以及Hunyuan、Hailuo、Kling與Sora的能力對比。

這可能也是因爲Gemini 2.0的更新雖然好評很多,但從表述上看起來很“常規”:更快速的響應、支持聯網搜索、新上線的“深度研究”功能支持多輪複雜推理、代碼生成增強、第三方工具調用能力補充。

同一天,Midjourney官宣了patchwork功能更新。

這是一個允許多人在線共同創建出一個世界的實驗性功能,所有參與者將在一塊白板畫布上共同創作(有點像Canva和Figma的共同編輯)。

而且畫布還給每個用戶的世界創建了一個傳送門,可以連接到別人的世界中。

之前Midjourney的更新基本都圍繞着圖片生成的能力,比如支持AI修圖、支持新畫風的模型等等。

但這次的Patchwork讓MJ在玩法上有了大不同,從一個只能一個人用的圖片生成工具,變成了一個可以讓大家一起玩起來的AI藝術創作產品。

手握巨卡的xAI,同樣在卷視覺方向。

12月10日,xAI發佈了首款完全自研圖像生成模型Aurora。

Aurora已經直接集成到了Grok中,這是一個自迴歸混合專家模型(MoE),在混合文本和圖像數據集上完成了訓練。除了圖片生成,Grok還有編輯能力,用戶可以直接在生成的圖像上進行修改,這一功能也將上線X。

Meta也在12月7日發佈了Llama 3.3,在性能上開卷。據說現在70B的版本就能實現以前405B的性能。

它在指令遵循(IFEval)、數學(MATH)、推理(GPQA Diamond)等領域的水平都超過了七月份發佈的Llama 3.1 405B。在語言(MMLU)、代碼(HumanEval)、長文本和多語種能力上,它的成績也和Llama 3.1 405B比較接近。

官方將Llama 3.3的進步歸功於新的對齊過程和在線強化學習技術的進步。

Runway則在前一天,也就是12月6日更新了自己的act-one功能。這個新功能允許用戶將自己拍攝的表演動作或聲音直接“套用”到已有的視頻角色上(包括AI角色)。

在12月最早打響發佈“競賽”的其實是“AI教母”李飛飛。

12月3日,李飛飛創立的World Labs首次官宣了“空間智能”模型,利用一張圖就能生成一個3D世界。

這些3D場景都能在瀏覽器中實時渲染,還能實現可控的相機效果,可調節的模擬景深。

也是在同一天,亞馬遜對外發布了多模態模型Nova系列。

亞馬遜這次直接發了一個大號全家桶,包括:超快速文本生成模型Amazon Nova Micro,能夠處理文本、圖像和視頻並生成文本的多模態模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier,用於生成高質量圖像的Amazon Nova Canvas和用於生成高質量視頻的Amazon Nova Reel。

不管這一波海外的年底上新如何轟轟烈烈,看起來,很多人只關注了Sora。

好吧,OpenAI的營銷又贏了。

相比海外,國內廠商們的“卷”勢更早出現。各家的方向從模型捲到產品,離不開視覺和生產力兩個話題。

“四木相對論”也對近半個月的新品進行了彙總:

在大公司裡,字節和騰訊是12月最卷的大廠(通義千問在11月28日發佈了QWQ模型)。

在這個12月,前者在豆包和即夢上先後更新功能,後者一下子開源了視頻生成模型。

先看字節。

12月10日,豆包官方表示,電腦版的視頻生成功能已經開啓內測。

獲得內測資格的賬號每日可免費生成十支視頻。內測申請通過後,選擇“視頻生成”功能,上傳一張圖片,輸入提示詞,並添加運鏡、分鏡信息,就能生成短視頻。

再往前的12月5日,豆包增加了AI生成文字圖功能。也就是說,用戶現在可以在提示詞中加入文本要求,生成帶有指定文字的圖片,做海報、做表情包都能用。

(四木用豆包做的圖,強調了“四木廚房”)

類似的功能還體現在即夢上。

12月2日晚,即夢上新2.1模型。這次的模型突破體現在中文文字可以穩定生成,當然也支持英文。

騰訊混元這個月最大的動作,就是正式上線視頻生成能力。

12月3日,騰訊不僅上線了這個130億參數的模型,還把它開源了。

目前,模型已上線騰訊元寶APP,用戶可在AI應用中的“AI視頻”板塊申請試用。企業客戶通過騰訊雲提供服務接入,API同步開放內測申請。

“四木相對論”觀察到,騰訊混元系列模型在這兩個月動作比較頻繁。

11月初,它宣佈最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式開源。12月又上新文生視頻能力,正式加入了卷視頻模型的隊列。

大廠之外,大模型六小虎中的三虎——智譜AI、MiniMax和階躍星辰也在本月上新。

先來看智譜。

12月的智譜在模型和應用兩端發力。首先是多模態模型——GLM-4V-Flash上線了智譜的開放平臺,可以免費調用。

GLM-4V-Flash模型擁有圖像描述生成、圖像分類、視覺推理、視覺問答(VQA)以及圖像情感分析等圖像處理功能。

多模態/視覺類的API都非常貴,號稱視覺能力對標GPT-4o mini模型的GLM-4V-FlashAPI免費,也稱得上是真卷。

產品方面,Auto-GLM是智譜近期的重點。

首先智譜在11月29日發佈了Auto-GLM的手機版和電腦版。半個月之後的12月12日,Auto-GLM又更新了一個版本。

用戶打開AutoGLM後,可以通過語音發指令,讓智能體接管自己的手機,並在可操作的App上自動執行購買外賣,訂高鐵票、目的地導航等任務。

經過“四木相對論”測試,更新之後,Auto-GLM支持的應用更穩定。同時它還增加了自定義高頻短口令,快速觸發常用任務等功能。

智譜CEO張鵬在發佈會現場的AI發紅包操作一度刷屏,“四木相對論”也復刻成功了。

Minimax同樣在這個月捲起了多模態。

12月3日,海螺AI圖生視頻模型I2V-01-Live上線了。

視頻生成一定是MiniMax今年的亮點之一。之前,MiniMax的亮點幾乎全部集中於Talkie,但海螺視頻的上線打破了這一印象。

這次的I2V-01-Live更新了二維插畫的動態呈現方式,讓動畫穩定性和細膩表現力有了增強。一張圖+一句話就能將2D插畫轉化爲動態視頻。

一直略顯低調的另一隻小虎階躍星辰也有模型層的更新。

週五(12月13日)階躍星辰發佈了端到端語音大模型——Step-1o 。

從官方介紹來看,Step-1o 支持語音、文本等混合形式的輸入和輸出,能理解和模仿音色、韻律、方言、個性化的口語表達習慣等聲音特徵。它還能夠通過自學和模仿不斷提升回覆質量,提供解決問題的專業建議。

從場景上看,它支持包括新聞播報、聊天陪伴、有聲讀物、在線教育、智能硬件、汽車等語音交互技術需求。

近期,Step-1o還將接入躍問App端,實現實時語音通話服務。

國內AI圈另一無法忽視的角色——DeepSeek,在短短半月內進行了兩次上新。

最新開源的DeepSeek-VL2(12月13日發佈)是一個專家混合(MoE)語言模型。

DeepSeek-VL2比一代DeepSeek-VL多一倍優質訓練數據,引入梗圖理解、視覺定位、視覺故事生成等新能力。視覺部分使用切圖策略支持動態分辨率圖像,語言部分採用MoE架構低成本高性能。

這次,大模型價格“卷王”更是在視覺模型上開“卷”。

根據DeepSeek提供的評測對比,DeepSeek-VL2在相似或更少的激活參數下實現了最先進的性能。

另外,DeepSeek V2.5系列的最終版微調模型——DeepSeek-V2.5-1210也在2月10日更新。

據官網介紹,這次更新通過Post-Training全面提升了模型各方面能力表現,包括數學、代碼、寫作、角色扮演等。同時,新版模型優化了文件上傳功能,並且全新支持了聯網搜索,可以服務各類工作生活場景。

不同於某些AI公司只強調功能或者模型的偏好,這次DeepSeekV2.5-1210模型更新後,它的Chat窗口呈現出兩個Tag——“深度思考”和“聯網搜索”。

這似乎在告訴外界:產品日常場景和模型推理能力我全都要。真的是卷王了。

12月纔剛剛過半,接下來,AI圈的上新還會繼續。

畢竟,OpenAI的年末發佈剛剛走過一半。字節也會在下週舉行大會,強調豆包、即夢的更新。

最卷12月,AI永不眠。

本文來自微信公衆號:四木相對論,作者:Lax、Dreamy

本內容爲作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯繫 hezuo@huxiu.com