科大訊飛能靠大模型起飛嗎?

強勁友商多了起來。

文丨海克財經 許俊浩

自2022年12月ChatGPT石破天驚般異軍突起,大模型便迅速成爲國內熱門項目,賽道風起雲涌,同時變數日增。

因個人健康原因而不得不退隱靜養的美團聯合創始人王慧文,時下已不僅辭去美團非執行董事職務,而且由他創立並在國內大模型創業方向點了一把大火的光年之外,備受關注之下也已尋得看起來還算不錯的處置方案——美團以約20.65億元總代價買入了光年之外100%股權,好兄弟王興由此替代王慧文成爲光年之外操盤手。

回溯過去這半年,在百度跟進ChatGPT腳步率先於國內推出大模型文心一言之後,頭部科技大廠多有動作,阿里通義千問、騰訊混元、華爲盤古等均在此列。據科技部新一代人工智能發展研究中心發佈的《中國人工智能大模型地圖研究報告》,截至2023年5月28日,國內10億級參數規模以上大模型已發佈了79個。

在層出不窮的大模型中,老牌AI公司科大訊飛的入局故事也頗值得一說。

科大訊飛2023年5月6日發佈了星火認知大模型,1個月後又發佈了新的v1.5版本。科大訊飛創始人兼董事長劉慶峰表示,等到10月24日科大訊飛全球開發者大會時,星火大模型要實現中文超越ChatGPT、英文達到ChatGPT水平。

這些舉措和表達有力推動了科大訊飛股價的上漲。2023年6月,科大訊飛股價達到了上市以來最高點每股82元,對應總市值超過了1500億元。要知道,2023年1月時,科大訊飛市值尚不足800億元。

奈何星火大模型發佈後爭議四起。

其中一個爭議來自一個名爲SuperCLUE的國內機構。該機構5月9日發佈的中文通用大模型綜合性評測基準榜單,將科大訊飛的星火大模型排在人類、ChatGPT 4、ChatGPT 3.5之後的第四位。網友發現,SuperCLUE仿照了國際NLP即自然語言處理權威數據集GLUE及SuperGLUE,實際上卻是國內民間組織自評。GLUE與CLUE,狀若李逵與李鬼,不細看,還真分不清楚。據公開信息,SuperGLUE榜單題目一般超過2萬道,國內SuperCLUE題目卻僅有100道。

榜單發佈當日,SuperCLUE官網顯示,中文基準測評成員顧問排名第一位的是哈工大訊飛聯合實驗室資深級研究員崔一鳴。第二天即5月10日,網站就刪除了相關信息。而在2023年6月的中文大模型排行榜中,該機構將人類排在0位,第一、二位仍是ChatGPT,三、四位則變成了360智腦(4.0)和文心一言(v2.0.4),訊飛星火(v1.5)排至第六。

話題並未就此終結。

5月24日,科大訊飛股價猛跌,盤中一度跌超9%。科大訊飛官方迴應稱,股價下跌系某生成式AI產品寫作虛假小作文導致,而小作文中提到的科大訊飛被曝涉嫌大量採集用戶隱私數據並將其用於人工智能研究爲不實信息,公司法務部如查實有惡意造謠情況,將採取法律措施。

明眼人一望便知,這是把矛頭指向了百度文心一言。

文心一言市場負責人張全文當天發表朋友圈稱,友商把股價大跌歸咎於文心一言的命題小作文是碰瓷,對於無端惡意抹黑污衊,百度方面也將採取法律措施,“來而不往非禮也”。

據實講述也好,碰瓷營銷也罷,國內大模型剛剛上路,難言孰強孰弱,而星火大模型距離科大訊飛宣稱的趕超ChatGPT的距離則有目共睹。在全年營收增幅從2021年的40.61%下滑至2022年的2.77%的背景下,大模型能爲科大訊飛的業務走向帶來什麼仍未可知。

科大訊飛在國內智能語音領域曾具先發優勢。

這家成立逾23年的公司在2004年銷售額就已突破1億元,與聯想、華爲等公司的合作更使其成爲語音交互領域的巨頭。

2008年5月,科大訊飛在深圳交易所上市,是年公司營收2.57億元,同比增長25.14%。這2.57億元是由三大塊主營業務構成,它們分別是收入5458萬元的語音支撐軟件、收入7631萬元的語音行業應用/系統、收入1.26億元的信息工程與運維服務。特別值得注意的是,佔總營收比例高達49.17%的信息工程與運維服務業務主要靠科大訊飛公司所在地安徽力撐,後者貢獻了科大訊飛該項業務收入的99.49%。

在智能手機興起的2010年前後,科大訊飛迅速抓住機會推出了訊飛語音雲,2011年即上線首款入門級語音合成芯片,這也使訊飛輸入法走入移動互聯網用戶的視野。如今訊飛輸入法已支持包括粵語、客家話、閩南語在內的23種方言和藏語等5種少數民族語言的語音識別。

到了2014年,科大訊飛推出了訊飛超腦計劃,由NLP轉向AI。2015年全年,科大訊飛營收25億元,其中佔比最高的仍是信息工程與運維服務,收入達7.2億元(28.83%);往後依次是教育應用產品,收入6.6億元(26.4%);電信語音增值產品,收入3.13億元(12.52%);語音支撐軟件,收入3.03億元(12.12%);行業應用產品IFLYTEK-C3,收入2.47億元(9.91%);其餘佔比較小的還有音視頻監控、通信數據分析應用、學院教育教學和其他業務收入。也就是說,支撐科大訊飛營收的主要是軟件和信息技術服務。

隨着互聯網的高速發展,諸多大廠也切入到了語音交互領域,這使科大訊飛的地位漸趨不甚穩固。中國語音產業聯盟數據顯示,2012年科大訊飛在中國智能語音市場佔比54.3%,到2015年時下降爲44.2%,百度以27.8%位居第二,第三則是佔比6.9%的蘋果公司。百度、本站等大廠各有建樹,對科大訊飛必然造成衝擊。

外界對科大訊飛的AI產品也頗有質疑,如同聲傳譯產品。2018年有人在網絡上發表文章,認爲科大訊飛產品在翻譯時實際上有人工翻譯成分。科大訊飛回應,產品使用的是“人機耦合翻譯助手”模式,即由機器向同傳翻譯者提供語音識別和機器翻譯的結果,輔助同傳工作。這也等於客觀承認“訊飛聽見”遠達不到同聲傳譯的水準,無法以AI代替同傳人員。

儘管存在短板,科大訊飛的業務仍表現良好,連續10年營收平均增長率超過25%。但越是新興技術,領域內部迭代越快,包括語音交互和AI。據華經產業研究院發佈的《2023-2028年中國智能語音行業市場發展現狀及投資方向研究報告》,中國智能語音市場規模自2017年的100億元左右增長至2022年的341億美元,預計2023年能達382億美元;而2022年佔據國內市場份額較高的是科大訊飛(44.2%)、百度(37.8%)、蘋果(15.4%)、Nuance(6.9%)和小i機器人(3%)。

語音領域承壓,廣義AI更爲不易。

調研機構艾瑞諮詢《中國人工智能產業研究報告》顯示,中國AI產業市場規模2020年已達1546億元,2022年爲1958億元,預計2027年可達6122億元,2022-2027年的相關CAGR即複合年均增長率爲25.6%。

市場向好,競爭激烈。在整個AI產業圖譜中,包括計算機視覺、大數據智能、對話式AI、內容審覈、智能駕駛等不同領域,科大訊飛所在的技術層和具體應用層均需直面國內的百度、阿里、騰訊及國外的谷歌、微軟等大廠的攻城略地。

財報顯示,科大訊飛2022年營收188.2億元,增幅僅2.77%;2023年第一季度營收28.87億元,同比下滑17.64%。科大訊飛官方將第一季度的業績問題歸因於2022年12月與202年1月的特殊環境和其後的春節假期,認爲這屬於短期衝擊,不影響長期經營基本面。官方還表示,2019年被列入美國實體清單後又在2022年10月再次承壓;2022年第四季度和2023年第一季度處於調整中,加之大模型的推出,預計從第二季度起,收入和毛利會正向增長。

據財報,2022年全年,科大訊飛的主營業務仍是軟件和信息技術服務,佔總營收的98.41%;其中佔比最大的是教育產品和服務,佔總營收的32.74%;其次是開放平臺及消費者業務(24.66%),再次是智慧城市(23.63%)以及運營商相關業務(11.14%);智慧汽車、智慧醫療和智慧金融相加佔比爲6.2%。

AI業務的迅猛發展需要科大訊飛跟進技術潮流,大模型的重要性不言而喻。

由研發投入可見科大訊飛對大模型的重視。財報顯示,科大訊飛2021年研發投入29.36億元,2022年增長至33.55億元,同比增長14.28%;研發人員數量已從2021年的8367人增加到了2022年的9281人,同比增長10.92%,在整體員工中的佔比提升到了61.68%。

但實際上,除去算法,大模型訓練的難點和重點在於需要龐大數據和巨大算力,包括CPU(中央處理器)、GPU(圖形處理器)、ASIC(專用集成芯片)等硬件設備以及支持大規模並行計算的軟件平臺和框架,此外還涉及大量數據存儲、傳輸以及相關人力維護和升級。NVIDIA即英偉達研究數據顯示,ChatGPT 3最大規模的模型需要使用175 Billions的參數量,需要512顆V100顯卡訓練7個月時間或使用1024顆A100芯片訓練長達一個月的時間,每個月成本在百萬美元以上量級。

這意味着資金實力雄厚的大廠更有燒錢的底氣,一般企業很難參與競爭。2022年全年,阿里、騰訊的研發投入均超過500億元,而百度在研發投入214億元的情況下,旗下文心一言仍與ChatGPT差距較大,遑論同期研發投入僅約30億元的科大訊飛。

即便如此,仍有不少人對科大訊飛寄予厚望。這不僅因爲其在語音和AI上有一定先發優勢,更因爲這家公司多少帶有些國家隊色彩。最新財報即2023年第一季度財報顯示,國有法人中國移動通信有限公司和中科大資產經營有限責任公司在科大訊飛前十大股東中分別排在第一和第四位,持股比例分別爲10.66%和3.59%,作爲創始人兼董事長的劉慶峰以7.24%的持股比例位列第二。

這被認爲科大訊飛更易打造從To G到To B的商業閉環。財報對此亦有提及。舉例來說,財報顯示,截至2022年底,科大訊飛智能評卷技術已累計在14個省市高考中實現正式交付應用;司法業務領域已接入466個子平臺,涉及26個省市區,累計覆蓋1800多家法院。

但G端與B端的發展很難與大模型研發和應用直接掛鉤,也無法全然打消市場質疑。5月星火大模型發佈後不久,就有網友發現在後者的回答中會出現“我是由OpenAI開發的”等內容,由此懷疑星火大模型套殼OpenAI開發的ChatGPT。科大訊飛表示,這是由於ChatGPT熱度較高,訓練數據中出現較多OpenAI、ChatGPT等詞彙造成的回答錯誤。

大模型的常見考察標準包括多風格、多任務長文本生成,多層次跨語言理解,泛領域開放式知識問答,情境式思維邏輯推理等。據海克財經觀察,目前已有相當數量的網友對星火大模型進行了測試。面對一些人類視角不算複雜的邏輯推理題目和部分高考語文、數學題目時,星火大模型未能給出正確答案。

正因大模型開發成本高昂,應用和商業化想要覆蓋成本也還需要時間。OpenAI在2023年3月宣佈開放API(應用程序接口),價格爲每1000 tokens 0.002美元,還表示開放人工智能驅動的語音轉文本模型Whisper的API,開發者使用的價格爲每分鐘0.006美元。有外媒報道,2022年OpenAI虧損超過5.4億美元,全靠背後的微軟輸血。

對標ChatGPT的星火大模型無疑更難短期直接爲科大訊飛帶來利潤,而科大訊飛如今還需部分依靠政府補助。財報顯示,自2018年至2022年,科大訊飛獲得的政府補助分別爲2.76億元、4.12億元、4.25億元、4.38億元、4.73億元。

大模型的發展對科大訊飛的裨益直接體現在產品中。

科大訊飛近5年教育領域業務營收增速超過30%,大模型能夠在數據和應用層面協同的基礎上推動教育、辦公、醫療等下游領域產品的發展和銷售,擴大智能產品的影響力和市佔率。民生證券2023年5月的一份研報得出判斷,在政策全面支持下,科大訊飛以G-B-C構建教育正向閉環,全面加速滲透全國市場。

科大訊飛已將大模型先行落地到了既有AI學習產品上,如訊飛AI學習機T20、T20Pro等。科大訊飛6月19日發佈了618戰報,宣稱銷售額同比增長125%,AI學習機系列、翻譯機、智能錄音筆、智能辦公本等分別獲得所屬品類京東、天貓雙平臺銷售額冠軍。但官方並未公佈具體銷售額數字。

單就教育平板而言,該領域玩家衆多,已是一片紅海,這當中既有以步步高、讀書郎等爲代表的老牌學習機廠商,還有百度、本站有道等互聯網勢力參與競爭。據IDC數據,2021年下半年至2022年上半年,百度的小度學習機市場份額位列學習機平板市場第一,其後是步步高和科大訊飛。

若以娛樂產品市場情況類比,微軟Xbox銷量處於索尼PS4的陰影之下,遠不佔優;但微軟保有人機交互界面等核心技術及微軟雲、微軟操作系統等匹配的軟硬件生態,使Xbox具有一定不可替代性。

相較之下,目前科大訊飛AI及大模型水準很難構築技術壁壘,在同樣排名靠後的情況下難以穩固地位,即便市場仍有需求潛力,想在其中實現爆發式增長也殊爲不易。

科大訊飛在部分AI細分領域亦頗具優勢,但這些還遠遠不是營收大頭,比如AI醫療產品智醫助理。財報提到,智醫助理是業內唯一通過國家執業醫師資格測試的智能輔助診斷系統;截至2022年底,該系統已累計覆蓋全國30個省、380個區縣並常態化應用,累計爲基層醫生提供了超過5.3億次AI輔助診療建議。這項業務2022年全年收入4.67億元,在科大訊飛同期總營收中僅佔比2.48%。

更重要的是,2018年時,科大訊飛銷售費用17.26億元,超過了同期研發投入,而2022年銷售費用已增至31.64億元。

官宣發力AI的同時,科大訊飛還進行了多元化探索。舉例來說,2019年2月,科大訊飛旗下的訊飛雲創投資華南腦控智能科技,涉足腦機接口研發;2022年9月,科大訊飛從平安集團手上收購了北京環球保險經紀有限公司,將之更名爲北京科訊保險經紀有限公司;2022年10月,科大訊飛註冊了訊飛甄選相關商標。

這些涉及不同領域、投入不同程度的佈局,究竟能爲科大訊飛主營業務分散多少壓力、提供多少新意不得而知,可知的是科大訊飛營收目標的自我縮減。

在2021年2月的年度計劃大會上,科大訊飛曾提出未來5年營收千億元的目標,這代表着複合年均增長率要達到50%。2021年的40.61%顯然還有差距,2022年的2.77%則已越來越遠。2023年1月,營收千億被更新爲未來5年實現500億元以上目標。兩相比照,已然腰斬。

成本深似海,玩家多如雲,大模型或將還有大機會。截至海克財經本文發稿,距離科大訊飛宣稱的趕超ChatGPT已僅剩113天。當然,橫看營收目標變化,趕超ChatGPT最終結果如何倒也沒那麼重要,重要的是科大訊飛能否由此裝上強勁增長新引擎。市場在觀望,投票即將開始。