配套活動丨由Sora啓航,點亮AGI 曙光——“中關村圍爐夜話”之大模型專場

“心中有光,沸煮茶香。”4月25日晚, “中關村圍爐夜話”第2期——大模型的奇幻漂流專場,作爲2024中關村論壇年會配套活動之一,在中關村國際創新中心如期舉辦。本期活動由中關村發展集團主辦,中關村天使投資聯盟、中關村資本基金管理公司、中關村國際會展運營管理公司承辦,微軟亞太研發集團協辦。

“問道者”是著名主持人、中關村天使投資聯盟副主席、天鵝優選創始人郎永淳;“論道者”是科學界和企業界的頂級專家:歐洲科學院外籍院士、香港大學計算機系教授徐東,歐洲科學院外籍院士、北京大學講席教授謝濤,微軟全球資深副總裁、Microsoft AI亞太區總裁張祺,崑崙萬維董事長兼CEO方漢,出門問問創始人兼CEO李志飛,“聞道者”包括北京市人民政府副秘書長韓耕,海淀區副區長唐超,中關村發展集團董事長潘金峰,中關村發展集團副總經理、中關村天使投資聯盟主席賈一偉,一輕控股副總經理韓鬆等50餘位政府嘉賓、投資人、創業家。

爲了更高效地釋放中關村優質資源,進一步推動北京國際科技創新中心建設,加強科技創新領域交流合作,促進北京市成果轉化、推動中國硬科技早期創投生態建設,在本期活動中,中關村天使投資聯盟聘請徐東院士、謝濤院士爲大模型領域的“首席科學家”,聯盟賈一偉主席爲首席科學家們頒發了聘書。

“中關村圍爐夜話”結合北京市未來產業六大領域20個細分方向,挑選最前沿最火熱的話題,從世界的視野、以多元的角度,邀請頂尖科學家、領軍企業家圍爐邀月,一起品茗論道,共鳴未來。

以下是本期詳情——

01

Sora啓示錄--大模型技術進化對人類的影響

郎永淳:

AI領域的創新和迭代速度可以說是日新月異,如果說2023年的大模型風暴還集中在“對話”上,那麼,今年AI帶來的億點點震撼,比如sora的問世,就突破了文字乃至圖像的範疇。短短一年,大模型再度快速進化,與上一階段人們熱衷於測試大模型能否理解言外之意、能否編程、能否做數學題不同,由於大模型的能力維度變得如此豐富多元,這一次人們開始期待或惶恐——我所從事的行業會收到怎樣的衝擊?有多少人會被大模型替代?大模型演進成當下水平,最重要的技術推動力是什麼?

徐東:

從ChatGPT開始,大模型技術不斷取得突破。Sora模型的出現,將視頻生成的時長從幾秒大幅提升到幾十秒,如東京街頭女孩子散步60秒的視頻,遠遠吊打了以前的Pika、Runway等國內外文生視頻模型,因爲視頻生成任務的難度隨着時間的增長而指數級增加。Sora技術路線包含了兩個方面:1)對視頻數據從時空兩個維度同時進行數據壓縮,使得輸入到Diffusion Transformer(DiT)模型中token的數量得以減小;2)使用DiT技術來實現文生視頻,基於擴散模型的路線並採用 Transformer 取代 UNet來實現噪聲去除並生成視頻。Sora之所以如此出色,是因爲OpenAI的研究人員在過去一年自動996,而且其算力和算法也遠超同行,包括Google和Meta。現在這輪的差距,不只是中美之間的差距,更多的是OpenAI跟其他公司的差距。

謝濤:

我同意算法上的創新是大模型技術進步的一個重要因素,尤其是像Sora這樣的模型,它使得視頻生成取得了令人震撼的成果。但是大模型技術發展在不同階段(從通用模型的研發到具體應用的落地)中需要考慮不同的因素,在研發階段可以不惜代價地達到技術上限,在應用落地階段則需要考慮效率和成本問題。算力如此之貴,高質量數據和大規模高質量數據可以提升效率,降低成本。

張祺:

我認爲對基礎大模型要有一種信仰。儘管爲特定行業創建更細分的模型在實施上是合理的,但從科研探索和推動技術最前沿的角度來看,持續對基礎模型的投入是非常必要的。在模型訓練端,算力的指數級增長是必然的,並且這種增長趨勢在未來一段時間內仍將持續。以Google的Deepmind的模型爲例,過去十年模型訓練所需的算力每年增長了10倍。所以,持續的算力投入和相應的算法創新是推動基礎模型發展如Sora這樣的多模態生成式AI模型繁榮的關鍵。當然,我同意在大模型應用實施時需要考慮效率和成本,包括大小模型的混用、雲端協同以及算法工程優化。

郎永淳:

過去每一年算力以十倍的速度在增長,大家會擔心它對人類的影響到底如何,都在討論AGI通用智能會不會達到那個奇點?能不能達到超過人力智力的水平?將來有沒有相應的風險?人腦是天生多任務的處理器,現在的機器目前看起來還達不到多任務同時處理的情況,我們看機器和人腦運作的模式有什麼樣的相似之處,有什麼樣的不同之處?機器到底有沒有人類的智慧?

方漢:

大模型分爲訓練和推理兩部分。訓練的本質是將人類知識進行壓縮,以便在GPU等硬件上高效運行。而所謂的推理就是把有損壓縮的人類知識回放出來。我認爲Sora不是AGI,它是一個視頻生成推理模型,根據你的提示生成視頻,並不能真正理解視頻。我認爲AGI的奇點是上一代大模型可以訓練下一代大模型的時候,比如GPT-6能訓練GPT-7,實現智能的自循環。這個奇點一旦到來,只要沒有能源的限制,大模型本體會飛速進化,這時候我們人類的智慧將會被遠遠地拋在後面,這時候硅基社會迅速超越人類社會。

李志飛:

這個問題很難回答。今天很多人說神經網絡是機器在學人類,但其實我們自己對人都搞不清楚。在2020年之前,我認爲NLP在解決認知問題上沒有希望,因爲AI似乎無法真正理解和處理人類的語言和認知。但ChatGPT的出現改變了我對AI能力的看法,因爲它展現出了不可預測的行爲,這在某種程度上類似於人類。而Sora的出現對推動AGI發展至關重要,因爲語言模型通常處理的是抽象和虛擬的概念,這些概念在現實世界中可能沒有直接對應的實體(例如“空氣是透明的”或“法律”),但Sora將語言模型中的抽象概念與現實世界中的實體聯繫起來(例如“六個”“男人”“打領帶”)。除了語言和視頻模型之外,AGI的發展還需要機器人和其他可以與物理世界互動的技術出現。

02

AGI:“加速主義”VS“利他主義”?

郎永淳:

我們看到《經濟學人》雜誌有這樣一個觀點,認爲目前在AI界已經形成了非常明顯的兩大陣營,一個陣營是擁護“加速主義”的繁榮派,這一派認爲不僅應該允許AI發展,並且強調AI推動社會進步的潛力。另外一派就是受到了“利他主義”影響的建制派,這一派對人工智能的安全感到擔憂,認爲人工智能不能無限發展,要加強監管。到底人和機器的邊界在哪裡?

張祺:

我是一個技術樂觀主義者,相信AI技術,特別是AI生成內容(AIGC)的發展,將極大地推動社會進步。由於人力智力有時間限制,但AI智力沒有時間限制,AI技術帶來的經濟價值和對社會的影響將推動其加速發展。但與此同時,AI也帶來了不可預測的能力和潛在風險,如果沒有合適的機制去規範和限制,可能會造成嚴重的後果。DeepMind的聯合創始人Mustafa Suleyman撰寫了一本書《The Coming Wave》,這本書裡詳細地討論了AI發展的必要性以及監管的必要性,以實現AI技術平衡發展,推薦大家讀一讀。

謝濤:

我選擇“加速主義”,但我不反對加強監管。因爲對AI技術進行監管或管制,並不一定意味着要減緩AI技術的發展,某種程度上會加速AI技術的發展。我們都知道數據質量對於訓練AI模型的重要性,以代碼大模型爲例,如果訓練數據中包含大量未經人工審覈的自動生成代碼,可能會降低最終模型的效果。解決辦法是可以在大模型生成的內容中加入水印,幫助機器更好區分自然數據與合成數據。

李志飛:

人類在做決策時會考慮行爲的後果,而當前的AI模型,如Autoregressive Model(自迴歸模型),只能根據過去的數據進行預測,不具備對未來的預測能力。我認爲實現人類水平的智能體需要幾十個補丁”,包括記憶是一個補丁,規劃是一個補丁……這些都能補齊,但有一個無法補齊,那就是意識補丁,它是否能有愛恨情仇,它是否感到痛苦和害怕?人們對AI未來發展的一些擔憂是過度的,因爲AI還缺乏許多基本的智能機制。所以在當前階段,應該更注重推動AI技術的發展,而不是過分強調安全問題。先別想多了,幹起來再說。

方漢:

擔心AGI是否具有人類意識或對人類構成威脅是一個僞命題,這是一個基於錯誤假設的問題。我是學核物理的,我先說一個天體物理學的觀點:太陽最終會變成紅巨星,地球將不適宜居住,這意味着人類文明終將面臨滅亡的命運。爲了避免滅亡,人類必須發展恆星飛行技術,這需要兩個前提條件:無限能源(如核聚變)和AGI。AGI將導致人類科技的快速進步,人類的終極目標應該是在宇宙中生存和擴散。

郎永淳:

有人認爲,加速AGI會給人類帶來能源恐慌,目前全球AI生態都在爲英偉達打工,您怎麼看?我們將如何走出這些窘境?

方漢:

AI發展不會遇到能源瓶頸,因爲能源與國家的軍事力量緊密相關,而強大的國家控制着大部分能源。我認爲AI大模型的競爭很像囚徒困境,每個國家和公司都會追求自己的AI發展,以免落後於競爭對手。就像造原子彈,我不會輕易用,但我得有,這種競爭是國家實力的體現。與國家支持的原子彈項目不同,AI大模型的訓練主要由追求盈利的公司進行,因此它們在投資時會更加考慮成本和回報。如果AI大模型的訓練不能帶來經濟效益,公司將不會繼續投資於它們,所以放心,不會有能源恐慌。

謝濤:

儘管國產AI芯片在性能和能耗方面有所進步,能夠投入使用,但主要挑戰在於生態壁壘,即如何打破由現有技術領導者(如英偉達)建立的生態系統的壁壘。在這裡引用孫凝暉院士的觀點,介紹三種發展模式:

A體系(高鐵模式):採用外部技術並將其優化使用,但存在依賴外部API更新和兼容性的風險。

B體系(北斗模式):自主研發技術體系,如華爲昇騰和寒武紀,建立自己的生態系統,雖然耗時較長,但能自主控制發展路徑。

C體系:全球合作共建生態系統,打破單一公司(如英偉達)的壟斷,促進技術的開放和共享。

03

AGI:重塑生產力

郎永淳:

AGI的進化將重塑人類生產力,各位認爲AGI的切實應用將從哪些行業、哪些場景開啓?

徐東:

Sora模型將對廣告、傳媒和影視行業帶來潛在的影響。Sora首先可能服務大B用戶,如好萊塢等,由於生成科幻電影中的場景通常需要大量採用圖形學技術,並且科幻電影的高預算也可以覆蓋Sora的使用成本;Sora還能服務中B用戶,包括遊戲工作室、營銷公司和短劇製作團隊,這些用戶可能會利用Sora生成視頻內容的能力來提高生產力和創意;Sora還能爲那些以製作視頻爲職業的人士(小B)提高效率和創意。隨着AIGC的發展和端上算力的提升,如果Sora能夠在端上運行,那麼它可能會直接面向消費者(toC),使得每個人都能成爲視頻內容的創作者,而且不滿意的地方可以由AI幫助修改和編輯。這可能導致個人用戶也能逐漸成爲專業的內容創作者,並且未來也可能不再需要傳統意義上的演員。AGI有可能改變傳統的影視製作和名人文化。

謝濤:

AI在軟件工程領域大有作爲,比如可以被本地化部署的AI輔助編程工具。我們北大軟件團隊孵化了一家叫硅心科技的公司,其產出的代碼大模型aiXcoder可以輔助軟件工程師提高編程效率。其實微軟的Copilot AI輔助效果非常好,但國內企業和美國企業不一樣,美國企業利用雲上的資源建立代碼倉庫都是比較常見的,國內很多企業代碼是不出公司的,必須得是本地網,這要求AI工具必須能夠在本地網絡環境中有效運行。由於本地部署的AI工具受限於硬件資源,提高推理性能成爲關鍵。

郎永淳:

從企業的維度看,假設看1—3年,AGI可能會對我們組織變革,生產方式帶來挑戰和機會。您看到的是什麼樣的機會?會有什麼樣的產品策略?會有什麼樣的計劃或者是規劃?

張琪:

分享一個我在微軟推動了一年多的一個理念——OPE(單人企業家),即一個人加AI,能幹什麼?我做了一個實驗,一個人用ChatGPT,它可以做什麼?團隊裡有一個產品經理,不會編程,但非常聰明,她用ChatGPT一個星期實現了搜索引擎在移動端的形態。一個人+5美元(ChatGPT訂閱費20美元/月)基本上實現了十到幾十個人團隊兩到三個月時間的工作任務。我覺得,隨着個體生產力的提升,傳統的組織架構和資源獲取方式可能會發生變化。

方漢:

我們是做C端的。我們對AIGC在C端落地的商業模式判斷是“免費”。全世界80億人口,能夠付起ChatGPT 19.9美金訂閱費的不會超過1億人,剩下有79億人是用不起的。我們做C端的企業一定要考慮什麼樣的商業模式能夠支撐得起免費,因爲現在模型的推理成本始終存在。我們認爲有三個路徑。一個是降低推理成本,一個是實現端側推理,還有一個是我們選擇的“AIUGC平臺”模式,它結合了人工智能生成內容(AI Generated Content,簡稱AIGC)與用戶生成內容(User Generated Content,簡稱UGC)。在這個模式中,AI技術被用來增強和擴展用戶創作內容的能力,從而創造一個更加豐富和互動的內容生態系統。簡單來說,就是一萬個人中1個創作者用AI創作內容,剩下的9999個人去消費內容。

李志飛:

儘管大模型技術有潛力滲透到各行各業,但目前主要還是集中在聊天(如ChatGPT)、內容創作(如Midjourney)、配音等娛樂和教育領域。在醫療、製藥、房地產和政府等嚴肅行業中,AIGC的應用會來得更晚,因爲這些領域對準確性和可靠性的要求非常高。作爲一家創業公司,我們提出了To PC/To SMB(針對專業的內容創作者和中小型企業的商業模式),這是介於To C(面向消費者)和To B(面向企業)之間的一種模式。專業消費者願意爲提高工作效率的工具支付一定的費用,但不像企業客戶那樣有高額的支付能力。我們公司的產品“魔音工坊”就是一個面向內容創作者的AIGC工具,這些創作者願意爲提高創作效率支付一定的費用。

04

大模型的荊棘與榮耀之旅

郎永淳:

汽車出來了,有人會爲它買單,但影響了馬車伕。今天大模型來了,有些人會想:它對我的傷害到底是什麼?我有可能會被它替代嗎?怎麼樣讓自己的水平提升不被替代?在這個方面,你們有什麼樣的思考?

謝濤:

AI技術在替代某些對人類身體有害的工作,也在取代一些對工人身體無害的工作,雖然提高了生產力,但也引發了關於工作替代和社會責任的思考。回到我所在的軟件工程領域,隨着AI技術的發展,尤其是像自動編程這樣的技術,未來可能不再需要那麼多的軟件工程師,但仍然需要審查和測試代碼的人類工程師,這可能會導致軟件工程師行業的變化。我們的教育系統需要適應技術變革,培養能夠適應未來需求的軟件工程師。

方漢:

OpenAI出過一個研究報告,指出工作中使用電腦的步驟越多,該工作受到AI自動化的威脅就越大。相反,與電腦關係不大的工作如體力勞動,目前不太受AI的影響。我舉個例子,淘寶模特和攝影師這個行業受到非常大的AIGC技術衝擊,因爲AI生成圖片的成本遠低於傳統攝影。但這不代表計算機科學就不重要了。我依然認爲計算機科學(CS)是未來十年最好的專業,AI技術落地需要程序員來實現。對於所有人來說,學會使用AI技術是很重要的。現在使用AI技術最踊躍的人其實是大學生們,它們非常積極地擁抱新技術。

李志飛:

儘管AI在技術和知識方面可能超越人類,但人類的情感、創造力和提出新問題的能力是AI難以複製的。我發現,我12歲的女兒能夠理解複雜的AI算法,但在開放式問題和創業等沒有標準答案的情況下她不知所措。這讓我反思AI時代我們要如何教育孩子。人類在開放和動態環境中的適應能力,人類在定義問題和提出問題方面的能力,這些是AI目前做不到的,是人類的重要優勢。所以我們要注重培養孩子提出問題和思考問題的能力,而不僅僅是解決已有的問題。

郎永淳:

在您看來,如何平衡大模型技術的發展與倫理合規的要求?

徐東:

AIGC技術在視頻生成中使用了現有的版權材料,如YouTube視頻,但這些材料的版權歸屬並不明確,導致版權使用上的困境。即使是開源的AI模型也可能面臨版權問題,因爲它們可能使用了受版權保護的數據進行訓練。如果AIGC技術使用了藝術家的作品作爲訓練數據,是否可以通過向藝術家支付版權費來解決版權問題?

張祺:

我還是推薦DeepMind的聯合創始人Mustafa Suleyman撰寫的那本書《The Coming Wave》。AI需要技術發展與社會責任之間的平衡,我認爲這種平衡是非常有必要的,一定要有這樣一種共識;另外一方面對AI發展包括倫理價值平衡的把控很可能需要用技術的方式去實現,因爲AI太強大了以後,攻防之間可能需要用更加提升的技術方式,不僅僅是一些人力的方式;第三是AI的監管和發展需要多領域和跨國界的合作,這意味着不同國家、不同學科和不同行業的專家需要共同努力,以確保AI技術的健康發展。

飲一杯茶,烤一爐食,圍爐夜話,探討科技與人文,賦科學以詩性浪漫,讓技術擁抱人性溫度,同頻共振,迸發火花。

來源:中關村論壇官網