清華AIR張亞勤:預訓練、生成式大模型,將帶來自動駕駛技術範式新變革
(原標題:清華AIR張亞勤:預訓練、生成式大模型,將帶來自動駕駛技術範式新變革)
以GPT爲代表的生成式大模型的出現,讓人工智能技術再次發生躍遷,AI技術正在經歷從判別式到生成式的技術範式變革過程。隨着生成式、預訓練、多模態等大模型技術的引入也在爲自動駕駛技術走向成熟的無人化提供了可能。
來自全球領先的人工智能研究機構清華智能產業研究院(AIR)與國內領先的自動駕駛AI技術公司毫末智行,在對大模型的技術趨勢上及應用上有着驚人的一致判斷。同時,雙方也已經在基於數據驅動決策優化方向上展開深入探索,共同推動全方位、多層次的產學研深度合作,加速AI技術在自動駕駛領域的落地應用。
2023年10月11日,中國工程院院士、清華大學教授、清華智能產業研究院(AIR)院長張亞勤現場出席毫末智行舉辦的第九屆HAOMO AI DAY,發表了題爲《智能駕駛新進展——Big Model, Generative Al and Intelligent Driving》的主題演講,分享了他對生成式AI大模型應用於自動駕駛技術的最新思考,以及介紹了清華AIR在構建Real2Sim2Real基礎模型平臺、自動駕駛仿真平臺等最新成果。
以下是張亞勤院士的演講全文:
這麼美麗的天氣,這麼漂亮的地方,很高興參加HAOMO AI DAY,也感謝張凱董事長和維灝的邀請。
今天是第九屆HAOMO AI DAY,首先我要祝賀毫末在不到4年的時間裡取得了很大的成績,特別是走出一條自己的路。我印象當中毫末是最先在自動駕駛方面發佈了生成式大模型DriveGPT,也很快地走向規模化,在這麼短的時間就能夠成爲自動駕駛領域的領軍企業。
今天我想談一下在智能駕駛方面新的進展,這些年我一直用同樣的題目,但是每一次會發現裡面的內容都完全不同,特別是最近生成式AI出來之後,對自動駕駛有了很大的推進。
我們一直講新的“四化”——網聯化、智能化、共享化、電動化,其中最重要的是兩化——電動化、智能化。電動化可以理解成是新能源,現在中國已經是全球最活躍、最大的新能源市場,不管是在用戶規模或者出口規模都是全球第一,這是新汽車的上半場。下半場最重要的是智能駕駛,未來5—10年全球競爭的熱點和制高點就是自動駕駛。人工智能是自動駕駛核心的技術驅動力,毫末從一開始成立就以AI作爲公司的技術引擎,所以HAOMO AI DAY十分重要。
爲什麼這麼多的企業都在做智能駕駛?包括傳統汽車廠商、新勢力、高科技企業都在進入自動駕駛市場?其實,這裡面有很多的技術挑戰,首先從AI的角度來看,自動駕駛是高度複雜的,需要很多算力、新算法,是最具有挑戰的AI垂直領域問題,其次,自動駕駛也是目前看到的聚生智能、邊緣智能、自主智能的交集。剛剛毫末的測試視頻裡可以看到自動駕駛面對這麼多的複雜場景和變化,確實有很多的挑戰。
但是,我認爲自動駕駛是完全可以實現的,其中有一些關鍵的問題,有一些是市場的因素,有一些是非市場的力量。市場的因素包括技術是否可行?用戶有沒有真正需求?產業生態及商業模式。非市場因素也很重要,需要行業有技術突破,也需要有政府產業方面的支持,以及與政策法規突破。
在技術方面,一開始很多人在講無人駕駛是否可行,特別是L4以上是否可行?我從一開始認爲就是可行的。最近看到一些數據,無人駕駛比有人駕駛安全10倍左右,在去年我還在講是3倍,今年已經到了10倍。這說明技術突破已經完成。在商業化路線圖上,目前也有各種各樣的方式,有一些是用單車智能,有一些車路協同,還有漸進式、跳躍式的路線,開源、封閉的路線,不同企業都在探索不同的路線圖,沒有說哪一個是完全正確的,產業在用不同的方式嘗試自動駕駛。我知道毫末選擇了漸進式,我覺得這些都很好,大家用不同的方式去探索。
最近在AI方面有很多新的突破。我們看到新的算法、新的框架,特別是預訓練、多模態、多監督學習、大模型成爲主流。Transformer作爲廣泛的應用算法框架,後面有很多創新其實是中國年輕科學家在中國完成的,因此中國科學家對於人工智能有着很大的貢獻。我聽到很多的說法,認爲AI的核心主要是從歐洲來的,基本的理論是從那裡來的,但是中國科學家在人工智能領域也做出了很多的貢獻。
大模型很重要的一點是要突破技術限制。過去六、七十年中主要有三個重要的理論:摩爾定律、馮·諾依曼架構、香農三定律,現在那這三個理論都在被突破。如果不突破,大模型不可能實現,其中需要有新的傳感方式,新的感知方式,需要有新的計算機體系架構的突破,包括芯片新框架等,現在主流的Transformer和CNN卷積神經網絡也都不一樣。目前,數字技術產業主要還是基於硅片的計算,未來可能會有生物科學、光計算、量子計算。
當前,很重要的一點就是大模型帶來生成式的AI,過去AI講的是分類,也就是判別式的AI。現在可以完全生成新的內容創意、數據的創意,也可以在場景方面有很多新的創意。下面我稍微講一下在這方面的工作。
大模型走向了新方向。首先是多模態,不僅僅是自然語言、圖像、視頻,也包括傳感信號、激光雷達等從所有車機發出的物理感知、生物感知信號。大家看到GPT-4大模型就是多模態的,其功能很強大,不過效率很低,大致比人大腦的計算和決策效率至少要低1000倍,所以還需要有新的算法,我覺得5年之後就會有新的算法出現。其次是自主智能,可以去自動的完成任務,包括邊緣計算,把很複雜的大模型怎麼樣放在手機、汽車、機器人邊緣上,還有具身智能和物理世界連在一塊,我認爲自動駕駛是最重要的具身智能場景。未來是腦機智能階段,大模型將面臨怎麼樣用到生物的世界、生命的世界,怎樣讓人和腦更好的連接。
新技術架構都會用到大模型,就像新的AI操作系統一樣,上面會有很多垂直的模型,包括做自動駕駛或者其他像生命科學垂直的模型。
我這裡再簡單講一下清華智能產業研究院(AIR),這是我從百度退休之後創立的人工智能產業研究院,3年的時間發展速度很快,也很幸運能夠找到一批有很深產業背景,同時有很深學術造詣的科學家和企業CTO。現在差不多加上博士後、學生有300人左右,自動駕駛是其中的一個方向,大概有100人。
每一次講到AIR研究院,都會想起25年前我回國創立微軟亞洲研究院。下個月會慶祝微軟亞洲研究院25週年,這個研究院本身相當的成功。我剛剛講的大模型就是在微軟研究院所開發的,希望能夠打造面向中國產業的研究院。
我們在從事各種研究的時候希望有一個大的框架,比如智能駕駛方面要先確定一些技術路線。首先我認爲多模態的感知很重要,從原多尺度、多維的數據很重要。因爲做無人駕駛、智能駕駛,機器人的優勢首先就是要求數據比較多,這個數據優勢不能扔掉,所以我不同意馬斯克所說的只用攝像頭,我們需要用更多的數據源。其次是現在很多的自動駕駛會用到很多高精地圖,但是我們認爲未來是輕地圖,不能完全依賴於地圖。
自動駕駛達到最後的安全、可靠階段一定是端到端方式實現的,這個也非常難,這裡面有更詳細的技術因素,包括生成式AI、強化學習、大語言模型,我們有兩個平臺:數據大模型平臺、仿真平臺。
AIR也提出了自己的自動駕駛基礎模型。首先模型提出了怎麼樣獲取不同數據,包括真實世界數據和仿真數據。數據要經過受控管道進行清理。然後有兩個大模型:感知模型、決策模型,包括在一些雲端和車端的關鍵場所做出決策,有一些模塊是提供信息,有一些是統計的,也有一些是基於規則的模塊。
我在裡面專門把“強化學習”拿出來,因爲強化學習我從百度開始的時候就在用到的,但是很難用。因爲自動駕駛安全性很重要,用起來相當困難,但是我認爲這個是我們唯一真正達到更高安全的方式,強化學習可以學到新的東西,現在泛化的方式要靠強化學習去學習,最近也有很多新的進展。怎麼樣把強化學習用到很多模擬和決策,用到真正駕駛的行爲當中。左邊模型是垂直大數據,怎麼樣用強化學習去調整模型。
另外是生成式AI怎麼樣能用到仿真、決策當中?這裡面有一個小的例子,大模型和深度學習都有透明度的問題,所以我們也做了這方面的研究,我到底爲什麼做這個決定?左轉、右轉、剎車,告訴我看到什麼東西了,以及我爲什麼要做這個決定,它可以引導怎麼樣做決定。這個是用真實數據、仿真數據、垂直模型、大模型生成語意深度場景,包括交通和行人的信息。
另外是人腦和機器的融合,我們要去研究一下人是怎麼開車的。人有的時候決策很好,有的時候決策不好,把這些信息通過傳感器收集起來。一方面在很長時間人和機器要共駕,無人駕駛要慢慢理解人的駕駛。另一方面把模型用到算法當中,改善算法的效率。
最後,我們非常高興能和毫末在技術方面有深度的合作,這個合作是關於怎麼樣把強化學習用到認知決策裡面?怎麼樣用真實的數據和實車場景用強化學習把它融合起來,當前,強化學習有很多的問題,在線或者離線的方式,包括函數定義的問題、策略模糊性的問題,所以我們做了很多這樣的研究。過去一年多,在國際頂會發表了很多的論文,同時也有專利,最重要的是現在開始用到車裡面,剛剛看到物流的小車已經開始用這些算法。
總結一下,如果看智能駕駛和自動駕駛經歷的不同階段,一開始的時候更多是用激光雷達和硬件驅動,更多是基於人工的規則。2.0是軟件和算法的驅動,這個階段有更多的傳感器,也要靠機器學習和規則。現在走到3.0的時代,就是大模型的驅動,這個階段有多傳感器用到端與端的算法,也會用到強化學習,可以更大程度地實現自動駕駛在真實的世界落地。