NVIDIA Research 科學家:探索基於多模態LLM 的自動駕駛智能體
讓自動駕駛系統適應新環境和不同地區的習慣和法規是自動駕駛領域長期面臨的挑戰。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環境的駕駛策略和指令,爲駕駛員和自動駕駛汽車提供多語言和地區交通規則的實時指導,幫助他們更輕鬆地在陌生的地方導航。此外,LLaDA 還能幫助自動駕駛汽車重新規劃出與當地環境更加匹配的運動軌跡,調整自動駕駛汽車的運動規劃策略。相關論文成果收錄於CVPR 2024。
然而,LLaDA 無法實現場景的自動識別,且對場景描述的質量有着較高要求。儘管 GPT-4V 能夠提供這種描述,但是卻不夠準確。爲此,NVIDIA Research 提出一個創新的自動化視頻字幕生成框架 Wolf。Wolf 採用專家混合方法,利用視覺語言模型(VLMs)的互補優勢,能夠提升自動駕駛智能體的場景理解能力。
此外,LLaDA 通常是與用戶直接交互,並主要處理文本信息。相比之下,自動駕駛系統則需要提供具體的位置和軌跡規劃信息。基於這些差異,NVIDIA Research 團隊專爲自動駕駛領域設計出一種多模態大型語言模型(MM-LLM)TOKEN。TOKEN 通過將複雜的交通環境轉化爲對象級別的知識單元,增強了自動駕駛車輛在面對長尾事件時的規劃能力。該模型還結合了端到端駕駛模型的優勢,解決了數據稀缺和標記化效率低下的問題。相關論文收錄於CoRL 2024。
在上述背景下,智猩猩與 NVIDIA 策劃推出「智猩猩公開課 NVIDIA 自動駕駛智能體專場」,並將於10月22日以視頻直播形式進行。公開課邀請到LLaDA 論文第一作者、NVIDIA Research 自動駕駛方向研究科學家李柏依進行主講,主題爲《探索基於多模態LLM 的自動駕駛智能體》。
李柏依博士首先會重點講解 LLaDA 如何利用 LLM 生成適應不同環境的駕駛策略和指令;之後會解讀如何使用 Wolf 框架生成字幕提升智能體的場景理解能力。接下來,李柏依博士會講解如何基於 TOKEN 分解複雜交通場景提升智能體在長尾事件的規劃能力,最後會分享在自動駕駛智能體上的未來研究方向,並進行展望。