忽如一夜春風來,家家都喊“端到端”
今年,除了固態電池,自動駕駛領域的“端到端”,也在被狂炒。
特斯拉的示範效應真的很厲害,隨着Tesla V12在北美大範圍推送以及表現,“端到端”也成爲了自動駕駛行業裡大家最爲關注的技術方向。
當然,國內最大的毛病衆所周知,就是營銷前置。就像固態電池,還沒整出什麼大規模量產,先在傳播上來吹一波。而且,到了似乎不提端到端都不好意思出門的程度。
那麼,什麼纔是端到端?這些真真假假的端到端,到底有多少乾貨呢?
端到端的“黑盒子”
先來理解一下,所謂“端到端”自動駕駛,打個不恰當的比方,就像做菜,你在“黑盒子”的這邊輸入食材,然後另一邊一步到位輸出做好的菜。
因爲,現在主流的自動駕駛方案,都是模塊化的。就是我們熟知的“感知、決策和執行”三大模塊。而“端到端”就是把三個直接變成一個,從傳感器數據輸入開始,中間只要一步,到控制信號輸出(馬斯克所說的Photon to Control),實現完整閉環。
這個操作也樹立了目前自動駕駛領域的最高水平和標杆,所謂“無招勝有招”、“一招制敵”。但是,這也反映了一個尷尬的行業事實,就是特斯拉在自動駕駛領域還是一騎絕塵的。
而這個來源於特斯拉CEO埃隆·馬斯克(Elon Musk)口中的端到端,也就是End-to-End Deep Learning(端到端深度學習),簡言之,就是要建立一個完整的學習系統,直接從原始數據中不斷學習,並生成所需的輸出,不需要人爲將任務分解成多箇中間步驟。
而當下普遍應用的三大模塊的優點是技術較爲成熟,開發起來的確定性更強。但是,這種技術架構下,自動駕駛車輛在極端案例(Corner Case)方面,仍然依賴工程師編寫大量代碼去制定行駛規則。
單靠數據訓練出來的各個模塊,很難處理沒碰到過的情況,也就是需要不斷用“規則”去填俗稱爲“坑”的各種Corner Case。同時,爲了迅速擴大量產車上自動駕駛系統覆蓋範圍,車企不得不招募更多的軟件工程師,比如,華爲自動駕駛的規控團隊就招募了上千名工程師。
而自動駕駛方案中的模塊化,也是不斷進化而來。從2017年前的9個模快(僅感知環節就有檢測、目標跟蹤和融合數據3個模塊),到多傳感器融合後,現在的感知、決策(或者叫預測)和執行(或者叫規劃控制)三大模塊。
從“融合”的角度來說,當三大模塊融合爲一個“黑盒子”來輸出執行結果的時候,實際上要求是更高的,不然特斯拉爲什麼這麼多年才能推出端到端?對吧。背後是基於強大的DOJO超算中心,以及更多的GPU。
而且,這種徹底的端到端“黑盒子”,技術上很難進行Debug(調試)和迭代優化,同時由於傳感器輸入信號如圖像、點雲等是高緯度(參數丨圖片)的,控制信號輸出如方向盤轉角和油門剎車踏板信號等是相對低維的,在端到端訓練中非常容易“過擬合”,導致實車測試完全無法使用。
“沒有金剛鑽,不攬瓷器活。”國內最近一些企業則聲稱自己是端到端感知,或者端到端決策,只是各種細枝末節的“端到端”,這隻能算作是純數據驅動的感知和純數據驅動的決策規劃階段。
換句話說,做得好點的還只是前兩個模塊的融合,根本做不到輸出控制(執行)的結果。現在大肆宣傳,不過是蹭熱點、炒個概念。
端到端爲什麼會熱起來?還有個因素,是去年商湯絕影的UniAD(Unified Autonomous Driving)獲得了CVPR 2023 Best Paper最佳論文獎。雖說不算是衆望所歸,但也給自動駕駛行業注入了一劑強心劑。
但國內對UniAD褒貶不一,這種褒貶不一不僅僅體現在感知、預測、規控各個團隊的獨立視角上,還體現在自動駕駛領域學術界和企業界的鴻溝(Gap)。畢竟,企業面對的Corner Case也遠多於學術界。
再說,故事講得再流暢,畢竟需要量產落地。因爲,預研的技術是要落到實車上才能最終體現價值。
但UniAD的論文裡面沒有提供實車數據(不包含Nuscenes)的數據和Demo,只有開環評測,沒有閉環評測。
雖然北京車展上商湯絕影面向量產的UniAD完成上車演示首秀,但實際效果肯定是需要驗證的。
端到端的難點
端到端自動駕駛的前景,肯定是光明的。但是,道路肯定是曲折的。
比如,端到端方案中的一體化訓練就需要海量數據,因此,難點之一就在於數據的收集和處理。獲得海量的行車數據,也是訓練端到端自動駕駛模型的入場券。
馬斯克去年在財報會上談到過數據對自動駕駛模型的重要性,“訓練了100萬個視頻Case,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到1000萬個,就變得難以置信了。”
而數據的收集需要大量的時間和渠道,數據類型除了駕駛數據外還包括各種不同的道路、天氣和交通情況等場景數據,特別是,實際駕駛中周圍方位的信息收集難以保證。
其次,數據處理時還需要設計數據提取維度、從海量的視頻片段中提取有效特徵、統計數據分佈等,以支持大規模的數據訓練。這點需要鉅額的投入和成本。
因爲,並不是所有的行車數據都可以用來訓練端到端模型。有自動駕駛工程師就發現,原本積累的路測數據只有2%可用。想讓端到端模型具備通用能力,必須用不同場景中的高質量數據訓練模型。
還有,《馬斯克傳》中馬斯克也親口解釋過,特斯拉全球200萬臺車每天約可收集1600億幀的駕駛視頻用於模型訓練。但是,管理如此龐大的數據並非易事,因爲絕大多數視頻都是無用的。
真正寶貴的是那些車流量異常大、或是有衆多行人做出各式各樣的行爲、路況極其複雜的畫面,但是這個佔比甚至連1% 都不到。而爲了提取這1%畫面,需要龐大人力、算力、儲存甚至是電力等鉅額成本。
就拿最重要的算力來說,門檻也極高。馬斯克曾在今年三月初在X.com上表示目前FSD的最大限制因素是算力,而在得到緩解後,4月初馬斯克又表示,今年Tesla在算力方面的總投入將超過100億美元。
此外,2024年Q1財報會議上,Tesla透露如今已經擁有35000塊H100的計算資源,而2024年底這一數字將達到85000塊。這意味着,要達到跟目前FSD V12同樣的水平,大概率35000塊H100和數十億美金的基礎設施資本開銷是必要前提。再往下,門檻還在進一步拔高。
數據獲取成本高昂,再加上數據隱私和安全問題,數據標註和清洗困難,以及法律和監管限制等等,都限制着數據的獲取。那麼,國內的車企,又有哪個能承擔如此高昂的這些成本呢?
除了數據收集的挑戰外,“數據對齊”也是自動駕駛技術中面臨的一大難題。
自動駕駛領域,面臨着海量未標註的異構行爲大數據。這些數據來自於不同的傳感器、設備和環境,具有不同的格式和特徵。要能用於自動駕駛的訓練和應用,就需要進行準確的數據對齊。
而數據對齊的難點在於如何確保不同來源的數據在語義上保持一致。因此,往往涉及到複雜的語義理解和轉換過程。這不僅需要先進的算法和技術支持,還需要對這個領域有深入理解。
所以,撥開營銷的迷霧,我們就知道,端到端的真相是什麼。
“簡約不簡單”,端到端不是說哪個單項做好就行,而是需要系統所有模塊都達到一個較高的性能水平,才能在端到端的決策規劃控制輸出中達成較好的效果,這種端到端系統數據門檻,是遠高於感知、決策、執行單個模塊的數據需求的。
國內的企業,還是需要踏踏實實把腳下的路走好纔是。