魔視智能張崢:在智能駕駛領先需具備四大核心能力
版權聲明:本文版權爲本站汽車所有,轉載請註明出處。
本站汽車10月23日報道 當下,作爲汽車產業的新一輪發展載體,智能網聯正逐步成爲汽車產業生態變革,競爭格局全面重塑的突破口。在2023上海國際消費電子技術展期間,智能網聯汽車產業生態發展論壇舉行,本次論壇以“智能網聯汽車生態發展”爲主題,邀請整車、系統供應商、芯片設計、園區示範應用等企業,共同圍繞智能駕駛,智能座艙,示範應用等話題進行交流探討。
會上,魔視智能高級研發總監張崢做了主題演講,以下爲嘉賓演講實錄:
張崢:大家下午好!非常榮幸今天能有機會來到現場爲大家分享魔視智能在智駕量產、行泊一體量產之路上的思考。
講一下中國的大環境,中國在智駕需求側領先於全球,我們每年的汽車消費數量、產量、銷量都基於全球領先水平,汽車智能化也在全球的汽車市場裡屬於走的比較前列的。我們國家在智能駕駛汽車的產量比上也是全球比較前列的,得益於整個大的市場,得益於人工智能技術,包括深度學習、人工智能的相關儲備,以及工程師、算法工程師、汽車工程師的充分人員儲備,以及我們中國在交通道路場景、自動駕駛場景的豐富場景庫。從數據、場景到市場的需求,我們都有非常獨特的條件,以至於我們能夠在智能駕駛量產這條路上走出我們國家自己有特色的企業或者有特色的解決方案。
在這樣的大背景下,從魔視的角度去思考,如果能在智能駕駛這條路上走得更遠,有一定的領先性,我們需要具備幾個大的核心能力。基本上四大核心能力:
1、原創全棧算法能力。智駕無論是橫向還是縱向的算法或應用層層面,都有非常強的複雜性,從感知融合、決策規劃到控制定位,它在應對各種複雜場景的情況下,需要提供商或解決方案商有能力對每個模塊因爲優化迭代,或者解決一些實際場景的問題。
2、全棧式系統能力。從垂直層面來看,從整個架構的域控、從底層硬件的接口設計、系統架構,到底層軟件中間件的連通到應用層的信號鏈路,在計算平臺和應用層的連接方面、系統整合方面,也需要具備比較強的能力,才能夠智能駕駛大規模量產落地的挑戰。
3、全場景落地能力,智能駕駛主要分爲高低速場景,全裝量產領域又基本上是行車和泊車,從最基本的超聲波車道融合泊車、記憶泊車、代客泊車,到高速的輔助駕駛L1、L2、L3、高速NV程序,基本分爲行和泊兩個場景。智駕在未來一定能夠兼顧兩個場景,讓客戶做到無縫體驗。
4、完整數據閉環能力。大家都有一個共識,數據決定算法的迭代效率和效能,從大的智駕系統發展趨勢來看,無論是從整車的電子電氣架構,從最早的分佈式到預中心,到未來可能是跨域中心,到最終的整車控制器或者整車級計算中心到雲端。無論是架構的發展還是兩個系統的融合,基本上行泊一體都是發展趨勢之一。行泊一體之後,我們能夠得到一些優點,或者能夠從中獲取到的益處。
1、傳感器可以複用,無論是行車攝像頭、泊車攝像頭還是毫米波雷達、激光,都可以進行復用。
2、提高計算資源利用率,算力能效比不斷提高。
3、降低系統節省。
4、提升開發效率。
這邊羅列了一些比較典型的智能駕駛解決方案,從最左側的前置攝像頭+前雷達的最基本的A12解決方案,到最後的多R多V行車解決方案,再到4路環視、12路超聲的泊車解決方案。原來行和泊一直是分爲兩套解決方案的,最終行車和泊車一定會走向深度的傳感器複用,而不是兩套系統的隔離。在這樣的情況下,泊車環視、周視和前後視可以融合成爲一套,360視覺覆蓋來cover行車和泊車場景。
簡單介紹一下行泊一體的產品迭代方案。隨着SOC芯片平臺的算力不同,我們要分爲中算力和高算力的簡單劃分,不同的算力平臺可能部署的解決方案有些區別。在中低算力的平臺上,行車系統的演變從最早的行泊分離,有單行車控制系統、單泊車控制系統,到最後的行泊一體1.0,其實是一體式的預控,但其實還是兩個SOC芯片去完成兩套功能,外圍傳感器還是完全獨立的。到後面的行泊一體2.0傳感器,有一定程度的複用,並且可以在SOC側做融合,單芯片通過多核異構的芯片,通過軟件架構的設計,在一個SOC平臺上實現。這種情況下,很多傳感器還是分式複用的情況,更多的是兩套。到了3.0,傳感器也會由行泊兩套融合成一套,外置MCU隨着SOC平臺更多的集成,單SOC解決行泊一體在中低算力上成爲可能。
高算力平臺,演進從後融合方案,傳感器沒有複用,到雙SOC系統,再到算法級分離,也是一種後融合,最後在高算力上完全可以做BEV全融合,多任務的BEV網絡架構設計、端到端嘗試,能夠將行和泊的任務從網絡端直接輸出相應功能需求的結果,從整個網絡側,可以把行和泊需要的特徵從網絡吐出來,爲後端的功能應用去做好基礎。
這是一個比較典型的前視功能或特性,前視一體機、前視攝像頭爲原來的行車實現語音識別、車道線,包括路上的行人、車輛,還有一些二輪車、三輪車之類的。(如圖)這是原來比較常見的前視行車感知結果,通過視覺,我們可以做到車輛識別,包括周邊的摩托車、車道線、路沿,這是我們在工程車上做的實景採集。像這樣像素級的全域分割都可以疊加在一個處理效果上,包括能夠識別斑馬線、交通燈、路牌、指示牌之類的。
基於傳統的CN方法,能夠輸出的語義還是非常豐富的,爲了將來的行泊一體,包括高階的智能駕駛是360度的視覺覆蓋,是我們未來的方向。在這樣的前提下,可能會有後續的BEV解決方案。
這是典型的環視泊車場景,我們通過360度的魚眼攝像頭覆蓋泊車場景,可以識別各種各樣的車位,包括泊車場景裡經常遇到的障礙物,像購物車、立柱、車輛、車輛後的脫鉤等等,典型的泊車場景識別需求,我們都通過魚眼來實現。剛纔看到的是行和泊兩種場景的分離。
現在最新的方案是真正在前端做前融合,將行泊場景完全從前側做融合。魔視智能自己設計了前融合框架,我們稱爲Cyclops,是前融合的BEV。在高算力平臺上可以是BEV+transform的方式,可以將多元傳感器輸入,像來自於雷達、車身位置、輪速、定位等等的結果,包括我們的行跡推算結果,我們做預處理之後,扔到網絡側進行前融合,最終是從網絡直接通過一些decode,把後端功能所需要的結果吐出來,而不需要在前側分析是行車還是泊車。只需要在一套傳感器能覆蓋所有聲波場景的情況下,去實現更好的360度檢測、更多的場景覆蓋。
這是比較典型的用魚眼做的BEV場景,好處是在四顆攝像頭裡有特徵級的提取,到BEV的映射,可以解決很多跨市、跨攝像頭、跨市域的目標物。包括有這樣一個全景來爲智駕做規控。
這是現在比較典型的行泊一體場景,中間是6顆攝像頭,前面是4顆環視,看到了2D圖像,我們通過網絡,左側能夠看到直接輸出的BEV視角,一個鳥瞰圖視角,目標物可以在上面實現,深黑色的是free space。右側是深度場,顏色越深的地方可能有障礙物的概率越高、距離越遠。從地面開到地下停車庫,這樣的場景覆蓋能夠非常好的解決一些城區場景,從地面到停車、從行到泊的完整感知覆蓋,這也是我們魔視認爲的未來行泊一體的感知方向。
魔視從2015年成立,我們一路走過來,從泊車場景做融合泊車、記憶泊車,在行車場景做最早的L1、L2智駕ADAS功能,到後面嘗試在預控制器上做簡單的行泊一體整合,或者在SOC上的整合。到後面最新一代的行泊一體預控,我們會通過一套傳感器、6個攝像頭的方案去覆蓋行泊場景,做到深度融合。
現在的算法方案上,從數據源頭到最後的SOC平臺部署,其實需要企業有非常完整、高效的平臺去驅動,我們有自己的UNIVISITY平臺,主要任務就是把源數據,無論是來自於量產車型數據集還是來自於我們自己的數據採集車隊,來自於虛擬生成、虛擬仿真的數據,進入到我們大規模的訓練平臺裡做數據處理、3D回放仿真,以及我們做一些4D數據,因爲4D數據的clip數量決定了將來BEV網絡或BEV算法帶來質量、效率的非常重要的點,我們有專門的平臺來做。在訓練平臺方面,我們可以做大模型對於小模型的評估,包括分佈式訓練、快速部署,以及模型的調度和動態管理。在仿真平臺,我們會做仿真場景,場景的泛化,以及最後訓練完的模型經過仿真驗證、泛化模型,直接部署到SOC平臺上,真正爲量產提供解決方案。這是我們整個一套偏半自動化或者高度自動化的平臺。
這是我們的一些仿真數據,從真實世界來的數據,大家也比較瞭解,無論是數據採集車還是各種跑在路上的車。現在已經有了比較明顯的趨勢,虛擬生成的仿真數據可以爲訓練集、邊緣case提供比較好的數據補充。虛擬仿真平臺可以生成非常多的在真實世界中很難採集到的目標物、道路場景,很多仿真數據的注入,包括仿真數據和真實數據的結合,爲我們做網絡訓練提供了更多的數據素材和數據來源。
這是比較典型的,可以通過比較成熟的引擎去渲染目標物,可以把它放在真實場景中,也可以放在虛擬場景中,這樣的數據集可以爲我們解決很多corner case,爲我們提高識別精確率、召回率。
最後簡單介紹一下我們公司的情況,魔視智能2015年成立,我們的總部在上海,在深圳、武漢、江蘇南通、江蘇崑山都有分中心,在澳大利亞有我們的深度神經網絡AI Lab,魔視比較專注於算法的解決平臺。一開始我們在感知領域是走的比較早的,現在在各種量產交付方面,我們基於視覺的同步定位和建圖,以及後端的行車泊車規劃控制,也是我們現在全棧能力的一部分。產品線方面,我們在商用車、乘用車都有覆蓋,包括一小部分路側。魔視在這兩年有比較多的量產落地,無論是商用車還是乘用車,我們都是國內比較主流的主機廠的合作伙伴。
這是魔視和大陸的一些戰略合作,通過跟一些global Tier1的合作,也是我們走向全球的一些嘗試。不同的企業有不同的思考,不同的區域有不同的優勢,把這些整合在一起推出更好的解決方案是我們合作的初衷。
總結一下魔視在算法側的迭代步伐,2015年開始我們專注在計算機視覺,從第一代的深度學習感知算法,現在來看非常簡單,當時比較主流、前沿的一些12比特量化多階段的目標。檢測到第二階段,我們嘗試在量產上優化網絡效率,減低從12比特到6比特的量化,通用的多階段目標檢測,第二代可以提升20%以上的性能、50%以上的資源消耗,才能夠使我們從第二代開始,在量產平臺上做部署。從第三代開始,4比特量化金字塔的CNN,包括多任務的框架,讓我們可以爲行車、泊車、不同場景、不同任務提供視覺解決方案。到第四代,現在正在跑的BEV CNN、BEV Transformer的方案前融合,包括我們匹配的4D數據平臺。未來大模型也是一個方向,BEV空間的深度網絡,包括端到端的網絡,從感知到控制或者從感知到決策,這是我們後面的整體規劃。
這是我今天帶給大家的分享,非常感謝大家的時間,後面有什麼需要交流的,我們可以進一步交流。謝謝!