&

世界模型技術(shù)持續(xù)升級自動駕駛汽車還能跑得更快些

發(fā)布日期：2025-01-15 13:45:53

從ChatGPT到Sora，人工智能（AI）似乎總愛在歲末更迭之際帶來一些驚喜。2024年底，AI同樣沒有缺席。不久前，人工智能科學(xué)家李飛飛發(fā)布了首個空間智能項目成果——用單張靜態(tài)圖片生成3D世界的AI產(chǎn)品。借助這一AI工具，不僅可生成3D場景，而且所生成的場景還具有交互性、可修改。當(dāng)一張圖、一句話便可生成一個可互動的虛擬世界，自動駕駛又會因此如何進(jìn)化？

圖生世界

自動駕駛新機(jī)涌現(xiàn)

“AI教母”、華裔科學(xué)家李飛飛籌資2.3億美元所構(gòu)建的大世界模型（Large World Model，LWM）可以通過一張圖片便生成一個3D游戲世界。李飛飛等人聯(lián)合創(chuàng)辦的空間智能公司W(wǎng)orld Labs的內(nèi)部人士表示，一旦生成，該3D世界就會進(jìn)行實時渲染，且用戶可通過模擬景深效果、模擬滑動變焦的方式精準(zhǔn)控制。此外，用戶還可改變其中物體顏色，動態(tài)調(diào)整背景光影，在場景中插入其他對象等。

值得一提的是，與此前大多數(shù)生成模型不同，LWM可直接預(yù)測3D場景而非像素。因此，場景在人移開視線再回來時不會發(fā)生變化，并遵循基本的3D幾何物理規(guī)則。李飛飛表示，LWM僅僅是World Lab的第一步，后續(xù)公司還將把場景設(shè)計融入AR、機(jī)器人、自動駕駛等場景中。

無獨(dú)有偶，谷歌旗下人工智能研究機(jī)構(gòu)DeepMind不久前同樣發(fā)布了能夠“圖生世界”的新型模型Genie 2。據(jù)悉，Genie 2可根據(jù)用戶輸入的文本描述和圖像，實時生成交互式的三維場景。DeepMind表示，Genie 2可以生成具有不同視角的連貫世界，如第一人稱視角和等距視角，持續(xù)時間可達(dá)1分鐘。在生成過程中，Genie 2還可模擬物體交互、動畫、光照、物理反射以及非玩家角色（NPC）的行為。

李飛飛曾表示，實現(xiàn)通用人工智能（AGI）的關(guān)鍵一環(huán)是空間智能，盡管Sora模型可以實現(xiàn)文生視頻，但就本質(zhì)而言，它仍屬于平面二維模型，沒有三維立體理解能力。只有通過空間智能，才能看到世界、感知世界、理解世界并讓機(jī)器人做事，從而形成良性閉環(huán)。聚焦汽車產(chǎn)業(yè)，空間智能究竟能給帶來何種影響？

對此，商湯絕影高級總監(jiān)武偉告訴記者，李飛飛空間智能模型主要有兩大亮點。第一，該模型將世界模型的范式從文生視頻拓展到文生4D空間，即3D+時序可交互；第二，時序上的空間一致性得到了很好的保持，具備一定的空間記憶能力。在該負(fù)責(zé)人看來，該技術(shù)能夠應(yīng)用于自動駕駛的閉環(huán)仿真測試。利用空間智能范式能夠在線生成多樣化的3D空間且實時交互，在端到端仿真Worldsim（人為預(yù)設(shè)場景）上是一條有希望的新路徑。

可以預(yù)見，隨著技術(shù)不斷成熟，空間智能將給自動駕駛帶來更多想象空間。目前，已有車企迫不及待進(jìn)行空間智能上車實踐。在國際消費(fèi)電子展（CES 2025）現(xiàn)場，長城汽車便推出空間語言智能體（ASL）。長城汽車首席技術(shù)官吳會肖稱，ASL建立在空間智能之上，采用人類自然語言作為附加輸入和輸出。配備ASL的汽車，基于多維數(shù)據(jù)，更能以人為本，量身定制每一趟旅途。

多方涉足

世界模型潛力無窮

作為構(gòu)建空間智能的核心，世界模型自然備受關(guān)注。早在2018年，世界模型的概念便開始被廣泛提及。南京大學(xué)人工智能學(xué)院教授俞揚(yáng)曾指出，世界模型的核心作用是進(jìn)行反事實推理，即在模型中模擬和推理出在現(xiàn)實世界中未見過的決策結(jié)果。能在模型中推理和預(yù)測并由此迅速做出決策，這無疑對自動駕駛領(lǐng)域有著極強(qiáng)吸引力，不少車企、自動駕駛企業(yè)因此開始涉足世界模型。

2023年，特斯拉在CVPR 2023上便介紹了通用世界模型，該模型可通過過往的視頻片段和行動提示，生成“可能的未來”全新視頻。同年，蔚來汽車在NIO Day上表示其正在自研世界模型。一年之后，2024年7月，蔚來汽車發(fā)布中國首個智能駕駛世界模型NWM（NIO World Model）。據(jù)介紹，NWM能夠在0.1秒內(nèi)推演出216種車輛可能發(fā)生的軌跡，并尋找出最佳決策。作為生成式模型，NWM還具有強(qiáng)大的生成能力，只需將3秒鐘的駕駛視頻作為Prompt（提示），就能生成長達(dá)120秒的視頻。

隨后，2024年8月，地平線推出全場景智能駕駛解決方案HSD，其核心突破便在于創(chuàng)新的端到端世界模型。據(jù)地平線介紹，該模型不僅讓車輛具備了全面的環(huán)境感知能力，更使車輛能夠像經(jīng)驗豐富的駕駛員一樣，理解并預(yù)測周圍世界的動態(tài)變化，從而做出更為合理和高效的駕駛決策。

2024年11月，在2024“絕影實力AI DAY”上，商湯絕影“開悟”世界模型正式亮相。據(jù)介紹，開悟世界模型可生成仿真數(shù)據(jù)，與量產(chǎn)實車采集的真實數(shù)據(jù)結(jié)合，共同重建物理世界。依托多模態(tài)大模型技術(shù)和大裝置算力集群的基建，該世界模型是業(yè)內(nèi)首個同時滿足11V空間一致、2.5分鐘長時序、1080P高分辨率和多模態(tài)可控的世界模型。

進(jìn)入2025年，世界模型的熱度依然不減。1月7日，英偉達(dá)在CES 2025上推出Cosmos世界模型，專為理解物理世界打造，可預(yù)測和生成“物理感知”的視頻。英偉達(dá)表示，Cosmos的數(shù)據(jù)來自2000萬小時的真實世界人類互動、環(huán)境、工業(yè)、機(jī)器人和駕駛數(shù)據(jù)。目前，已有Wayve、Uber等多家企業(yè)承諾在各種用例中使用Cosmos，從視頻搜索和策劃到為自動駕駛汽車構(gòu)建AI大模型。

“現(xiàn)階段看到的多是基于視覺的世界模型，通過圖像來生成、預(yù)測世界三維場景。”中國科學(xué)院雄安創(chuàng)新研究院研究員、認(rèn)知智能重點實驗室副主任黃武陵表示，在基于視覺方式（端到端）實現(xiàn)的自動駕駛方案中，世界模型主要有三大潛在價值。

第一，基于自動駕駛世界模型，通過混合來自仿真軟件和真實世界的視覺數(shù)據(jù)來學(xué)習(xí)生成多樣化的駕駛場景，可以用于場景數(shù)據(jù)增強(qiáng)、危險場景生成、算法評測等應(yīng)用，有效降低自動駕駛研發(fā)中訓(xùn)練數(shù)據(jù)成本；第二，自動駕駛世界模型還可解決錯誤高效重放、測試與學(xué)習(xí)的鏈路難點，能夠解決此類場景下實際采集數(shù)據(jù)不完整等傳統(tǒng)方法缺陷，充分利用基于世界模型準(zhǔn)確預(yù)測未來場景能力；第三，通過自動駕駛世界模型對于真實世界的模擬，可以預(yù)測不同駕駛行為對應(yīng)的未來狀態(tài)，可以用作輸出反饋給智能體的訓(xùn)練和決策過程，增強(qiáng)自動駕駛決策魯棒性。

前路未明

“終極方案”尚待時日

“世界模型是在下一階段用來超越人類的，但是它對于當(dāng)下的核心意義究竟是什么，目前并不能看得明晰。”智駕領(lǐng)域?qū)＜姨K輝認(rèn)為，自動駕駛實現(xiàn)的前提是要超越人，而真實世界的數(shù)據(jù)只能無限接近于人。從這一角度出發(fā)，世界模型確實具有重大意義。不過，就當(dāng)下來看，世界模型仍然存在較大難點，發(fā)展世界模型到底要解決自動駕駛哪些問題，仍然沒有準(zhǔn)確答案。

蘇輝表示，目前看來，世界模型似乎只能作為輔助，不能單純依靠它進(jìn)行自動駕駛訓(xùn)練。在自動駕駛的早期階段，應(yīng)主要依賴真實數(shù)據(jù)。后期可能會出現(xiàn)世界模型中訓(xùn)練的情況或者大模型教稍小一些模型的情況。“感知的基礎(chǔ)模型應(yīng)該需要在真實數(shù)據(jù)下訓(xùn)練完成，如量產(chǎn)的BEV、OCC算法大多采用這種模式。”蘇輝告訴記者，隨著技術(shù)不斷發(fā)展，大模型未來會像人類一樣，對感知環(huán)境的真實度并不敏感，可以在不太逼真但3D結(jié)構(gòu)正確的環(huán)境中學(xué)習(xí)駕駛策略，正如人類在駕駛模擬器里面練習(xí)開車。然而，世界模型的思路恰恰與之相反，其3D結(jié)構(gòu)無法保障，但逼真程度很高，當(dāng)下意義并不大。

另外，黃武陵指出，現(xiàn)有已發(fā)布的世界模型前提是基于視覺（端到端）實現(xiàn)自動駕駛方案，仍存在以下幾點問題：第一，基于2D圖像生成的三維空間缺乏自動駕駛特定場景下所需的3D空間的精準(zhǔn)度要求；第二，現(xiàn)有世界模型缺乏長時序的預(yù)測，預(yù)測是否適用于極端場景也需要進(jìn)一步進(jìn)行驗證。除長時序預(yù)測之外，世界模型高分辨高精度、模型多視一致、模型可控等特性同樣需要進(jìn)一步實現(xiàn)及驗證；第三，現(xiàn)有世界模型對環(huán)境空間的建模缺乏各類交通參與者的隨機(jī)性學(xué)習(xí)，而現(xiàn)實世界的交通復(fù)雜度恰恰更來自于各類交通參與者隨機(jī)、多樣的行動。“基于交通場景分層理論，未來生成式的世界模型要能夠覆蓋世界多樣性，能夠基于知識驅(qū)動的方式實現(xiàn)更多層面的交通場景覆蓋，其所生成和預(yù)測的場景才有價值。”他說道。

目前，世界模型在自動駕駛領(lǐng)域的應(yīng)用仍處于早期階段。武偉表示，依托于海量的數(shù)據(jù)采集或數(shù)據(jù)回流，自動駕駛端到端大模型在模型泛化性上獲得了長足進(jìn)步。

不過，在模仿學(xué)習(xí)的框架下，也遇到了數(shù)據(jù)質(zhì)量要求高、長尾數(shù)據(jù)比例低等發(fā)展制約因素。而世界模型可成為一條新的數(shù)據(jù)供給范式，提供大量平衡的困難樣本數(shù)據(jù)，為端到端模型突破現(xiàn)有能力上限提供更多可能。以開悟世界模型為例，通過多模態(tài)大模型，開悟世界模型可支持多樣化的自動駕駛場景及Corner case的可控生成。目前商湯絕影基于1024類場景，能夠泛化出更多的平行世界，打造了千萬級的生成場景庫，預(yù)計2025年對行業(yè)開放。

面向未來，世界模型帶領(lǐng)自動駕駛駛向終點的路依然漫長。“就像之前的元宇宙，世界模型是用于未來的技術(shù)，持續(xù)發(fā)展是必然的，但世界模型更可能率先用于機(jī)器人等領(lǐng)域。自動駕駛最大的難點是它工作在世界范圍，就像預(yù)期功能安全中所提到的一樣，未知場景需要通過在實際道路上長期運(yùn)行來發(fā)現(xiàn)。”蘇輝稱。

本文來源于中國汽車報作者：張奕雯編輯：黃蓓版式：李沛洋

世界模型技術(shù)持續(xù)升級 自動駕駛汽車還能跑得更快些

世界模型技術(shù)持續(xù)升級自動駕駛汽車還能跑得更快些