中新網北京12月22日電(記者 吳家駒)近年來,我國具身智能產業迎來快速發展,并屢屢引起關注。具身智能有哪幾條發展路徑?未來需要進一步攻克哪些技術難點?
近日,在第十八屆中國工業論壇上,北京航空航天大學機器人研究所名譽所長、智友·雅瑞科創平臺發起人、中關村智友研究院院長王田苗,就相關問題進行解答。
王田苗表示,未來,一切數據將被AI激活,一切認知與決策將被AI參與,一切設備將被AI賦能,一切軟件將被AI重構。而具身智能,作為連接物理世界與數字世界的橋梁,正成為驅動社會進化核心的科技變量。
在他看來,具身智能有三條發展路徑。
第一條路徑是“大腦優先”通用暴力派。效仿大語言模型(LLM)的成功路徑,首先構建一個巨大的、基于互聯網規模數據和仿真訓練的通用基礎模型,然后將其部署到通用的類人硬件上。
這一路徑的優勢是極高的泛化能力,理論上一個模型可以學會任何任務。劣勢是存在“仿真到現實”的鴻溝,能夠理解莎士比亞的AI,卻可能因為摩擦力建模的微小誤差而無法完成一個簡單的插銷組裝動作。此外,端到端模型的“黑盒”特性在工業認證上是巨大的挑戰,成本巨大,周期很長。
第二條路徑是“身體優先”改良派。從傳統機器進化到嵌入垂類大腦,在現有成熟工業機械臂集成突出競爭優勢的基礎上,增加AI視覺感知層和力控算法。保持底層的確定性控制回路,感知層面引入AI。
這一路徑的優勢是具備現有的大量客戶與信任關系,保障極高的可靠性和龐大的存量市場。劣勢是會陷入局部最優,特別是當遷移到其他工業、商業、消費領域時,無法處理真正的開放世界任務或未預定義的變異。
第三條路徑是新勢力“垂直智能體”務實派。借鑒自動駕駛的技術架構,利用BEV(鳥瞰圖)感知、占用網絡和預測規劃算法,構建針對特定高價值垂直場景(如:汽車總裝、物流等)的機器人,并采用“通用大腦”(高層推理)+“專家模型”(底層小腦/運動控制)的混合架構。
這一路徑的優勢是平衡了泛化性與可靠性。劣勢則是競爭十分激烈,取決于實控人對應用場景核心痛點的深刻理解與產品設計。
“這三種發展路徑都存在爆發性的成長機遇。”王田苗進一步表示,具身智能要實現從演示到日常使用的跨越,迫切需要攻克制約產業爆發的三個核心技術難點。
一是要突破仿真到現實的泛化鴻溝,機器人在虛擬環境中可以經過數億次訓練學會完美抓取,但一旦部署到物理世界,光照變化、物體材質摩擦系數的微小差異、傳感器噪聲等都會導致任務失敗。而物理世界的數據采集機器昂貴,如果不能在仿真中高效訓練并遷移,機器人就無法應對現實世界的長尾場景。
二是要實現高自由度靈巧手。靈巧手決定了“操作”。進入家庭做剝雞蛋、穿針等家務,必須具備類似人手的觸覺反饋和多指協同能力。
三是提高端側算力與能效比,具身智能需要實時處理多模態數據(視覺、觸覺、聽覺),對延遲極度敏感。完全依賴云端大模型,會導致通信延遲并帶來安全隱患,而現有的端側芯片難以支撐大參數量模型的推理,且功耗過高會嚴重縮短機器人續航。
“未來,我們更應該注重垂類應用,以場景為王,只有這樣才能真正服務于實體經濟。”王田苗說。(完)