今年以來,人形機(jī)器人的產(chǎn)業(yè)化進(jìn)展飛速。
從春晚上“福兮”的精彩表演,到首屆人形機(jī)器人半程馬拉松中“天工”的首次沖線,一時(shí)間“街頭巷尾”都在討論人形機(jī)器人。
要支撐人形機(jī)器人與環(huán)境感知交互,就離不開具身智能技術(shù)的持續(xù)突破。尤其是大語言模型(LLM)、視覺語言模型(VLM)以及視覺語言動(dòng)作端到端模型(VLA)等關(guān)鍵技術(shù)的迭代創(chuàng)新,顯著提升了機(jī)器人在交互感知和泛化能力方面的表現(xiàn)。
然而,具身智能前行之路并非坦途,在數(shù)據(jù)采集、機(jī)器人形態(tài)應(yīng)用以及大小腦融合等方面仍面臨諸多挑戰(zhàn)。
因此,廠商們正在從不同的領(lǐng)域切入,解決以上痛點(diǎn)。比如,英特爾和東土科技等提出大小腦融合解決方案,采用單一芯片架構(gòu)替代雙系統(tǒng)模式,降低整體成本及軟件開發(fā)、測(cè)試、優(yōu)化與部署成本。
破解數(shù)據(jù)匱乏桎梏
1950年,艾倫·圖靈首次提出“具身智能”時(shí),并未引起轟動(dòng),直到在近兩年才成為科技圈的熱詞。
圖靈給出的基本假設(shè)是,具身智能是通過與環(huán)境交互獲得知識(shí)并泛化應(yīng)用能力。英偉達(dá)創(chuàng)始人兼CEO黃仁勛則進(jìn)一步詮釋,具身智能是能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng),預(yù)計(jì)其將成為人工智能的下一波浪潮。
如今具身智能進(jìn)化到了哪一階段?
近日,21世紀(jì)經(jīng)濟(jì)報(bào)道記者在英特爾推介會(huì)上了解到,現(xiàn)有的具身智能大模型融合了視-抓-放-移等能力,主要為小范圍場(chǎng)景行為復(fù)現(xiàn)。而針對(duì)旋擰、插拔等力觸動(dòng)作、多指協(xié)同,柔性物操作仍相對(duì)困難。
當(dāng)中的泛化能力(指將已學(xué)到的運(yùn)動(dòng)技能或決策,遷移到新的任務(wù))主要來源于視覺語言模型,而動(dòng)作軌跡尚缺少泛化性,非常依賴訓(xùn)練數(shù)據(jù)。這里的訓(xùn)練數(shù)據(jù),指的是海量的帶有物理世界屬性的數(shù)據(jù),但是目前行業(yè)面臨數(shù)據(jù)匱乏的瓶頸。
跨維智能創(chuàng)始人賈奎談道,有別于語言、圖像等可以從網(wǎng)絡(luò)上大量獲取以形成通用能力的數(shù)據(jù),三維數(shù)據(jù),尤其是機(jī)器人在物理空間中的操作數(shù)據(jù),需要經(jīng)過精確標(biāo)定,且采集過程中存在難度大、周期長(zhǎng)、成本高等問題。
在他看來,基于3D生成式AI的Sim2Real仿真,將成為解決高通用性具身智能數(shù)據(jù)需求的最高效路徑。
華為天才少年“稚暉君”則走了另外一條路徑,智元機(jī)器人采用的是人力成本最高的“真機(jī)數(shù)據(jù)采集模式”。在上海近4000平方米的數(shù)據(jù)采集中心,上百名數(shù)據(jù)采集人員在對(duì)機(jī)器人進(jìn)行重復(fù)練習(xí),光是一個(gè)機(jī)器人從桌上把玩具抓起來放進(jìn)籃子里的動(dòng)作,便須訓(xùn)練數(shù)天,采集和審核上萬條信息。在這個(gè)數(shù)采中心,智元一年能完成億級(jí)數(shù)據(jù)采集。
也正是有了前期的數(shù)據(jù)積累,機(jī)器人的泛化能力正在被一步步突破。
3月10日,智元機(jī)器人發(fā)布了全球首個(gè)通用具身基座大模型——智元啟元大模型(簡(jiǎn)稱:GO-1)。這個(gè)集成了ViLLA架構(gòu)的4D世界模型,能夠?qū)〞r(shí)間在內(nèi)的整個(gè)物理世界囊括其中,可以實(shí)現(xiàn)小樣本泛化。據(jù)介紹,機(jī)器人僅需千條以內(nèi)的視頻數(shù)據(jù),即可掌握擦拭、倒水等復(fù)雜動(dòng)作,訓(xùn)練成本驟降。
具身智能不等于人形機(jī)器人
除了數(shù)據(jù)的挑戰(zhàn),機(jī)器人形態(tài)也是探討的焦點(diǎn)。
過去二十多年,機(jī)器人經(jīng)歷了工業(yè)自動(dòng)化、大模型以及端到端大模型三個(gè)階段。英特爾的一位技術(shù)專家認(rèn)為,這三個(gè)階段并不是相互替代的關(guān)系,并不是機(jī)器人都要實(shí)現(xiàn)“端到端”,不同架構(gòu)面對(duì)不同的應(yīng)用場(chǎng)景和負(fù)載需求時(shí)有著自身優(yōu)勢(shì)和性價(jià)比。
在大模型階段,主要是視覺大模型通過視覺泛化能力提升了機(jī)器人對(duì)環(huán)境的理解能力,并為機(jī)器人提供輔助信息,如今各大酒店的送餐機(jī)器人便是典型例子。
自去年下半年開始,學(xué)術(shù)界和產(chǎn)業(yè)界開始對(duì)端到端模型的研發(fā)投入了大量資源。視覺語言模型(VLM)以及視覺語言動(dòng)作端到端模型(VLA)相繼取得迭代創(chuàng)新,提升了機(jī)器人交互感知和泛化能力的表現(xiàn)。
所謂端到端大模型,是指融合多模態(tài)輸入(視覺、語言)與動(dòng)作輸出,減少模塊間信息傳遞的誤差累積,提升整體決策效率。如向機(jī)器人傳遞請(qǐng)把桌子上的杯子遞給我,機(jī)器人便生成對(duì)應(yīng)動(dòng)作,如抓取和移動(dòng),更符合人類“看想動(dòng)”的連貫行為。搭載端到端大模型后,機(jī)器人的能力進(jìn)一步增強(qiáng),尤其是加速了人形機(jī)器人這一形態(tài)的發(fā)展。
但是多位業(yè)內(nèi)專家向記者表示,人形機(jī)器人不等于具身智能,具身智能不等于人形機(jī)器人,但人形機(jī)器人仍是具身智能的最大需求者和最大挑戰(zhàn)者。
究其原因,人形機(jī)器人短期內(nèi)還很難做到像科幻電影當(dāng)中描述的無所不能,滿足人類對(duì)完美機(jī)械伙伴的想象。
深圳市人工智能與機(jī)器人研究院(AIRS)具身智能中心主任劉少山在接受記者采訪時(shí)表示,人形機(jī)器人很大程度上在重復(fù)自動(dòng)駕駛的敘事?!叭诵巍笔情L(zhǎng)期愿景,過程中會(huì)出現(xiàn)一些“中間態(tài)”,比如輪式、雙臂、單臂等,也能在工業(yè)、應(yīng)急等場(chǎng)景中承擔(dān)一定的任務(wù)。但人類生來不是為了工業(yè)場(chǎng)景,人的形態(tài)經(jīng)歷了千萬年的進(jìn)化,人體的每一部分構(gòu)造都是科學(xué)的、都有它的作用。目前的“中間態(tài)”能夠幫助具身智能公司“續(xù)命”,通過“中間態(tài)”帶來一定的營(yíng)收,再在場(chǎng)景中不斷打磨,慢慢還是會(huì)走向最終形態(tài),即人形。
“在很多垂直領(lǐng)域,非人形的機(jī)器人,是更有機(jī)會(huì),成長(zhǎng)成為效率工具,可以把成本降得足夠低,在一個(gè)細(xì)分領(lǐng)域,把能力訓(xùn)練得足夠好?!庇爸强萍糃EO唐沐談道。
以跨維智能推出的DexVerse具身智能引擎為例,該引擎已經(jīng)在汽車、家電、工業(yè)、物流等30余個(gè)行業(yè)批量應(yīng)用,在毫米級(jí)精度的抓取/操作任務(wù)下,其成功率超過99.9%。同時(shí),跨維智能也正在將產(chǎn)品穩(wěn)步落地于醫(yī)療、商業(yè)等更多半結(jié)構(gòu)化及非結(jié)構(gòu)化場(chǎng)景中。
大小腦融合探索
此外,隨著具身智能技術(shù)的發(fā)展,工程師們還發(fā)現(xiàn)大小腦通訊和協(xié)作延遲等問題,需要產(chǎn)業(yè)界共同提出解決方案。
一般而言,一臺(tái)通用人形機(jī)器人本體分為大腦、小腦和肢體三部分,分別對(duì)應(yīng)決策交互模塊、運(yùn)動(dòng)控制模塊和執(zhí)行模塊。大小腦由于互相獨(dú)立,甚至所用的芯片和系統(tǒng)架構(gòu)都是不一樣的,這便導(dǎo)致大小腦在通訊和協(xié)作出現(xiàn)系統(tǒng)級(jí)別的延遲。
浙江人形機(jī)器人創(chuàng)新中心首席科學(xué)家熊蓉談道,大小腦從硬件上分開,使得多種傳感器很難融合。現(xiàn)在小腦不純粹是執(zhí)行控制,而是希望它具備視覺伺服等功能,能夠?qū)ψ鳂I(yè)對(duì)象形成控制。如果大小腦分開,一些傳感器基于大腦控制,它往小腦傳輸就會(huì)出現(xiàn)信息負(fù)荷過大,也會(huì)帶來延時(shí)的問題。
因此,大小腦融合不失為解決辦法之一,如英特爾和東土科技均提出了大小腦融合的解決方案。
大小腦融合指的是采用單一芯片架構(gòu)來替代現(xiàn)有產(chǎn)品中常見的雙系統(tǒng)模式,大小腦融合方案的系統(tǒng)在整體成本上無疑具有顯著優(yōu)勢(shì)?!案幸饬x的地方是在于單系統(tǒng)會(huì)使軟件研發(fā)、測(cè)試、優(yōu)化與部署的整個(gè)開發(fā)成本顯著降低?!庇⑻貭柤夹g(shù)專家談到。
不過,實(shí)現(xiàn)大小腦融合并非易事,當(dāng)中還有諸多難點(diǎn)需要克服。上述技術(shù)專家稱,小腦主要負(fù)責(zé)實(shí)時(shí)運(yùn)動(dòng)控制及實(shí)時(shí)優(yōu)化軟件的運(yùn)行,其計(jì)算需求聚焦于高反應(yīng)速度、高性能及嚴(yán)格的執(zhí)行時(shí)間確定性。
例如,在任務(wù)執(zhí)行過程中,不僅要求系統(tǒng)能快速完成程序運(yùn)算并及時(shí)反饋,更需確保工作周期在99%的時(shí)間內(nèi),所有任務(wù)能在1毫秒內(nèi)完成。一旦系統(tǒng)出現(xiàn)峰值負(fù)載,若某個(gè)控制周期執(zhí)行時(shí)間延長(zhǎng)至10毫秒,將直接導(dǎo)致機(jī)器人運(yùn)動(dòng)過程中出現(xiàn)抖動(dòng)、動(dòng)作不流暢,甚至發(fā)生跌倒等狀況,這是小腦控制層面的核心難題。
而大腦的工作負(fù)載主要圍繞環(huán)境感知與決策規(guī)劃展開。它需要接收來自攝像頭、激光雷達(dá)及其他各類傳感器的數(shù)據(jù),通過傳統(tǒng)計(jì)算機(jī)視覺算法以及當(dāng)下熱門的大語言模型、視覺控制大模型等進(jìn)行信息處理,進(jìn)而生成機(jī)器人運(yùn)動(dòng)規(guī)劃與決策指令,并轉(zhuǎn)化為機(jī)械臂實(shí)際運(yùn)動(dòng)所需的動(dòng)作訓(xùn)練數(shù)據(jù)。
在此過程中,系統(tǒng)面臨的主要挑戰(zhàn)在于計(jì)算負(fù)載的動(dòng)態(tài)變化:在常規(guī)狀態(tài)下,計(jì)算需求可能較低,但當(dāng)機(jī)器人機(jī)身移動(dòng)或周圍環(huán)境發(fā)生劇烈變化時(shí),峰值計(jì)算負(fù)載會(huì)急劇上升。這對(duì)計(jì)算平臺(tái)的性能提出了嚴(yán)苛考驗(yàn),包括獨(dú)立顯卡、集成顯卡及NPU等AI計(jì)算單元的運(yùn)算能力是否足以支撐,以及在集成顯卡(iGPU)上運(yùn)行相關(guān)算法時(shí)能否保障性能。
這也是為何在如今技術(shù)不成熟的前提下,主流的解決方案是將大腦與小腦分離為兩個(gè)獨(dú)立系統(tǒng)的原因所在。
也有廠商盡管未明確提及大小腦融合,但也給出了相似的解決方案。例如,4月,智平方在深圳正式發(fā)布新一代通用智能機(jī)器人AlphaBot 2。該機(jī)器人在軟件層面,AI2R Brain升級(jí)為Alpha Brain,并搭載全域全身VLA系統(tǒng),使機(jī)器人的認(rèn)知決策與運(yùn)動(dòng)控制實(shí)現(xiàn)深度協(xié)同,大幅提升全場(chǎng)景交互能力。
值得一提的是,人形機(jī)器人和具身智能均在產(chǎn)業(yè)化的初期階段。各家廠商由于自身技術(shù)背景不同,有的偏向于場(chǎng)景化落地,研發(fā)方向聚焦大腦。也有廠商聚焦高精度運(yùn)動(dòng)控制的小腦,將抽象指令轉(zhuǎn)化為精準(zhǔn)、流暢的肢體動(dòng)作,確保機(jī)器人在復(fù)雜環(huán)境中的穩(wěn)定運(yùn)行。但市場(chǎng)需求終究會(huì)倒逼兩種技術(shù)路線相互融合,機(jī)器人不僅能在特定場(chǎng)景中完成任務(wù),還要求具備靈活的動(dòng)作技巧和智能交互能力。