免费美女视频观看,巴基斯坦美女视频

具身智能“成長(zhǎng)”的三大煩惱

來源：21世紀(jì)經(jīng)濟(jì)報(bào)道作者：林典馳2025-04-25 10:35

今年以來，人形機(jī)器人的產(chǎn)業(yè)化進(jìn)展飛速。

從春晚上“福兮”的精彩表演，到首屆人形機(jī)器人半程馬拉松中“天工”的首次沖線，一時(shí)間“街頭巷尾”都在討論人形機(jī)器人。

要支撐人形機(jī)器人與環(huán)境感知交互，就離不開具身智能技術(shù)的持續(xù)突破。尤其是大語言模型（LLM）、視覺語言模型（VLM）以及視覺語言動(dòng)作端到端模型（VLA）等關(guān)鍵技術(shù)的迭代創(chuàng)新，顯著提升了機(jī)器人在交互感知和泛化能力方面的表現(xiàn)。

然而，具身智能前行之路并非坦途，在數(shù)據(jù)采集、機(jī)器人形態(tài)應(yīng)用以及大小腦融合等方面仍面臨諸多挑戰(zhàn)。

因此，廠商們正在從不同的領(lǐng)域切入，解決以上痛點(diǎn)。比如，英特爾和東土科技等提出大小腦融合解決方案，采用單一芯片架構(gòu)替代雙系統(tǒng)模式，降低整體成本及軟件開發(fā)、測(cè)試、優(yōu)化與部署成本。

破解數(shù)據(jù)匱乏桎梏

1950年，艾倫·圖靈首次提出“具身智能”時(shí)，并未引起轟動(dòng)，直到在近兩年才成為科技圈的熱詞。

圖靈給出的基本假設(shè)是，具身智能是通過與環(huán)境交互獲得知識(shí)并泛化應(yīng)用能力。英偉達(dá)創(chuàng)始人兼CEO黃仁勛則進(jìn)一步詮釋，具身智能是能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng)，預(yù)計(jì)其將成為人工智能的下一波浪潮。

如今具身智能進(jìn)化到了哪一階段？

近日，21世紀(jì)經(jīng)濟(jì)報(bào)道記者在英特爾推介會(huì)上了解到，現(xiàn)有的具身智能大模型融合了視-抓-放-移等能力，主要為小范圍場(chǎng)景行為復(fù)現(xiàn)。而針對(duì)旋擰、插拔等力觸動(dòng)作、多指協(xié)同，柔性物操作仍相對(duì)困難。

當(dāng)中的泛化能力（指將已學(xué)到的運(yùn)動(dòng)技能或決策，遷移到新的任務(wù)）主要來源于視覺語言模型，而動(dòng)作軌跡尚缺少泛化性，非常依賴訓(xùn)練數(shù)據(jù)。這里的訓(xùn)練數(shù)據(jù)，指的是海量的帶有物理世界屬性的數(shù)據(jù)，但是目前行業(yè)面臨數(shù)據(jù)匱乏的瓶頸。

跨維智能創(chuàng)始人賈奎談道，有別于語言、圖像等可以從網(wǎng)絡(luò)上大量獲取以形成通用能力的數(shù)據(jù)，三維數(shù)據(jù)，尤其是機(jī)器人在物理空間中的操作數(shù)據(jù)，需要經(jīng)過精確標(biāo)定，且采集過程中存在難度大、周期長(zhǎng)、成本高等問題。

在他看來，基于3D生成式AI的Sim2Real仿真，將成為解決高通用性具身智能數(shù)據(jù)需求的最高效路徑。

華為天才少年“稚暉君”則走了另外一條路徑，智元機(jī)器人采用的是人力成本最高的“真機(jī)數(shù)據(jù)采集模式”。在上海近4000平方米的數(shù)據(jù)采集中心，上百名數(shù)據(jù)采集人員在對(duì)機(jī)器人進(jìn)行重復(fù)練習(xí)，光是一個(gè)機(jī)器人從桌上把玩具抓起來放進(jìn)籃子里的動(dòng)作，便須訓(xùn)練數(shù)天，采集和審核上萬條信息。在這個(gè)數(shù)采中心，智元一年能完成億級(jí)數(shù)據(jù)采集。

也正是有了前期的數(shù)據(jù)積累，機(jī)器人的泛化能力正在被一步步突破。

3月10日，智元機(jī)器人發(fā)布了全球首個(gè)通用具身基座大模型——智元啟元大模型（簡(jiǎn)稱：GO-1）。這個(gè)集成了ViLLA架構(gòu)的4D世界模型，能夠?qū)〞r(shí)間在內(nèi)的整個(gè)物理世界囊括其中，可以實(shí)現(xiàn)小樣本泛化。據(jù)介紹，機(jī)器人僅需千條以內(nèi)的視頻數(shù)據(jù)，即可掌握擦拭、倒水等復(fù)雜動(dòng)作，訓(xùn)練成本驟降。

具身智能不等于人形機(jī)器人

除了數(shù)據(jù)的挑戰(zhàn)，機(jī)器人形態(tài)也是探討的焦點(diǎn)。

過去二十多年，機(jī)器人經(jīng)歷了工業(yè)自動(dòng)化、大模型以及端到端大模型三個(gè)階段。英特爾的一位技術(shù)專家認(rèn)為，這三個(gè)階段并不是相互替代的關(guān)系，并不是機(jī)器人都要實(shí)現(xiàn)“端到端”，不同架構(gòu)面對(duì)不同的應(yīng)用場(chǎng)景和負(fù)載需求時(shí)有著自身優(yōu)勢(shì)和性價(jià)比。

在大模型階段，主要是視覺大模型通過視覺泛化能力提升了機(jī)器人對(duì)環(huán)境的理解能力，并為機(jī)器人提供輔助信息，如今各大酒店的送餐機(jī)器人便是典型例子。

自去年下半年開始，學(xué)術(shù)界和產(chǎn)業(yè)界開始對(duì)端到端模型的研發(fā)投入了大量資源。視覺語言模型（VLM）以及視覺語言動(dòng)作端到端模型（VLA）相繼取得迭代創(chuàng)新，提升了機(jī)器人交互感知和泛化能力的表現(xiàn)。

所謂端到端大模型，是指融合多模態(tài)輸入（視覺、語言）與動(dòng)作輸出，減少模塊間信息傳遞的誤差累積，提升整體決策效率。如向機(jī)器人傳遞請(qǐng)把桌子上的杯子遞給我，機(jī)器人便生成對(duì)應(yīng)動(dòng)作，如抓取和移動(dòng)，更符合人類“看想動(dòng)”的連貫行為。搭載端到端大模型后，機(jī)器人的能力進(jìn)一步增強(qiáng)，尤其是加速了人形機(jī)器人這一形態(tài)的發(fā)展。

但是多位業(yè)內(nèi)專家向記者表示，人形機(jī)器人不等于具身智能，具身智能不等于人形機(jī)器人，但人形機(jī)器人仍是具身智能的最大需求者和最大挑戰(zhàn)者。

究其原因，人形機(jī)器人短期內(nèi)還很難做到像科幻電影當(dāng)中描述的無所不能，滿足人類對(duì)完美機(jī)械伙伴的想象。

深圳市人工智能與機(jī)器人研究院（AIRS）具身智能中心主任劉少山在接受記者采訪時(shí)表示，人形機(jī)器人很大程度上在重復(fù)自動(dòng)駕駛的敘事?！叭诵巍笔情L(zhǎng)期愿景，過程中會(huì)出現(xiàn)一些“中間態(tài)”，比如輪式、雙臂、單臂等，也能在工業(yè)、應(yīng)急等場(chǎng)景中承擔(dān)一定的任務(wù)。但人類生來不是為了工業(yè)場(chǎng)景，人的形態(tài)經(jīng)歷了千萬年的進(jìn)化，人體的每一部分構(gòu)造都是科學(xué)的、都有它的作用。目前的“中間態(tài)”能夠幫助具身智能公司“續(xù)命”，通過“中間態(tài)”帶來一定的營(yíng)收，再在場(chǎng)景中不斷打磨，慢慢還是會(huì)走向最終形態(tài)，即人形。

“在很多垂直領(lǐng)域，非人形的機(jī)器人，是更有機(jī)會(huì)，成長(zhǎng)成為效率工具，可以把成本降得足夠低，在一個(gè)細(xì)分領(lǐng)域，把能力訓(xùn)練得足夠好?！庇爸强萍糃EO唐沐談道。

以跨維智能推出的DexVerse具身智能引擎為例，該引擎已經(jīng)在汽車、家電、工業(yè)、物流等30余個(gè)行業(yè)批量應(yīng)用，在毫米級(jí)精度的抓取/操作任務(wù)下，其成功率超過99.9%。同時(shí)，跨維智能也正在將產(chǎn)品穩(wěn)步落地于醫(yī)療、商業(yè)等更多半結(jié)構(gòu)化及非結(jié)構(gòu)化場(chǎng)景中。

大小腦融合探索

此外，隨著具身智能技術(shù)的發(fā)展，工程師們還發(fā)現(xiàn)大小腦通訊和協(xié)作延遲等問題，需要產(chǎn)業(yè)界共同提出解決方案。

一般而言，一臺(tái)通用人形機(jī)器人本體分為大腦、小腦和肢體三部分，分別對(duì)應(yīng)決策交互模塊、運(yùn)動(dòng)控制模塊和執(zhí)行模塊。大小腦由于互相獨(dú)立，甚至所用的芯片和系統(tǒng)架構(gòu)都是不一樣的，這便導(dǎo)致大小腦在通訊和協(xié)作出現(xiàn)系統(tǒng)級(jí)別的延遲。

浙江人形機(jī)器人創(chuàng)新中心首席科學(xué)家熊蓉談道，大小腦從硬件上分開，使得多種傳感器很難融合。現(xiàn)在小腦不純粹是執(zhí)行控制，而是希望它具備視覺伺服等功能，能夠?qū)ψ鳂I(yè)對(duì)象形成控制。如果大小腦分開，一些傳感器基于大腦控制，它往小腦傳輸就會(huì)出現(xiàn)信息負(fù)荷過大，也會(huì)帶來延時(shí)的問題。

因此，大小腦融合不失為解決辦法之一，如英特爾和東土科技均提出了大小腦融合的解決方案。

大小腦融合指的是采用單一芯片架構(gòu)來替代現(xiàn)有產(chǎn)品中常見的雙系統(tǒng)模式，大小腦融合方案的系統(tǒng)在整體成本上無疑具有顯著優(yōu)勢(shì)?！案幸饬x的地方是在于單系統(tǒng)會(huì)使軟件研發(fā)、測(cè)試、優(yōu)化與部署的整個(gè)開發(fā)成本顯著降低?！庇⑻貭柤夹g(shù)專家談到。

不過，實(shí)現(xiàn)大小腦融合并非易事，當(dāng)中還有諸多難點(diǎn)需要克服。上述技術(shù)專家稱，小腦主要負(fù)責(zé)實(shí)時(shí)運(yùn)動(dòng)控制及實(shí)時(shí)優(yōu)化軟件的運(yùn)行，其計(jì)算需求聚焦于高反應(yīng)速度、高性能及嚴(yán)格的執(zhí)行時(shí)間確定性。

例如，在任務(wù)執(zhí)行過程中，不僅要求系統(tǒng)能快速完成程序運(yùn)算并及時(shí)反饋，更需確保工作周期在99%的時(shí)間內(nèi)，所有任務(wù)能在1毫秒內(nèi)完成。一旦系統(tǒng)出現(xiàn)峰值負(fù)載，若某個(gè)控制周期執(zhí)行時(shí)間延長(zhǎng)至10毫秒，將直接導(dǎo)致機(jī)器人運(yùn)動(dòng)過程中出現(xiàn)抖動(dòng)、動(dòng)作不流暢，甚至發(fā)生跌倒等狀況，這是小腦控制層面的核心難題。

而大腦的工作負(fù)載主要圍繞環(huán)境感知與決策規(guī)劃展開。它需要接收來自攝像頭、激光雷達(dá)及其他各類傳感器的數(shù)據(jù)，通過傳統(tǒng)計(jì)算機(jī)視覺算法以及當(dāng)下熱門的大語言模型、視覺控制大模型等進(jìn)行信息處理，進(jìn)而生成機(jī)器人運(yùn)動(dòng)規(guī)劃與決策指令，并轉(zhuǎn)化為機(jī)械臂實(shí)際運(yùn)動(dòng)所需的動(dòng)作訓(xùn)練數(shù)據(jù)。

在此過程中，系統(tǒng)面臨的主要挑戰(zhàn)在于計(jì)算負(fù)載的動(dòng)態(tài)變化：在常規(guī)狀態(tài)下，計(jì)算需求可能較低，但當(dāng)機(jī)器人機(jī)身移動(dòng)或周圍環(huán)境發(fā)生劇烈變化時(shí)，峰值計(jì)算負(fù)載會(huì)急劇上升。這對(duì)計(jì)算平臺(tái)的性能提出了嚴(yán)苛考驗(yàn)，包括獨(dú)立顯卡、集成顯卡及NPU等AI計(jì)算單元的運(yùn)算能力是否足以支撐，以及在集成顯卡（iGPU）上運(yùn)行相關(guān)算法時(shí)能否保障性能。

這也是為何在如今技術(shù)不成熟的前提下，主流的解決方案是將大腦與小腦分離為兩個(gè)獨(dú)立系統(tǒng)的原因所在。

也有廠商盡管未明確提及大小腦融合，但也給出了相似的解決方案。例如，4月，智平方在深圳正式發(fā)布新一代通用智能機(jī)器人AlphaBot 2。該機(jī)器人在軟件層面，AI2R Brain升級(jí)為Alpha Brain，并搭載全域全身VLA系統(tǒng)，使機(jī)器人的認(rèn)知決策與運(yùn)動(dòng)控制實(shí)現(xiàn)深度協(xié)同，大幅提升全場(chǎng)景交互能力。

值得一提的是，人形機(jī)器人和具身智能均在產(chǎn)業(yè)化的初期階段。各家廠商由于自身技術(shù)背景不同，有的偏向于場(chǎng)景化落地，研發(fā)方向聚焦大腦。也有廠商聚焦高精度運(yùn)動(dòng)控制的小腦，將抽象指令轉(zhuǎn)化為精準(zhǔn)、流暢的肢體動(dòng)作，確保機(jī)器人在復(fù)雜環(huán)境中的穩(wěn)定運(yùn)行。但市場(chǎng)需求終究會(huì)倒逼兩種技術(shù)路線相互融合，機(jī)器人不僅能在特定場(chǎng)景中完成任務(wù)，還要求具備靈活的動(dòng)作技巧和智能交互能力。

責(zé)任編輯：陳勇洲

具身智能

人形機(jī)器人

大語言模型

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)