全球首個(gè)人形機(jī)器人運(yùn)動(dòng)會(huì)剛剛在京落下帷幕,來自全球16個(gè)國(guó)家的280支隊(duì)伍圍繞26個(gè)賽項(xiàng)展開了487場(chǎng)激烈比拼。眾多人形機(jī)器人在賽事中各顯神通,展現(xiàn)出令人驚嘆的技術(shù)實(shí)力和獨(dú)特魅力,讓人們對(duì)人形機(jī)器人的未來發(fā)展充滿了期待。國(guó)內(nèi)外專家學(xué)者認(rèn)為,此次運(yùn)動(dòng)會(huì)具有里程碑式的歷史意義,它不僅是一場(chǎng)技術(shù)的盛宴,更是一次全球科技、文化與產(chǎn)業(yè)深度融合的交流盛會(huì),讓全社會(huì)真切地看到了人形機(jī)器人技術(shù)的真實(shí)應(yīng)用潛力。美國(guó)《華爾街日?qǐng)?bào)》、日本NHK、韓國(guó)《每日經(jīng)濟(jì)》等國(guó)際媒體也對(duì)賽事給予了高度評(píng)價(jià),稱其為“機(jī)器人的奧林匹克”。
從技術(shù)發(fā)展的角度來看,人形機(jī)器人產(chǎn)業(yè)正處于快速演進(jìn)的關(guān)鍵階段。過去,我們?cè)谡務(wù)撊诵螜C(jī)器人技術(shù)時(shí),主要關(guān)注點(diǎn)集中在硬件層面,例如電機(jī)、減速器、滾珠絲杠等,這些硬件就如同人體的關(guān)節(jié)和器官,是構(gòu)建人形機(jī)器人的基礎(chǔ)。然而,隨著科技的飛速發(fā)展,如今的人形機(jī)器人技術(shù)正迎來一場(chǎng)從“機(jī)械軀殼”到“數(shù)字生命”的革命性跨越,以視覺-語言-動(dòng)作等方面為代表的具身智能大模型技術(shù)開始與人形機(jī)器人本體深度融合、共同進(jìn)化,使人形機(jī)器人逐漸成為具身智能的核心載體。
天娛數(shù)科CEO賀晗將這一技術(shù)發(fā)展歷程生動(dòng)地總結(jié)為三個(gè)階段:在1.0機(jī)械紀(jì)元,人形機(jī)器人處于基于程序控制的演示階段。這一時(shí)期的機(jī)器人主要通過工程師預(yù)先編寫的程序或強(qiáng)化學(xué)習(xí)算法來進(jìn)行控制,它們能夠按照指令完成一些簡(jiǎn)單的動(dòng)作演示,如固定路徑的行走、特定物品的抓取等。然而,由于程序控制的局限性,機(jī)器人的動(dòng)作往往顯得僵硬、呆板,缺乏對(duì)復(fù)雜環(huán)境和任務(wù)的靈活性與適應(yīng)性,難以在實(shí)際場(chǎng)景中發(fā)揮更大的作用。
進(jìn)入2.0模仿紀(jì)元,隨著大模型技術(shù)的迅猛發(fā)展與迭代升級(jí),機(jī)器人模仿學(xué)習(xí)技術(shù)取得了重大突破并得到廣泛應(yīng)用。在這一階段,視覺—語言—?jiǎng)幼鳎╒LA)模型的出現(xiàn),讓人形機(jī)器人能夠更加高效地完成從視覺感知、語言理解到推理并生成動(dòng)作的全過程。它們可以將人類的自然語言指令轉(zhuǎn)化為具體的行動(dòng)規(guī)劃,并具備了一定的泛化能力,能夠在一些類似但不完全相同的場(chǎng)景中完成任務(wù)。例如,機(jī)器人能夠在不同布局的房間中,根據(jù)指令找到并拿起指定物品,這一進(jìn)步極大地拓展了人形機(jī)器人的應(yīng)用范圍。
而未來的3.0覺醒紀(jì)元,則是基于海量3D數(shù)據(jù)的智能階段,這也是當(dāng)前行業(yè)努力的方向。在這個(gè)階段,人形機(jī)器人將從被動(dòng)響應(yīng)和執(zhí)行指令,轉(zhuǎn)變?yōu)槟軌蛑鲃?dòng)感知和決策。其核心在于通過海量3D數(shù)據(jù)的喂養(yǎng),借助世界模型與具身智能技術(shù),創(chuàng)建對(duì)世界運(yùn)作方式的內(nèi)部表征,并具備對(duì)行動(dòng)后果的推理能力。這將顯著提升機(jī)器人對(duì)真實(shí)世界的感知、推理、執(zhí)行與預(yù)測(cè)能力,使其能夠真正認(rèn)識(shí)和理解3D世界,像人類一樣進(jìn)行復(fù)雜的推理和規(guī)劃,不僅能夠輕松適應(yīng)復(fù)雜多變的環(huán)境和多樣化的任務(wù)需求,更重要的是,具備自主決策、行動(dòng)與操作的能力,實(shí)現(xiàn)從“工具”到“智能伙伴”的轉(zhuǎn)變。
然而,從推動(dòng)具身智能發(fā)展的現(xiàn)實(shí)角度來看,目前行業(yè)內(nèi)仍面臨著諸多共性問題,其中最為突出的便是缺乏算法(大腦、小腦)通用開發(fā)平臺(tái)。在現(xiàn)有的行業(yè)格局下,多數(shù)企業(yè)在研發(fā)人形機(jī)器人時(shí),都不得不從0到1進(jìn)行獨(dú)立的算法研發(fā)。這不僅導(dǎo)致了大量的重復(fù)投入,造成資源的嚴(yán)重浪費(fèi),還極大地影響了研發(fā)效率和成本控制。由于缺乏統(tǒng)一的通用開發(fā)平臺(tái),企業(yè)之間難以實(shí)現(xiàn)技術(shù)共享與協(xié)同創(chuàng)新,限制了整個(gè)行業(yè)的發(fā)展速度。
其次,高質(zhì)量的3D數(shù)據(jù)集對(duì)于訓(xùn)練強(qiáng)大的具身智能模型至關(guān)重要。然而,目前行業(yè)內(nèi)高質(zhì)量3D數(shù)據(jù)集極度稀缺,3D數(shù)據(jù)采集設(shè)備尚未得到廣泛普及,數(shù)據(jù)獲取成本高昂且標(biāo)準(zhǔn)化程度低。這使得具身智能模型的訓(xùn)練缺乏足夠的優(yōu)質(zhì)數(shù)據(jù)支撐,難以充分挖掘其潛力,制約了模型的性能提升和應(yīng)用拓展。
加速推動(dòng)大腦、小腦與機(jī)械本體的協(xié)同發(fā)展,是突破這些瓶頸的關(guān)鍵。值得一提的是,天娛數(shù)科打造的通用具身智能平臺(tái),實(shí)現(xiàn)了空間智能MaaS+3D數(shù)據(jù)+云邊端算力協(xié)同,持續(xù)升級(jí)對(duì)物理世界的“感知—推理—執(zhí)行”三大核心能力。這種大腦+小腦協(xié)同的能力,具有跨本體互通互用的強(qiáng)大優(yōu)勢(shì),能夠讓每家機(jī)器人本體企業(yè)實(shí)現(xiàn)即插即用,有望成為機(jī)器人領(lǐng)域的“安卓時(shí)刻”,為行業(yè)帶來全新的發(fā)展機(jī)遇和變革。
當(dāng)前,人形機(jī)器人產(chǎn)業(yè)正站在技術(shù)變革與產(chǎn)業(yè)升級(jí)的關(guān)鍵節(jié)點(diǎn)上。天娛數(shù)科賀晗表示,在關(guān)注機(jī)器人本體硬件發(fā)展的同時(shí),我們更應(yīng)重視“大小腦”的建設(shè)與發(fā)展,通過解決通用平臺(tái)缺失等行業(yè)共性問題,為推動(dòng)人形機(jī)器人在更多領(lǐng)域?qū)崿F(xiàn)大規(guī)模應(yīng)用帶來更多可能。(CIS)