“下一波人工智能浪潮,具身智能會(huì)是一個(gè)非常核心的方向,相當(dāng)于是連接了虛擬空間和真實(shí)空間的橋梁。”在剛剛結(jié)束不久的世界人工智能大會(huì)(WAIC 2024)上,談及“具身智能”和“人形機(jī)器人”的關(guān)聯(lián),來(lái)自科大訊飛股份有限公司的機(jī)器人首席科學(xué)家季超說(shuō)。
過(guò)往一年,大模型技術(shù)的出現(xiàn)讓機(jī)器人擁有了“大腦”,實(shí)現(xiàn)了知行合一,在物理世界里感知、理解物理世界。如何理解具身智能?人形機(jī)器人與具身智能兩者之間的關(guān)聯(lián)在哪里?人形機(jī)器人落地商業(yè)化場(chǎng)景中有哪些難點(diǎn)?
2024WAIC大會(huì)期間,澎湃邀請(qǐng)北京大學(xué)助理教授、北大-銀河通用具身智能聯(lián)合實(shí)驗(yàn)室主任王鶴、科大訊飛股份有限公司機(jī)器人首席科學(xué)家季超和藍(lán)馳創(chuàng)投合伙人曹巍,做客“元宇宙聊天室”,暢談當(dāng)下具身智能和人形機(jī)器人的關(guān)聯(lián),以及人形機(jī)器人未來(lái)發(fā)展的技術(shù)路徑和當(dāng)前面臨的難點(diǎn)。
以下為直播摘要
具身智能是未來(lái)技術(shù)發(fā)展的趨勢(shì)
澎湃科技:此次2024WAIC,具身智能的概念非?;?,各位是如何理解具身智能這一概念的?具身智能和人形機(jī)器人之間的關(guān)系該如何厘清?
王鶴:具身智能強(qiáng)調(diào)的是機(jī)器人的智力能力,人形機(jī)器人強(qiáng)調(diào)的是機(jī)器人的本體即身體。這兩點(diǎn)結(jié)合,與現(xiàn)有的專用機(jī)器人相比,具備革命性的下一代機(jī)器人就是通用機(jī)器人,即具有人形的本體,有極高的靈活度、和人最相似、通用性最好。
具身智能則是在人形機(jī)器人的身體之上發(fā)展能夠根據(jù)人們的需求去執(zhí)行泛化的通用的操作和移動(dòng)的能力。當(dāng)具身智能和人形結(jié)合在一起,未來(lái)會(huì)有極大的市場(chǎng)規(guī)模。
季超:人形機(jī)器人的概念其實(shí)在幾十年前就已經(jīng)提出來(lái)。具身智能最大的兩個(gè)特點(diǎn),一是知行合一,二是讓機(jī)器人用通用的方式來(lái)執(zhí)行不同的任務(wù)、場(chǎng)景。在這個(gè)過(guò)程中,具身智能和人形機(jī)器人結(jié)合,我們更愿意稱為未來(lái)的具身通用機(jī)器人,來(lái)執(zhí)行較為復(fù)雜的任務(wù)。
不過(guò),我們需要區(qū)分兩個(gè)概念,工業(yè)機(jī)器人或?qū)S脵C(jī)器人和通用機(jī)器人是兩個(gè)概念。專用集成邏輯效率高,但不夠泛化;而通用機(jī)器人帶來(lái)泛化性,但效率較低,沒(méi)有專用機(jī)器人那么高。
曹巍:具身智能,是人工智能在物理世界的進(jìn)一步延伸。具身智能的價(jià)值體現(xiàn)在機(jī)器人在物理世界里感知、理解物理世界,以及實(shí)現(xiàn)了與物理世界高頻交互;具身智能作為非常具有特色的技術(shù)棧,這幾年有很大的變化。
2016年,當(dāng)時(shí)藍(lán)馳創(chuàng)投在投資理想汽車、高端機(jī)器人時(shí),看到的變化是機(jī)器人在空間定位、導(dǎo)航等技術(shù)上的能力在提升,以及激光雷達(dá)感知成本的下降;現(xiàn)在機(jī)器人有新的技術(shù)棧出現(xiàn),在技術(shù)變化帶領(lǐng)下,讓機(jī)器人去理解物理世界、實(shí)現(xiàn)高頻復(fù)雜的交互,這將會(huì)是巨大的力量。
澎湃科技:具身智能是不是下一波的浪潮?上一代機(jī)器人的技術(shù)路徑又是怎樣的?
王鶴:工業(yè)機(jī)器人比如機(jī)械臂,永遠(yuǎn)沿著既定的軌跡去操作,是一成不變的,即“專為一件事而生”。效率顯然很高,成功率也很高,但除了擰螺絲、移動(dòng)車門等,它干不了任何其他事情,復(fù)雜程度不夠。
從專用機(jī)器人到具身智能,核心是通過(guò)一個(gè)身體干很多事情,在這個(gè)過(guò)程中,對(duì)機(jī)器人的感知、決策和執(zhí)行,三個(gè)環(huán)節(jié)都能夠泛化、隨機(jī)應(yīng)變地去處理。
從感知的角度,多模態(tài)大模型是唯一能夠應(yīng)付各種開(kāi)放環(huán)境和開(kāi)放任務(wù)感知需求的。留給我們的問(wèn)題是如何將大模型技術(shù)很好地與具身智能融合在一起。
季超:從本質(zhì)上講,具身一定跟本體相關(guān)。我們認(rèn)為,下一波人工智能浪潮,具身智能會(huì)是一個(gè)非常核心的方向,相當(dāng)于是連接了虛擬空間和真實(shí)空間的橋梁。在這個(gè)過(guò)程中,特別是以人形機(jī)器人為代表的通用機(jī)器人能實(shí)現(xiàn)具身智能和大模型的結(jié)合。
我們認(rèn)為,未來(lái)在一些多品種、少批量通用泛化的場(chǎng)景下,人形機(jī)器人有巨大的商業(yè)價(jià)值。
算賬的邏輯也很清楚。過(guò)去工業(yè)機(jī)器人非常核心的效能體現(xiàn)在成本里。未來(lái),一個(gè)機(jī)器人可以在開(kāi)放的場(chǎng)景里執(zhí)行多任務(wù),成本可以得到極大的分?jǐn)偂募夹g(shù)的發(fā)展演進(jìn)路線來(lái)看,這毫無(wú)疑問(wèn)是未來(lái)發(fā)展的趨勢(shì)。
曹?。?/strong>工業(yè)機(jī)器人非常強(qiáng)調(diào)圍繞現(xiàn)場(chǎng)作業(yè)的能力,當(dāng)通用具身智能機(jī)器人真正實(shí)現(xiàn)時(shí),機(jī)器人將不再局限于原始的精度維度,從而走向更智能的程度,對(duì)任務(wù)的理解能力和實(shí)現(xiàn)閉環(huán)的能力都將有巨大的提升。
落地難點(diǎn):數(shù)據(jù)、成本、場(chǎng)景
澎湃科技:具身智能的浪潮會(huì)持續(xù)多久?在這個(gè)過(guò)程中,面臨的技術(shù)難點(diǎn)又會(huì)有哪些?
曹?。?/strong>從具體的落地視角來(lái)看,第一點(diǎn)要突破數(shù)據(jù)。王鶴老師也在最近的分享中強(qiáng)調(diào),數(shù)據(jù)是人工智能的前提,沒(méi)有數(shù)據(jù),人工智能無(wú)從談起。如何訓(xùn)練數(shù)據(jù)達(dá)到理想的效果,來(lái)解決關(guān)鍵場(chǎng)景中的問(wèn)題,這是目前需要突破的核心問(wèn)題。
第二點(diǎn),從項(xiàng)目的角度來(lái)看,當(dāng)前的營(yíng)銷存在許多問(wèn)題。首先,機(jī)器人的結(jié)構(gòu)非常復(fù)雜,導(dǎo)致耗電量很高,成本非常昂貴。在落地層面上,機(jī)器人的價(jià)格昂貴,也過(guò)于嬌貴,容易損壞。因此,在機(jī)器人末端執(zhí)行上,能在市場(chǎng)競(jìng)爭(zhēng)力和耐用性兩方面都做好非常重要。
第三即對(duì)場(chǎng)景的深度理解。
王鶴:對(duì)于具身智能快速發(fā)展的前沿技術(shù),要考慮技術(shù)能否支撐產(chǎn)品。通用機(jī)器人和專用機(jī)器人不一樣,成功率、耐用度都需要技術(shù)進(jìn)一步的發(fā)展,才能在專用場(chǎng)景里和專用機(jī)器人匹敵。在技術(shù)滿足產(chǎn)品標(biāo)準(zhǔn)之后,還需要考慮定價(jià)問(wèn)題。比如,現(xiàn)在國(guó)際知名英國(guó)公司生產(chǎn)的單只靈巧手售價(jià)高昂,應(yīng)用領(lǐng)域也較為單一。我們認(rèn)為,未來(lái)在靈巧手上,要真正實(shí)現(xiàn)PMF(Product-Market Fit:產(chǎn)品市場(chǎng)契合度)。
季超:GPT模型的底層邏輯是通過(guò)大量數(shù)據(jù)、算力的堆疊,最后呈現(xiàn)出驚艷的效果。但對(duì)于具身智能機(jī)器人來(lái)說(shuō),面臨的問(wèn)題更復(fù)雜。
一是數(shù)據(jù)稀缺,盡管語(yǔ)音和圖像數(shù)據(jù)可以通過(guò)互聯(lián)網(wǎng)獲取進(jìn)行標(biāo)注訓(xùn)練,但機(jī)器人需要的特定場(chǎng)景數(shù)據(jù)極為稀缺。譬如以谷歌的機(jī)器人學(xué)習(xí)項(xiàng)目為例,通過(guò)大量工程師和資源投入,構(gòu)建了有限的數(shù)據(jù)集,花了大概一千多萬(wàn)美元,最后才實(shí)現(xiàn)了比較好的效果。
另外,算力也是一個(gè)不可忽視的因素?,F(xiàn)在大家都在講云端算力,其實(shí)端側(cè)算力的壓力更大。未來(lái),計(jì)算機(jī)能力將基于強(qiáng)大的視覺(jué)和多模態(tài)感知,而不僅僅依賴云端算力。
所以,高端算力芯片的研發(fā)是一個(gè)亟待突破的點(diǎn)。在此,需要思考如何從應(yīng)用角度來(lái)針對(duì)具體的任務(wù)構(gòu)建合適的具身小模型。
我們認(rèn)為,當(dāng)前人工智能對(duì)數(shù)據(jù)、算力的要求極大,短期內(nèi)投入產(chǎn)出的走向可能不會(huì)那么正向。
澎湃科技:關(guān)于現(xiàn)階段機(jī)器人投入、產(chǎn)出方面,三位能否展開(kāi)討論。
王鶴:現(xiàn)階段我們?cè)谒伎加袥](méi)有比雙腿落地更成熟、成本更可控的方案。銀河通用提出了360°萬(wàn)向輪盤底,它能跪下,抓取地面的東西,當(dāng)實(shí)現(xiàn)大規(guī)模量產(chǎn)后,成本可能更會(huì)逐步降低。
機(jī)器人落地商店、工廠,還涉及到一定的落地部署費(fèi)用。我認(rèn)為應(yīng)該要實(shí)現(xiàn)自動(dòng)部署、開(kāi)箱即用,把這項(xiàng)成本也省掉。
至于算力成本,未來(lái)人形機(jī)器人端側(cè)算力芯片是否會(huì)繼續(xù)用英偉達(dá)新推出的芯片,還是會(huì)出現(xiàn)更好的國(guó)產(chǎn)芯片,我們拭目以待。
曹巍:我給大家一點(diǎn)信心,在2016年、2017年時(shí),藍(lán)馳創(chuàng)投投資的一款商業(yè)清潔機(jī)器人“高仙機(jī)器人”,最初售價(jià)在五十萬(wàn)元左右,現(xiàn)在,這款機(jī)器人的平均售價(jià)已經(jīng)比那時(shí)下降了90%。所以,機(jī)器人的價(jià)格一定會(huì)隨著傳感器成本的下降而下降,中國(guó)的制造業(yè)非常強(qiáng)大。
季超:研發(fā)機(jī)器人的目的是替代人,或者幫助人類做事情。機(jī)器人可以幫助降低商業(yè)運(yùn)營(yíng)的成本、提升效能,比如機(jī)器人可以7*24小時(shí)無(wú)休。未來(lái),機(jī)器人在工業(yè)場(chǎng)景里有大的戰(zhàn)略意義。中國(guó)有非常雄厚的工業(yè)基礎(chǔ)和健全的產(chǎn)業(yè)鏈,國(guó)內(nèi)的企業(yè)也非常善于把成本降下來(lái)。
但我們也要清楚地認(rèn)識(shí)到技術(shù)發(fā)展的局限性。比如,在六十分的技術(shù)基礎(chǔ)上,如何通過(guò)產(chǎn)品的場(chǎng)景去設(shè)計(jì)出八十五分甚至水平更高的產(chǎn)品,這才能真正意義上推動(dòng)人形機(jī)器人實(shí)現(xiàn)正向循環(huán)。
人形機(jī)器人當(dāng)前正處于萌芽期
澎湃科技:李開(kāi)復(fù)此前曾在公開(kāi)場(chǎng)合提到,他一家人形機(jī)器人都沒(méi)投,他認(rèn)為沒(méi)有必要做人形機(jī)器人,你們?cè)趺纯催@種觀點(diǎn)?人形機(jī)器人的必要性到底在哪里?
曹巍:現(xiàn)在有一派觀點(diǎn)較為激進(jìn),認(rèn)為人形機(jī)器人萬(wàn)能;另有一派聲音比較理性,站在中間,即追求實(shí)現(xiàn)通用人形機(jī)器人;還有一派比較保守,認(rèn)為人形機(jī)器人沒(méi)用。我自己保持客觀中間的狀態(tài)。
垂直場(chǎng)景的機(jī)器人有些可以成為爆款產(chǎn)品,它們也將參與到市場(chǎng)競(jìng)爭(zhēng)中。但我們不能因?yàn)槿诵螜C(jī)器人在某些場(chǎng)景中難以應(yīng)用,就認(rèn)為它們沒(méi)有競(jìng)爭(zhēng)力。王鶴老師提到,人形機(jī)器人以其超強(qiáng)的通用能力和場(chǎng)景適應(yīng)性,滿足了人類生活場(chǎng)景的需求。未來(lái),我們可能會(huì)看到人形機(jī)器人操作工程器械或使用尚未智能化的工具,這將是一個(gè)令人興奮的發(fā)展。
同時(shí),我們也必須認(rèn)識(shí)到,人形機(jī)器人的發(fā)展速度可能并不像我們期望的那樣快。因此,希望大家能夠客觀地、基于需求特點(diǎn)和機(jī)器人技術(shù)發(fā)展的路徑與節(jié)奏來(lái)看待這個(gè)問(wèn)題,不應(yīng)過(guò)于保守,也不應(yīng)過(guò)于激進(jìn)。
王鶴:我的看法是永遠(yuǎn)不要對(duì)短期科技的爆炸產(chǎn)生過(guò)高的期待,但也不要忽略遠(yuǎn)期科技的成長(zhǎng)將會(huì)帶來(lái)的巨變。人形機(jī)器人在今天還處于萌芽期,在未來(lái)三到五年時(shí)間內(nèi),可能會(huì)在一系列需要柔性操作的場(chǎng)景里看到它。
季超:不要對(duì)當(dāng)前的技術(shù)爆炸的現(xiàn)象產(chǎn)生過(guò)高的期望,這樣會(huì)產(chǎn)生泡沫,但泡沫也有好有壞。
技術(shù)的發(fā)展是一個(gè)螺旋式往上發(fā)展的過(guò)程,近期,我也正在參與關(guān)于人形機(jī)器人和具身智能結(jié)合關(guān)于標(biāo)準(zhǔn)的界定。從另外一個(gè)視角來(lái)看,首先大家對(duì)于人形機(jī)器人的通用技術(shù)規(guī)范概念的界定還不夠清晰。還有,具身智能的概念到底是什么?在這方面,大家的認(rèn)知還沒(méi)有統(tǒng)一。
從產(chǎn)業(yè)的視角來(lái)看,我們比較明確的衡量標(biāo)準(zhǔn),是能否以客戶為中心的目標(biāo)場(chǎng)景下,能夠完成當(dāng)下技術(shù)顛覆。
另外,我們一直崇尚的是,從研究中實(shí)時(shí)追蹤最先進(jìn)的技術(shù),去產(chǎn)業(yè)中探索顛覆式的技術(shù)。
現(xiàn)在機(jī)器人的硬件成本售價(jià)在不斷降低,前幾年大家看到先進(jìn)技術(shù)愿意為其買單,這種買的其實(shí)是“智商稅”,買的是價(jià)值認(rèn)知。現(xiàn)在,真正的技術(shù)應(yīng)用落地正在發(fā)生,產(chǎn)業(yè)界對(duì)此也非常興奮。長(zhǎng)期來(lái)看,一定會(huì)有更加顛覆性的技術(shù)產(chǎn)生,也會(huì)出現(xiàn)顛覆性的產(chǎn)品。