“下一波人工智能浪潮,具身智能會是一個非常核心的方向,相當(dāng)于是連接了虛擬空間和真實空間的橋梁。”在剛剛結(jié)束不久的世界人工智能大會(WAIC 2024)上,談及“具身智能”和“人形機(jī)器人”的關(guān)聯(lián),來自科大訊飛股份有限公司的機(jī)器人首席科學(xué)家季超說。
過往一年,大模型技術(shù)的出現(xiàn)讓機(jī)器人擁有了“大腦”,實現(xiàn)了知行合一,在物理世界里感知、理解物理世界。如何理解具身智能?人形機(jī)器人與具身智能兩者之間的關(guān)聯(lián)在哪里?人形機(jī)器人落地商業(yè)化場景中有哪些難點?
2024WAIC大會期間,澎湃邀請北京大學(xué)助理教授、北大-銀河通用具身智能聯(lián)合實驗室主任王鶴、科大訊飛股份有限公司機(jī)器人首席科學(xué)家季超和藍(lán)馳創(chuàng)投合伙人曹巍,做客“元宇宙聊天室”,暢談當(dāng)下具身智能和人形機(jī)器人的關(guān)聯(lián),以及人形機(jī)器人未來發(fā)展的技術(shù)路徑和當(dāng)前面臨的難點。
以下為直播摘要
具身智能是未來技術(shù)發(fā)展的趨勢
澎湃科技:此次2024WAIC,具身智能的概念非?;?,各位是如何理解具身智能這一概念的?具身智能和人形機(jī)器人之間的關(guān)系該如何厘清?
王鶴:具身智能強(qiáng)調(diào)的是機(jī)器人的智力能力,人形機(jī)器人強(qiáng)調(diào)的是機(jī)器人的本體即身體。這兩點結(jié)合,與現(xiàn)有的專用機(jī)器人相比,具備革命性的下一代機(jī)器人就是通用機(jī)器人,即具有人形的本體,有極高的靈活度、和人最相似、通用性最好。
具身智能則是在人形機(jī)器人的身體之上發(fā)展能夠根據(jù)人們的需求去執(zhí)行泛化的通用的操作和移動的能力。當(dāng)具身智能和人形結(jié)合在一起,未來會有極大的市場規(guī)模。
季超:人形機(jī)器人的概念其實在幾十年前就已經(jīng)提出來。具身智能最大的兩個特點,一是知行合一,二是讓機(jī)器人用通用的方式來執(zhí)行不同的任務(wù)、場景。在這個過程中,具身智能和人形機(jī)器人結(jié)合,我們更愿意稱為未來的具身通用機(jī)器人,來執(zhí)行較為復(fù)雜的任務(wù)。
不過,我們需要區(qū)分兩個概念,工業(yè)機(jī)器人或?qū)S脵C(jī)器人和通用機(jī)器人是兩個概念。專用集成邏輯效率高,但不夠泛化;而通用機(jī)器人帶來泛化性,但效率較低,沒有專用機(jī)器人那么高。
曹巍:具身智能,是人工智能在物理世界的進(jìn)一步延伸。具身智能的價值體現(xiàn)在機(jī)器人在物理世界里感知、理解物理世界,以及實現(xiàn)了與物理世界高頻交互;具身智能作為非常具有特色的技術(shù)棧,這幾年有很大的變化。
2016年,當(dāng)時藍(lán)馳創(chuàng)投在投資理想汽車、高端機(jī)器人時,看到的變化是機(jī)器人在空間定位、導(dǎo)航等技術(shù)上的能力在提升,以及激光雷達(dá)感知成本的下降;現(xiàn)在機(jī)器人有新的技術(shù)棧出現(xiàn),在技術(shù)變化帶領(lǐng)下,讓機(jī)器人去理解物理世界、實現(xiàn)高頻復(fù)雜的交互,這將會是巨大的力量。
澎湃科技:具身智能是不是下一波的浪潮?上一代機(jī)器人的技術(shù)路徑又是怎樣的?
王鶴:工業(yè)機(jī)器人比如機(jī)械臂,永遠(yuǎn)沿著既定的軌跡去操作,是一成不變的,即“專為一件事而生”。效率顯然很高,成功率也很高,但除了擰螺絲、移動車門等,它干不了任何其他事情,復(fù)雜程度不夠。
從專用機(jī)器人到具身智能,核心是通過一個身體干很多事情,在這個過程中,對機(jī)器人的感知、決策和執(zhí)行,三個環(huán)節(jié)都能夠泛化、隨機(jī)應(yīng)變地去處理。
從感知的角度,多模態(tài)大模型是唯一能夠應(yīng)付各種開放環(huán)境和開放任務(wù)感知需求的。留給我們的問題是如何將大模型技術(shù)很好地與具身智能融合在一起。
季超:從本質(zhì)上講,具身一定跟本體相關(guān)。我們認(rèn)為,下一波人工智能浪潮,具身智能會是一個非常核心的方向,相當(dāng)于是連接了虛擬空間和真實空間的橋梁。在這個過程中,特別是以人形機(jī)器人為代表的通用機(jī)器人能實現(xiàn)具身智能和大模型的結(jié)合。
我們認(rèn)為,未來在一些多品種、少批量通用泛化的場景下,人形機(jī)器人有巨大的商業(yè)價值。
算賬的邏輯也很清楚。過去工業(yè)機(jī)器人非常核心的效能體現(xiàn)在成本里。未來,一個機(jī)器人可以在開放的場景里執(zhí)行多任務(wù),成本可以得到極大的分?jǐn)?。從技術(shù)的發(fā)展演進(jìn)路線來看,這毫無疑問是未來發(fā)展的趨勢。
曹?。?/strong>工業(yè)機(jī)器人非常強(qiáng)調(diào)圍繞現(xiàn)場作業(yè)的能力,當(dāng)通用具身智能機(jī)器人真正實現(xiàn)時,機(jī)器人將不再局限于原始的精度維度,從而走向更智能的程度,對任務(wù)的理解能力和實現(xiàn)閉環(huán)的能力都將有巨大的提升。
落地難點:數(shù)據(jù)、成本、場景
澎湃科技:具身智能的浪潮會持續(xù)多久?在這個過程中,面臨的技術(shù)難點又會有哪些?
曹?。?/strong>從具體的落地視角來看,第一點要突破數(shù)據(jù)。王鶴老師也在最近的分享中強(qiáng)調(diào),數(shù)據(jù)是人工智能的前提,沒有數(shù)據(jù),人工智能無從談起。如何訓(xùn)練數(shù)據(jù)達(dá)到理想的效果,來解決關(guān)鍵場景中的問題,這是目前需要突破的核心問題。
第二點,從項目的角度來看,當(dāng)前的營銷存在許多問題。首先,機(jī)器人的結(jié)構(gòu)非常復(fù)雜,導(dǎo)致耗電量很高,成本非常昂貴。在落地層面上,機(jī)器人的價格昂貴,也過于嬌貴,容易損壞。因此,在機(jī)器人末端執(zhí)行上,能在市場競爭力和耐用性兩方面都做好非常重要。
第三即對場景的深度理解。
王鶴:對于具身智能快速發(fā)展的前沿技術(shù),要考慮技術(shù)能否支撐產(chǎn)品。通用機(jī)器人和專用機(jī)器人不一樣,成功率、耐用度都需要技術(shù)進(jìn)一步的發(fā)展,才能在專用場景里和專用機(jī)器人匹敵。在技術(shù)滿足產(chǎn)品標(biāo)準(zhǔn)之后,還需要考慮定價問題。比如,現(xiàn)在國際知名英國公司生產(chǎn)的單只靈巧手售價高昂,應(yīng)用領(lǐng)域也較為單一。我們認(rèn)為,未來在靈巧手上,要真正實現(xiàn)PMF(Product-Market Fit:產(chǎn)品市場契合度)。
季超:GPT模型的底層邏輯是通過大量數(shù)據(jù)、算力的堆疊,最后呈現(xiàn)出驚艷的效果。但對于具身智能機(jī)器人來說,面臨的問題更復(fù)雜。
一是數(shù)據(jù)稀缺,盡管語音和圖像數(shù)據(jù)可以通過互聯(lián)網(wǎng)獲取進(jìn)行標(biāo)注訓(xùn)練,但機(jī)器人需要的特定場景數(shù)據(jù)極為稀缺。譬如以谷歌的機(jī)器人學(xué)習(xí)項目為例,通過大量工程師和資源投入,構(gòu)建了有限的數(shù)據(jù)集,花了大概一千多萬美元,最后才實現(xiàn)了比較好的效果。
另外,算力也是一個不可忽視的因素。現(xiàn)在大家都在講云端算力,其實端側(cè)算力的壓力更大。未來,計算機(jī)能力將基于強(qiáng)大的視覺和多模態(tài)感知,而不僅僅依賴云端算力。
所以,高端算力芯片的研發(fā)是一個亟待突破的點。在此,需要思考如何從應(yīng)用角度來針對具體的任務(wù)構(gòu)建合適的具身小模型。
我們認(rèn)為,當(dāng)前人工智能對數(shù)據(jù)、算力的要求極大,短期內(nèi)投入產(chǎn)出的走向可能不會那么正向。
澎湃科技:關(guān)于現(xiàn)階段機(jī)器人投入、產(chǎn)出方面,三位能否展開討論。
王鶴:現(xiàn)階段我們在思考有沒有比雙腿落地更成熟、成本更可控的方案。銀河通用提出了360°萬向輪盤底,它能跪下,抓取地面的東西,當(dāng)實現(xiàn)大規(guī)模量產(chǎn)后,成本可能更會逐步降低。
機(jī)器人落地商店、工廠,還涉及到一定的落地部署費用。我認(rèn)為應(yīng)該要實現(xiàn)自動部署、開箱即用,把這項成本也省掉。
至于算力成本,未來人形機(jī)器人端側(cè)算力芯片是否會繼續(xù)用英偉達(dá)新推出的芯片,還是會出現(xiàn)更好的國產(chǎn)芯片,我們拭目以待。
曹?。?/strong>我給大家一點信心,在2016年、2017年時,藍(lán)馳創(chuàng)投投資的一款商業(yè)清潔機(jī)器人“高仙機(jī)器人”,最初售價在五十萬元左右,現(xiàn)在,這款機(jī)器人的平均售價已經(jīng)比那時下降了90%。所以,機(jī)器人的價格一定會隨著傳感器成本的下降而下降,中國的制造業(yè)非常強(qiáng)大。
季超:研發(fā)機(jī)器人的目的是替代人,或者幫助人類做事情。機(jī)器人可以幫助降低商業(yè)運(yùn)營的成本、提升效能,比如機(jī)器人可以7*24小時無休。未來,機(jī)器人在工業(yè)場景里有大的戰(zhàn)略意義。中國有非常雄厚的工業(yè)基礎(chǔ)和健全的產(chǎn)業(yè)鏈,國內(nèi)的企業(yè)也非常善于把成本降下來。
但我們也要清楚地認(rèn)識到技術(shù)發(fā)展的局限性。比如,在六十分的技術(shù)基礎(chǔ)上,如何通過產(chǎn)品的場景去設(shè)計出八十五分甚至水平更高的產(chǎn)品,這才能真正意義上推動人形機(jī)器人實現(xiàn)正向循環(huán)。
人形機(jī)器人當(dāng)前正處于萌芽期
澎湃科技:李開復(fù)此前曾在公開場合提到,他一家人形機(jī)器人都沒投,他認(rèn)為沒有必要做人形機(jī)器人,你們怎么看這種觀點?人形機(jī)器人的必要性到底在哪里?
曹巍:現(xiàn)在有一派觀點較為激進(jìn),認(rèn)為人形機(jī)器人萬能;另有一派聲音比較理性,站在中間,即追求實現(xiàn)通用人形機(jī)器人;還有一派比較保守,認(rèn)為人形機(jī)器人沒用。我自己保持客觀中間的狀態(tài)。
垂直場景的機(jī)器人有些可以成為爆款產(chǎn)品,它們也將參與到市場競爭中。但我們不能因為人形機(jī)器人在某些場景中難以應(yīng)用,就認(rèn)為它們沒有競爭力。王鶴老師提到,人形機(jī)器人以其超強(qiáng)的通用能力和場景適應(yīng)性,滿足了人類生活場景的需求。未來,我們可能會看到人形機(jī)器人操作工程器械或使用尚未智能化的工具,這將是一個令人興奮的發(fā)展。
同時,我們也必須認(rèn)識到,人形機(jī)器人的發(fā)展速度可能并不像我們期望的那樣快。因此,希望大家能夠客觀地、基于需求特點和機(jī)器人技術(shù)發(fā)展的路徑與節(jié)奏來看待這個問題,不應(yīng)過于保守,也不應(yīng)過于激進(jìn)。
王鶴:我的看法是永遠(yuǎn)不要對短期科技的爆炸產(chǎn)生過高的期待,但也不要忽略遠(yuǎn)期科技的成長將會帶來的巨變。人形機(jī)器人在今天還處于萌芽期,在未來三到五年時間內(nèi),可能會在一系列需要柔性操作的場景里看到它。
季超:不要對當(dāng)前的技術(shù)爆炸的現(xiàn)象產(chǎn)生過高的期望,這樣會產(chǎn)生泡沫,但泡沫也有好有壞。
技術(shù)的發(fā)展是一個螺旋式往上發(fā)展的過程,近期,我也正在參與關(guān)于人形機(jī)器人和具身智能結(jié)合關(guān)于標(biāo)準(zhǔn)的界定。從另外一個視角來看,首先大家對于人形機(jī)器人的通用技術(shù)規(guī)范概念的界定還不夠清晰。還有,具身智能的概念到底是什么?在這方面,大家的認(rèn)知還沒有統(tǒng)一。
從產(chǎn)業(yè)的視角來看,我們比較明確的衡量標(biāo)準(zhǔn),是能否以客戶為中心的目標(biāo)場景下,能夠完成當(dāng)下技術(shù)顛覆。
另外,我們一直崇尚的是,從研究中實時追蹤最先進(jìn)的技術(shù),去產(chǎn)業(yè)中探索顛覆式的技術(shù)。
現(xiàn)在機(jī)器人的硬件成本售價在不斷降低,前幾年大家看到先進(jìn)技術(shù)愿意為其買單,這種買的其實是“智商稅”,買的是價值認(rèn)知?,F(xiàn)在,真正的技術(shù)應(yīng)用落地正在發(fā)生,產(chǎn)業(yè)界對此也非常興奮。長期來看,一定會有更加顛覆性的技術(shù)產(chǎn)生,也會出現(xiàn)顛覆性的產(chǎn)品。