乐鱼网.com

人形机器人:进化何以加速?

来源:乐鱼网.com    发布时间:2025-04-06 22:33:23

  宇树科技的人形机器人登上2025年央视春晚舞台,中国由此掀起了一场机器人赛博旋风。很多人都渴望拥有一台这样的机器人——可以帮我们做我们不想做的事情,还能无条件提供情绪价值。然而,机器人技术真的已发展至此了吗?到底是什么制造了这场人形机器人狂热?我们离机器人走进千家万户的现实还有多远?

  上海智元机器人的量产工厂内,工作人员正在对组装好的“远征A2”号机器人进行全方位检查(蔡小川 摄)

  2025年3月7日,天空阴沉沉的,微微有风。下午4点来钟的时候,几个年轻的工程师推着一台机器人进了电梯。这台机器人跟一个成人差不多高,据说体重也差不多,它四肢健全,手上套了一双黑手套,是一旁的工作人员特地拿过来的;至于头,因为脸上罩着一块黑色的玻璃罩,看不出表情,所以显得呆呆的。它的躯干包着一层紫色的塑料外壳,胸前印着一个倒过来的白色感叹号。为了方便,我们就叫它“小紫”吧!

  “小紫”在电梯里是被吊着的——两根绳子从它肩膀两边的孔里穿过,把它吊在一个Y字形的铁架上,双脚稍稍离开地面。这样一来,在这个不大的电梯里,“小紫”就占据了一大半的空间,把我们七八个人都挤到了旁边的角落里。大家大眼瞪小眼,像是在押解一个即将要去受审的机器犯人,那场面看上去有点滑稽。

  “小紫”是有学名的,它叫“领航者2号NAVIAI”,是浙江省人形机器人创新中心(简称“浙江人形中心”)在2024年8月推出的一款人形机器人,身高165厘米,体重60公斤,全身共有41个自由度,能够和人对话,在不同路面上行走,还能搬东西、抓放物品等。自由度是机器人常见的术语,指的是它的各个关节可以在三维空间中独立移动的方向和角度的数量,自由度越高,机器人越灵活。“小紫”从电梯里出来,被大家推到园区外的马路上。很快,它就吸引了来往行人和车内乘客好奇的目光。

  “小紫”没有停下,它“走”了大概几百米,“等”了几个红绿灯,“穿”过一座桥,“过”了几道人行道,来到宁波火车站开阔的站前广场上。它从铁架上被缓缓放下来,双脚着地,被工程师们围着鼓捣了几分钟后,便开始咣当咣当地走起来。围着广场绕了一圈后,“小紫”的身后跟出了一大帮人,里面有拖行李箱的,有带娃的,有拿扫把的,有穿着保安制服的,还有双手插兜的。人群拉拉杂杂,嘻嘻哈哈,围着“小紫”在广场上移动,还争先恐后地掏出手机对着它拍摄,有些人自己看觉得不满足,还给亲朋好友打去视频电话;还有人模仿起“小紫”走路,样子惟妙惟肖。

  在2025年过去的短短三个月里,继在春晚舞台上扭秧歌、转手帕后,人形机器人又学会了前空翻、后空翻、侧空翻,以及扫堂腿、太极拳,甚至还骑上了自行车,跳起了周星驰经典电影《功夫》里斧头帮的舞蹈……在短视频的病毒式传播,以及真假难辨的AI生成视频助推之下,互联网空间里率先掀起了一场机器人狂热。宁波火车站前的这一幕,正是这种狂热在现实世界中的某种映射。

  过去一个多月的时间里,我们在北京、上海、杭州、深圳等地探访了不同机器人企业和机构,见证了这种狂热的持续蔓延。来自各行各业的参观团如潮水般涌入那些新搭建好的机器人展厅里,有些布置得尚显潦草,有些工作人员则显然是新招募来的,对流程还不甚熟悉,讲解起来也磕磕绊绊。那些摆在现场的机器人,则成了如今全世界最忙碌的机器人,客人一批接着一批,它们从早到晚,要不断重复相同的动作,比如走路、向观众招手、跟人握手、抓橙子、捡垃圾。有的机器人不堪其苦,关节发烫,或者直接“罢工”。在这个行业的从业者如今还遇到了一种困扰,当家里的亲戚听说他们在一家做机器人的公司工作时,总会来打听抖音上说的只卖9900元、可以给他们养老的机器人,到底是不是真的,能不能帮忙买一台。

  为人形机器人造势的不只是热情的公众。两三年前,资本界和产业界就已先知先觉,一大批人形机器人勇于探索商业模式的公司在2023年前后成立,并且迅速拿到巨额融资,开始招兵买马。政策层面也加快了布局。2023年10月,工信部印发《人形机器人创新发展指导意见》,文件中提出到2025年,人形机器人创新体系初步建立,整机产品达到国际领先水平,并实现批量生产;到2027年,技术创造新兴事物的能力明显提升,构建具有国际竞争力的产业生态,总实力达到世界先进水平。

  北京、上海、杭州、深圳几个城市是这一轮机器人产业浪潮的急先锋,都推出了一个比一个诱人的政策大礼包,包括设立百亿级产业高质量发展基金,给创业者提供低成本的场地、算力等资源,以及真金白银的创业和税收补贴。

  熊蓉就是在这一大背景下,带领团队从杭州到了宁波,在当地政府的推动下,于2023年底创立了浙江省人形机器人创新中心。当时,北京、上海等地相继创立了人形机器人创新中心,均以公司化的形式运作,旨在打造技术和产业创新平台,赋能整个行业,其目的都是给本地在新一轮产业竞争中争得一席之地。

  熊蓉是浙江大学控制科学与工程学院教授、机器人实验室主任,业内有名的机器人专家,也是开头出现的机器人“小紫”的创造者。她1972年出生于江苏省太仓市,从浙江大学研究生毕业后留校工作,2000年开始主攻机器人方向。浙江人形中心就坐落在宁波火车站附近的一栋大楼里。今年3月初,我在这里见到了熊蓉。她个子娇小,穿着毛衣和裙子,打扮、穿着朴素,做事情一丝不苟。她带着我从研发部门的工位中间穿过去,左手边的空地上摆放着不同的机器人,有的外壳还没装上,有的只做了上半身,还有几台被吊在一根滑轨上。她告诉我,这里现在有100多人的研发团队。

  熊蓉是国内最早一批做人形机器人的学者之一,过去20多年,她始终在跟这些塞满了电线、电路板和控制器的机械复合体打交道。她说起话来还是不急不躁,语气温柔。熊蓉说,这两年行业发展非常迅速,社会各个层面对机器人的关注都起来了,但其实大部分公司都还停留在打磨样机的阶段,机器人要变成一个真正的产品还需要一两年的时间,而要在关键创新技术上取得进一步突破,特别是让人工智能跟机器人真正融合,最终推动规模化应用,还需要更长的时间。“现在大家有很多的展示视频,实际上不少都是摆拍。机器人的通用性还不够,稳定性、可靠性,特别是长时间无故障运行的能力也要一直提升。”不过,熊蓉说,技术的进展正在加速,这一天可能会提早到来。她给我预留了一个小时的采访时间,但中途还是不断有电话打进来,这一个小时还没结束,她就因为另外的工作不得不离开。

  2021年8月19日,全球电动汽车巨头特斯拉公司首次对外公开了Optimus(代号“擎天柱”)人形机器人计划。一年后,2022年9月,特斯拉CEO马斯克在一场活动上正式对外发布了“擎天柱”机器人。当时的“擎天柱”是一台没有外壳的原型机,在舞台上走出来亮相时还显得步履蹒跚。马斯克在现场放了一段视频,展示了“擎天柱”在特斯拉的汽车工厂里搬运箱子、给植物浇水、抓取金属棒等画面。马斯克说,“擎天柱”正在快速进步,未来将会规模化生产,成本可以降至2万美元至3万美元之间。他预言道:“人形机器人将来可以照顾孩子、遛狗、修剪草坪、端咖啡,全球80亿人每个人都应该拥有一个。”

  造一台像人一样的机器,样子像人,动作、行为甚至思维也像人,这是人类一个古老的念头,也一直是个遥不可及的梦想。世界上第一台真正意义上的人形机器人是1973年诞生于日本早稻田大学的WABOT-1,它有双足、双臂,但非常简陋,功能很少。之后的几十年里,全世界各地推出了不同的人形机器人(那时候也称为仿人机器人、类人型机器人),在科学家和工程师们的努力下,它们开始学会用双足行走,做一些简单的抓取动作,甚至还能跟人聊上几句,不过离我们的生活都还很遥远。

  后来,从机器人学中衍生出各种专用机器人,它们不追求人的形貌和能力,而是聚焦不同的场景和需求,比如工业机器人,以及后来的扫地机器人、送餐机器人、医疗机器人等,更快获得了市场的认可。既然如此,为什么一定要执着于造出像人这样双足、双臂的机器人呢?

  对于这种执着,研究者们能给出一大堆理由。他们都以为,人形机器人是机器与人类社会融合的最大公约数——它能适应人类的各种生活环境,比如楼梯的高度、扶手的位置、门把手的位置、厨房操作台的高度等。能够正常的使用各种专为人类设计的工具(比如剪刀、扳手、键盘等),这就从另一方面代表着,它可以帮人类做更多我们不想做的事情。机器人的英文robot一词,最早的意思就是“苦力”。此外,拟人化的外形,也更加容易在情感上被我们接纳。但双足加双臂的结构,使得机器人本身就成为一个高度不稳定的系统。要让它像人一样协调地运动起来,这个最基本的挑战就把全世界的科学家难住了几十年。

  可是这两年,这样一些问题似乎很快就被克服了。许多成立不到一年的公司,就能造出一款能跑能跳的人形机器人。这种变化到底是怎么发生的?

  包括熊蓉在内的很多业内人士都提到,特斯拉2021年的入局是一个转折点。在这之前,这个行业正陷于悲观之中。即使是全球最有名的机器人公司波士顿动力(Boston Dynamics)推出的机器人已经实现了让人惊艳的运动能力,但还是因为没有办法真正落地实用,而公司几度易主——先是在2013年被Google收购,2017年又转到日本软银集团旗下,2020年12月12日韩国现代汽车集团成为新东家。但马斯克的预言,重新引起了产业界和资本界对人形机器人的兴趣。

  另一个转折点也紧接着到来。2022年12月,美国人工智能公司OpenAI推出了ChatGPT,标志着大模型技术的崛起。“大家意识到AI可以有效的进行自主交互,自主决策,甚至去理解这样一个世界了。”清流资本的投资总监茆雨豪在富士康做过工程师,后来转战投资界,早期关注的主要是工业机器人的项目。大模型的成功,让他们看到了机器人实现技术突破的可能性大幅度的提升。2023年,茆雨豪和团队重视人形机器人赛道的动态,他发现,一大批年轻的科学家、学者和大厂前高管开始涌进来创业。日后名声渐起的智元、众擎、银河通用、星动纪元等勇于探索商业模式的公司,几乎都诞生于2023年。那些早已入行,但聚焦其他形态的机器人的公司,比如在杭州做四足机器狗的宇树科技、云深处科技等公司此时也转入了人形机器人赛道。

  人工智能与人形机器人,很快被又一个新的技术浪潮统合到了一起——具身智能(Embodied Intelligence)。熊蓉告诉我:“过去机器人领域也用到了人工智能技术,但更多聚焦在感知层面,比如语音交互、自然语言理解、视觉识别等,随着新一轮AI的发展,感知智能渐趋成熟,开始往行为的层面去发展,就有了大家这两年都在谈论的具身智能。”

  具身智能,最通俗来理解就是有身体的智能,强调的是智能体身体与周围环境的交互,而不单单是大脑层面的功能。很多人工智能专家觉得,光有大脑的智能还不够,还需要有身体的智能,所以具身智能是通往AGI(Artificial General Intelligence,通用AI)的必由之路,而具身智能最佳的载体就是人形机器人。这让人形机器人的故事一下子变得更有想象力。

  赵明国是清华大学自动化系研究员、机器人控制实验室主任,从事机器人研究也有20多年。从他实验室走出来的学生,如今很多都活跃在这一领域,有的创立了自己的公司。2023年,赵明国也和一帮学生成立了一家叫作“加速进化”的机器人公司,很快就融到了上亿资金。在这一行干了这么久,赵明国告诉我,以前一个机器人团队出来创业,第一笔融资能拿个几百万块钱就不错了,他这一轮出来做人形机器人的,起步就是千万级。等到2024年,进来搞具身智能的,很多融资就是以亿元为单位,甚至是美元。他开玩笑道:“我们以前学计算机或者学机械,各专业之间有鄙视链,现在创业也有鄙视链,差别还挺大。”

  有意思的是,这几年很多公司造出的人形机器人都是被搞AI的人买过去当作研究平台,这直接给这个行业注入了一波需求。“如果光靠我们这些原来搞传统机器人学的人,这样的领域不见得有这么大的声量。”赵明国坦率地说。

  具身智能当然不只是给机器人带来了声量,它更意味着一种方法论上的转变。熊蓉向我解释道,机器人研究的传统范式是通过对机器人的运动机理进行建模,然后寻找合适的数学方法去求最优解。“这种方式非常依赖于人类专家的知识和经验,以及他对这样的一个问题的理解,存在一定的局限性。如果任务是在这个模型定义的范畴里,它是能够实现的,一旦超出范围,就会出问题。”这就导致传统的机器人对环境变化的适应能力很差,只能按照预设的程序和指令完成特定的任务——用眼下时髦的话来说,就是泛化能力不够,不能举一反三。

  “我们现在多了一条路,是通过大规模数据采集、训练,让机器人学会隐性知识。传统的专家模型是一种显性的表示,就像我们现在说话一样,也都是显性的表示,但是我们的行为里面很多都是隐性的知识。”要向一个外行解释这种研究范式的转变并不轻松,熊蓉环顾了一下会议室的桌面,伸手拿起一个纸杯解释道,“比如我要去拿这个,我抓哪里,用多少力气,我都没有一个明确的表达,完全是自己根据感知去生成的行为。传统的方法是,我要去拿这个杯子,要先做一个检测,看前面有没有一个杯子,然后看杯子的位置在哪里,最后根据你要放的位置,去规划应该抓哪里,用多大的力去抓,每个关节怎么动。这整个过程分成不同的模块,模块之间信息的传递是要有确定的值输出,然后才能进入下一步。现在这些就都不需要了,对物置、姿态的检测,轨迹的规划等等,这些都在神经网络的内部完成,就变成了一种隐性的表征。”

  熊蓉说:“具身智能一旦成熟的话,对社会变革的影响深远,所以大家都想尽早地投入进来,而不是像大模型一样,等哪一家出来了,大家再去跟进。”

  熊蓉在浙江大学本来是学计算机专业的,跟机电不搭边,1997年毕业后,她进入浙江大学工业控制所做实验员。人形机器人的原始理论虽然起源于美国,但从20世纪80年代开始,日本在这样的领域加大投入,开始占据主导权,东京的大学和企业开发了一系列技术领先的机器人。2000年11月,日本本田公司正式推出人形机器人阿西莫(Asimo),这是全球最早具备双足行走能力的机器人,在人形机器人史上具有里程碑的意义,引发了全世界科研界的模仿和跟踪。也是在这一年,熊蓉在实验室领导的支持下,开始转向机器人方向。

  熊蓉之前没怎么接触过硬件,做机器人首先给她带来的挑战,就是要了解机电和底层控制的内容。她当时决定从做足球机器人着手,当时正好也有这样的比赛平台,可以让她快速学习机器人软硬件的体系。熊蓉最早做的是小轮车,当时她从东北大学买了几辆小车来改装,结果发现怎么也控制不好,“走不直”。她只好自己重新来设计。“我们当时做的车很小,只有7.5×7.5×7.5厘米,上面要装电池、装电路板,还要装轮子,有的东西能直接买到,有的零部件,比如齿轮,不仅小,精度要求还高,就只能去厂里找师傅帮忙做。”小车做出来了,参加了一些比赛,一两年后,熊蓉带着小车去参加了国际顶尖赛事机器人世界杯(RoboCup)。

  创办于1997年的RoboCup当时代表了全球机器人研究和开发的最高水准,各个组别的冠军都常年被欧美和日本的高校垄断。中国科学技术大学(简称“中科大”)计算机科学与技术学院教授、机器人技术标准创新基地主任陈小平,曾连续担任了十几年的RoboCup中国委员会主席。他告诉我,RoboCup的思路是通过构建典型场景来推动机器人技术的发展,最早被构建的场景就是踢足球。当时专家们还设定了一个最终目标:到2050年,由机器人组成的足球队,要自主战胜人类组成的世界冠军队。“若机器人踢足球比人厉害了,那它的能力就可以做很多其他事情了。”

  陈小平最早是研究人工智能的,后来转向机器人。1999年,他第一次组队参加RoboCup比赛,当时除了中科大,还有一支来自清华大学的队伍。到2006年,陈小平担任RoboCup中国委员会主席,在苏州组织了一届RoboCup中国公开赛,邀请了国外的几支冠军队伍。那时候国内来参加的队伍已经增加到几十支,有做人形的,也有做四足的,来自全国几十所高校。2008年,在苏州举行的RoboCup中国公开赛正赛上,国外来参加的队伍人数有2000多人,国内则有近200人。RoboCup当时为中国机器人领域培养了一大批人才,如今的很多从业者,当年在学校都有组队参赛的经历。陈小平说,RoboCup每年一届,而且几乎年年都会修改比赛规则,提高赛事难度,希望以此将全世界最优秀的机器人研发队伍集中来进行技术攻关。除了足球赛事,后来又扩展了家庭服务、特殊救援等场景。

  熊蓉第一年去参加RoboCup时,她的机器人只进了一个球。不过,她还是很兴奋,满场跑,去看别的队伍做出来的机器人。做了轮式机器人后,熊蓉向学生们宣布:“我们要做人形机器人,先做60厘米的,然后做1.6米的,要每小时能走3公里的。”学生们以为她在讲笑话,因为当时研发人形机器人确实太难了。然而,花了半年时间,熊蓉就带着大家把人形机器人搭起来了。到2013年,熊蓉的机器人足球队开始连续三年在RoboCup大赛中夺冠,他们击败的是全球计算机专业最顶尖学府卡耐基梅隆大学。那几年,除了参加比赛,熊蓉的团队还开发出了世界上第一个能打乒乓球的机器人,他们还给2010年的上海世博会开发过一款叫作“海宝”的智能服务机器人,当时很多外国媒体都找过来报道。

  传统机器人研究过去在国内其实是个很小的圈子,局限在几个以工科见长的学校里,几个有名的团队经常会在RoboCup这样的赛事中碰到,一起切磋比武。但那时候,大家的技术路线非常分散,招式也千奇百怪。

  赵明国从哈尔滨工业大学博士毕业后,2003年加入清华大学,专注机器人步态控制与运动研究。2004年,他组建了清华大学的机器人足球队火神队,也开始参加RoboCup。2008年,火神队赢得了RoboCup人形组TeenSize的亚军,这是当时中国队伍取得的最好成绩。火神队的机器人采用了一种被动行走的技术。赵明国在一篇文章中谈道:“很多医学科学家在分析了人的步态后发现,所记录的行走轨迹像一团乱麻,是周期性但不是重复的,起初以为是噪声或者步态不均匀导致的结果,最后发现其实人走路是混沌的步态。”国外的学者受此启发提出了被动行走的理论,赵明国则在此基础上研发了用在双足机器人上的被动行走技术。和传统的主动控制相比,采用被动行走技术的机器人不需要提前去规划行走的轨迹和动作,走起路来更高效、稳定,步态也更接近人。

  不过,这并未完美解决机器人行走这道难题。双足行走是一个高度不稳定的动态系统,我们人走路的时候,大多数时间都是单脚支撑,脚和地面接触的空间和时间都非常有限,而且这样的一个过程还会涉及重力、地面反作用力、惯性力等各种物理因素,所以实现稳定的控制很难。在遇到复杂的地形或路况时,比如崎岖不平的路面、沙地、松软的地毯或者斜坡,行走这件事情的难度又会无限上升。所以用传统控制的理论,无论是主动还是被动,都很难从根本上解决问题。

  在学校里,机器人研究的路一度越走越窄。“同样智力和能力的团队,做其他领域可以更容易获得很好的成果,但是做机器人就不容易,有大量的枯燥、乏味的工作要做,要动那么多硬件,周期也长。很多聪明的人不愿意做,这跟最近几年的情况很不一样。”赵明国笑道,“我们这二三十年也谈不上坚持,就是没别的能干,可能我人也不那么聪明,聪明人早走了。”赵明国剃着平头,额宽脸阔,他坐在清华大学主楼的一间办公室里,指着办公桌对面的一张小沙发笑谈道:“10多年前,就在这张沙发上,有个老师还劝我去干点别的。”

  巧合的是,熊蓉也曾一度被劝退过。有一次她去新加坡开学术会议,她的老师就劝她不要再做人形机器人了。那几年,正是波士顿动力强势崛起的时候。这家最早是给美国军方开发四足机器狗的公司,2013年发布了第一代人形机器人Atlas,几年时间里,其能力快速进步,不仅能轻快地走路、小跑,还可以在野外自主避障,摔倒了也能自主爬起来。

  波士顿动力的崛起,对学术界的影响是双重的,大家既看到了技术突破的希望,也慢慢变得感到面前多了一座难以逾越的大山。“你再怎么做可能也做不过他们,造不出他那种能力的机器人,那你的很多研究也很难去开展了。”熊蓉说,当时很多研究者就转向了别的领域,比如当时兴起的建筑机器人、医疗机器人。“我们团队还是比较执拗,坚持下来。但后来也会看到,因为缺少工程人员,做算法研究的同学很痛苦,因为他们除了做算法研究,还要去检修机器人,解决硬件上的问题。”2016年,熊蓉利用在机器人领域积累的技术,创办了一家叫迦智科技的公司,主要生产智能移动作业机器人,做到了行业头部。

  赵明国说,早年的机器人研究作为前沿技术获得了国家科技项目经费的支持,这给很多学者的科研提供了支撑,后来,眼看出不来成果,很多项目都停掉了。2014年,赵明国与创立于2012年的机器人公司深圳优必选科技有限公司(简称“优必选”)达成合作。两年后,优必选成立了北京研究院,赵明国担任院长。当时在他手下聚拢了一帮年轻的中坚力量,包括他的学生和火神队的老队员,这些人不少都在日后成为时代弄潮儿。2017年,优必选的人形机器人项目立项,取名为“Walker”(中文意思为步行者)。2018年,优必选在CES(国际消费类电子产品展览会)上正式对外发布第一代大型双足仿人服务机器人Walker,但它并没有最终实现商业化。

  在几次迭代后,2018年,日本本田公司宣布停止对阿西莫机器人的开发,日本在人形机器人领域的线年,赵明国与优必选的合作也告终,直到两年后,新的叙事开启。

  2025年3月20日下午4点,北京东南部的亦庄机器人产业园内,一台机器人正在一楼的展厅里演示一段复杂地形的移动,它的前方依次是跑步机、斜坡、草坪、石子路、沙地和沙袋堆成的路面。这台机器人四肢是黑色的,身躯是灰色的,后背上连着一根绳子。它叫“天工”,是北京人形机器人创新中心有限公司(简称“北创”)2024年推出的一个全尺寸人形机器人,据说它能以6公里/小时的速度稳定奔跑。随着“天工”踏上跑步机,传送带慢慢开始提速,它的步子也开始加快,咚咚咚地跑了起来。

  在旁边的展位上,另一台机器人正在把桌面上堆放的苹果和橙子分别放进红色和橙色的盘子里;还有一台机器人在进行桌面清理,虽然受到工作人员的不停干扰,依然成功地将纸杯、纸团夹起来,扔进了垃圾桶。据工作人员介绍,这些抓取任务的背后,用到了北创开发的通用具身智能平台“慧思开物”,它为机器人提供了感知、决策与执行能力。创立于2023年11月的北创,股东包括北京京城机电产业投资有限责任公司、北京小米机器人技术有限公司、北京优必选智能机器人有限公司、北京亦庄机器人科技产业发展有限公司。

  “从生物进化的角度来看,机器人现在可能相当于刚刚从树上下来,学会了直立行走,这是第一步。但直立行走还不是人类最独特的能力,黑猩猩也能做到,人类进一步进化的结果是学会了使用工具,后来还会制造工具,从而变成智慧物种。”优必选首席品牌官谭旻认为,未来两三年,机器人行业竞争的焦点是在上半身,而不是在下半身。

  熊蓉也告诉我,现阶段,机器人的移动控制已经做得比较好了,从产业化的角度来看,双臂和手的协同作业能力会更重要。“就像我们人一样,很多作业其实你是坐着完成的。若需要移动的话,很多场景用轮式机器人也能做,除非你是要从室内到室外,还涉及不同的地形、路况,才需要两条腿去适应。所以从近期来看,最重要的能力还是操作(manipulation)。原来操作通常都是单臂的,现在的机器人都是双臂,末端还有灵巧手协同,要学会抓取各种物品、使用不相同的工具,这个要求非常高。”她的机器人“领航者”有个特点是上半身比较重,尤其是手臂,一只就有6公斤,负载能力在4~5公斤,而上半身越重,平稳行走的难度就越大。

  陈小平团队最有名的作品是2011年推出的一款家庭服务机器人,他们给它取名为“可佳”。“可佳”身高1.64米,拥有一张典雅端庄的中国女性面孔和一头过肩长发。“可佳”当时可以有效的进行简单的人机对话,并且给人端茶送水、用微波炉加热食品等。这得益于其身上集成的环境建模、自主导航避障以及自动规划推理等技术。2013年,“可佳”成为国内第一个拿到RoboCup家庭组世界冠军的机器人。

  在研发“可佳”的时候,陈小平也发现,机器人要真正在家庭里服务人类,一大卡点就是操作能力不够。“当时我们用了一个机器手爪的末端装置,结构很简单,就是两根金属杆,相当于一个夹子,家里大部分东西都抓不了。”陈小平说,传统的抓取方法,是要把一个物体看得很清楚,然后做3D建模,进行复杂的计算,比如一只五指的手,你可能就要找五个点,把轨迹都算出来,但最后还是有可能抓取失败。这种方法要应付复杂的家庭或者工业场景都非常不现实。

  而且在抓取动作里,还有让人棘手的扰动问题。“比如机器人做抓取的时候,有些因素你测不准,或者是想把它测准的成本极其高,而且测的时候总有些偏差,这种偏差也没什么规律。有时候我们大家可以搞清楚一部分,还有很多你会觉得莫名其妙,没办法想象。”陈小平说道。最后的结果就是机器人的泛化能力很差,学会了抓一个东西,但光线、材料一变就又不会了。业内公认最难克服的是柔性物体的操作,比如叠衣服。熊蓉的博士生、如今在浙江人形中心工作的周忠祥就告诉我,操作柔性物体有几个难点,其中一个就是对物体的力觉感知和形状感知很难,因为柔性物体维度无限,可任意变形,没办法对它准确地进行建模,也很难预测它的状态。

  机器人领域还有个著名的“莫拉维克悖论”:对人类越困难的事情,对机器越简单;对人类越简单的事情,可能对机器越复杂。比如,AlphaGo击败围棋冠军只用了几年的时间研发,而让机器人从桌上抓起一枚棋子却需数十年技术积累。人类的感知、运动等能力经过了数亿年的进化沉淀,要通过机器和算法还原出来,并不容易。

  2023年12月在深圳创立的自变量机器人(简称“自变量”)是一家专门研发通用具身大模型的勇于探索商业模式的公司。2024年10月,他们发布了第一支演示视频,是两个机械臂在自主完成拉拉链的动作,视频只有半分钟,拍得很简单。但这个操作引起了光速光合的合伙人朱嘉的兴趣。他有7年的硬科技从业经验和12年的科技投资经验,2024年也投资了宇树科技。朱嘉带着从公司附近超市购买的各种瓶瓶罐罐测试自变量机器人的泛化能力,效果让他觉得惊艳,于是很快就和自变量创始人王潜完成了投资协议的签署。

  拉拉链这一个动作为什么不好做?王潜是这样解释的:“拉链是一个刚性与柔性耦合的物体,和纯粹柔性的衣服还不一样,如果操作不好,它非常容易就卡住。你如果留意的话就能够正常的看到,我们最早放的视频里,机械手有一个拿起拉链插头又放下的细节,因为它发现角度反了,放不进去——这样的一个过程就需要机器自主推理的能力。等它把拉链插头重新去后,还要解决摩擦的问题,要判断往哪个方向用力,用多大的力。”

  王潜毕业于清华大学,在美国从事了多年机器人与大模型的研究。用大模型来解决机器人的“大脑”(承担复杂任务规划、环境感知和决策制定)和“小脑”(运动控制)的问题已成为行业主流技术路线年,他回国创办自变量,和当时很多人的思路不一样,他提出要打造一个把“大脑”和“小脑”功能统合到一起的统一具身智能大模型,他称之为通才模型。

  经典的机器人学把机器人系统分为感知、决策、控制、执行四个模块,大模型技术兴起后,这种模块化的架构逐渐被放弃,取而代之的是“端到端”(end to end)的架构。简单来说,就是只管输入和输出两头,而且只用输入原始的数据,不需要对数据进行分割,中间怎么运算则交给算法来完成,最终机器会从海量的数据中识别出规律和特征,从而得到正确的输出结果。“端到端”最经典的案例就是特斯拉推出的自动驾驶方案FSD(Full Self-Driving,全自动驾驶),这种方案抛弃了传统的依赖激光雷达和高精地图的自动驾驶模式,不需要再按照感知、规划等模块来进行计算,而采用纯视觉主导,让机器直接跟人类老司机学习,相当于看视频就可以自学成才,知道怎么识别路况,什么时候该减速、转弯。FSD的成功,也让很多人看到了“端到端”在具身智能领域的潜力。不过,从2016年就开始研究“端到端”架构的王潜认为,本质上是技术逻辑决定了“端到端”是唯一的道路。

  “手的操作涉及的物理交互过程极度复杂,远远超过了所有其他任务,也超过了所有人对这件事情的想象和认知。”王潜告诉我,“你可以试着用一个手指在桌面、墙面或者电脑屏幕上往前搓,你会发现手指的感觉是完全不一样的。有的时候它是非常平滑地往前移动,有时候会一顿一顿的,有的时候会突然往前滑一下。这个物理过程,我们很难去建模,很难去预测。不像行走,你要处理的主要就是引力——而引力相对来说是一个持续的、确定的东西。”

  王潜说,最简单的用手去抓一个杯子,整个行业做了几十年,到2018年前后,才比较好地解决。而抓瓶子、杯子仍然是一种刚性操作,要迭代到对柔性物体,甚至弹性物体的操作,难度又呈指数级上升。“如果采用传统的模块化的、分层的网络来做,你在前面的分层中犯下的任何一个小的错误、小的偏差,由于中间这个极度复杂的过程存在,到后面都有可能变成一个很大的错误,导致操作失败。如果你不去做‘端到端’,这种问题你是解决不了的。因为你已经把前面那一层的错误降到1%了,你再往下降是非常困难,几乎不可能的一件事。”

  赵明国虽然是做传统机器人研究出身,这几年也开始转向人工智能的范式。“以前我们是把一个物体抽象成不同的概念,比如一个立方体,它的强度是多少,刚度是多少,硬度是多少,把这些都测出来,才能够去分析判断。”赵明国说,“其实我们人脑是怎么把这些东西抽象成具体的、我们可以理解的概念,到现在也没解析明白。现在大模型用数据驱动的方法是把对世界的客观认识都放在数据里面,认为数据里隐藏着我们对世界的理解,这条路或许是可以走通的。”

  数据之战:“真机派”VS“仿线月下旬一个寻常的工作日,我们从北京前往上海,造访了位于浦东张江科学城的一处厂房,这里占地2000多平方米,放眼望去,上百台轮式机器人正在不同的工作岗位上作业,有的正在捡地上的垃圾,有的正把瓶子里的红酒倒进高脚杯里,还有的在学插花和做三明治。这是上海智元新创技术有限公司(简称“智元”)的数据采集工厂,也是国内目前最大的数据采集厂之一,一共部署了100多台轮式双臂机器人,现场从研发工程师、数据审核员到操作员、实习生,每天有200多人在这里教机器人完成各种操作任务。工厂搭建了专门的超市、奶茶店、厨房、客厅、卧室等商业和家居场景,机器人们在里面忙着叠衣服、铲猫屎、擦油烟机。此外,还建有工业流水线,机器人在上面练习物品分拣、汽车仪表盘和底盘装配。转到一个角落里,我们还能看到一张乒乓球桌,一个年轻人穿着动作捕捉设备,站在一台机器人侧后方,正在控制它和对面的人打乒乓球。

  现场的操作员很多是职校学生,男女都有,经过一两个月的培训后进入不同的岗位,有的戴着VR眼镜,手拿控制器,有的负责给机器人递东西或者施加干扰。一名操作员告诉我,他们的工作时间从早上9点到晚上9点,一台机器人平均一天可以采集到上百条数据。这些数据包括视觉的、声音的,还有机器人本体状态的数据,比如各个关节的角度、力矩等,都显示在机器人背后的一块小屏幕上。每隔两三天,他们就会换一个操作任务。现场采集到的数据会被送往身后的审核小组,不合格的数据在这里会被清洗掉。

  缺乏数据是目前机器人训练遇到的难题,通过“遥操”的方式得到真机数据是目前主要的数据来源之一(蔡小川 摄)

  过去两年,“端到端”在具身智能领域成为主流的技术框架,“端到端”的本质是数据驱动,所以,数据也就成为机器人技术突破的关键。互联网发展的这些年积累了海量的语言、图片、视觉等数据,所以ChatGPT这样的大模型在预训练阶段可以利用的数据资源非常丰富,但具身智能是个完全不同的领域,它所需要的物理世界数据现实中少得可怜。

  于是,围绕到底需要什么样的数据,多大规模的数据,怎么获取这些数据,整个行业分成了不同的流派。其中声量最大的两个我们可以称之为“真机派”和“仿真派”——前者认为真机数据最重要,最可依靠,后者则认为仿真数据是解决问题的核心。真机数据通常是人类操作员通过遥控或辅助机器人进行任务操作而采集到的数据,所以也被称为“遥操”数据;仿真数据则是在计算机模型中模拟真实场景,进行虚拟训练,最终得到的数据。当然,还有很多属于中间派,他们相信“真机+仿真”才是正道,甚至提出了精确的比例配方。而即使是同一个门派,打法也可能不一样。比如“真机派”,像特斯拉这样的企业,家大业大,直接造出一大批机器人进自家工厂打工,在真实生产环境中采集数据;还有的像智元这样资金充裕的创业公司,选择自建数据采集场,让机器人到自办的“学校”来学习。“仿真派”则对这些做法都看不太上,觉得费时费力,效果也未必好,他们相信对算法和模型做更好的优化,利用仿真器合成的数据就可以有效地解决机器人的训练问题。

  姚卯青是智元机器人合伙人、Genie业务部总裁、具身研究院执行院长,是他负责搭建了智元的数据采集工厂。我们在厂里见到了他,穿着轻便的西装,看上去很年轻,不过模样有些憔悴。姚卯青显然是更加重视真机数据,“仿真数据肯定是有价值的,比如它可以帮助提升模型的泛化性,但仿真不是什么任务都能做,很多操作靠仿真是很难去模拟的”。他告诉我,智元的具身智能模型是以真机数据作为训练基础的。

  前不久,他们还开源了一个包含100万条轨迹的数据集AgiBot World,这是全球目前最大的具身智能开源数据集。这些数据是智元的数据采集中心花了两个多月采集到的。据他介绍,英伟达前不久在GTC(GPU 技术大会)上发布的GROOT N1机器人模型,80%的真机数据来源于智元开源的这个数据集。

  姚卯青告诉我,他们之所以选择把这些数据开源出来,有几点考虑。一是觉得现在处于行业早期,全球很多有创新能力的团队被数据给限制住了,像谷歌的Deep Mind团队,能做出全世界一流的大模型,但其实他们也缺数据,如果机器人的智能化没办法被突破,整个行业都会被限制住,所以智元觉得应该利用所有人的智慧去把这个事情往前推。二是,作为一家机器人公司,数据、模型和硬件要形成一个良好的生态,“如果大家都来用我们开源的数据,最终其实也是帮我们的机器人做推广,因为数据里面都是带着机器人信息的,这样也能扩大我们的朋友圈”。

  上海智元机器人的量产工厂内,装配产线车间的工作人员正在忙碌(蔡小川 摄)

  熊蓉的团队既用到了仿真数据,也在采集真机数据。她的感受是,通过“遥操”采集的真机数据现在还不太好用,“10次操作里面可能5次的数据都不好”。熊蓉分析称,第一,目前机器人的执行响应还有明显的延迟,特斯拉已经做到了80毫秒,但国内的机器人一般都在100多毫秒;第二,对操作人员的经验要求比较高;第三,操作的人与机器人现在不是共视野的,相当于操作的人往往是在旁边看,这跟我们去抓东西的直觉反应是不一样的。所以,遥操产生的数据质量不好,需要进行大量的清洗、调整和优化,成本很高,特斯拉有一个几百人的团队在做,别的团队很难模仿。

  另一家在业内小有名气的创业公司银河通用是“仿真派”的代表。这家公司创立于2023年,2024年曾以7亿元天使轮融资创行业纪录,其创始人是北京大学前沿计算研究中心(CFCS)的助理教授和博士生导师王鹤,他出生于1992年。王鹤曾在接受媒体采访时,明确表示不认同特斯拉的遥操方案,认为其成本高、效率低,而通过合成数据训练模型,再迁移到真实场景,降低成本并加速迭代,是更为可行的办法。王鹤觉得,在真实世界里很难获得十亿量级的数据,这是训练一个具身智能大模型所需要的数据量级,而对于大家诟病的仿真数据的局限性,比如对摩擦过程、柔性物体的形变过程很难精确模拟,他认为,完全可以通过加强算法的自适应能力,把这些问题规避掉。

  百家争鸣,对行业并非坏事,因为没人能完全预测技术演进的路径,而且不同的技术路线可能是殊途同归。姚卯青承认,现在基座模型的训练也才刚刚起步,真正要像大语言模型那样实现涌现能力还需要成百上千倍的数据量。但他觉得,花些钱能把这件事情搞定,完全值得。接下来智元的数采工厂还会扩大规模。他的预测是,一两年时间里,他们采集的数据就能够完成基座模型的基础训练,这之后,针对专门的场景和任务,机器人只需要再进行小样本的数据训练就可以胜任各种工作。

  姚卯青毕业于清华大学电子工程系,最早是做自动驾驶出身的,在美国的智驾公司Waymo待过,后来回国加入了蔚来汽车。这一轮创业浪潮中,除了从高校和大厂出来的“学院派”和“大厂派”,还有一批人就是来自自动驾驶领域。“做自动驾驶和机器人是不同的两件事。从硬件来说,汽车是在一个2D平面上去行驶,驾驶的自由度也比较低,就是旋转方向盘和前进、后退(油门、刹车)。机器人有双臂、双腿和头部,全身有30多个自由度,复杂得多,所以逻辑很不一样。”但姚卯青认为,做自动驾驶的人转行做机器人,优势在于他们有很系统的工程经验。毕竟自动驾驶技术已经用在了乘用汽车上,而汽车行业又是一个标准十分严苛的行业。

  针对大家谈到的数据质量问题,姚卯青认为也需要用工程化的方式去解决。他认为好的数据有三个标准:一个是数据格式的统一;一个是质量上的统一,比如今天大部分机器人相机录下来的数据都是不合格的,帧率不够,掉帧严重;还有一种是规范上的标准,操作员完成的动作是不是规范的。“遥控机器人的时候,整个轨迹是不是拟人的,还有采集过程中,传感器的输入是不是符合因果性的,不能说我在桌面上做一件事情,但机器人的头其实看着另外的地方。”这其中的关键是“数据的质量决定了模型的上限。数据如果不好,机器人肯定也是训练不好的”。

  从智元的数据采集工厂驱车继续往东南,到上海临港与奉贤区的交界处,靠近海边的地方,周围分布着工厂、村庄和农田。智元的机器人工厂就藏身于其中的一处工业园内。这里是目前国内最大的人形机器人量产工厂——在今年1月,智元第1000台“远征A2”机器人从工厂下线。于忠祥是工厂的生产经理,他在智能制造行业有多年的从业经历,先是在外企,后来到民企,一年前跨入人形机器人这个全新的行业。于忠祥所在的团队花了大几个月的时间,把工厂的产线搭了起来,开始投入生产。

  与我们想象的不同,人形机器人现在的生产场面还比较简单,甚至没有那么智能化,很多依然靠手工完成。智元工厂的车间分为两层,一楼是组装,工人们分成关节电机、手臂模组、腿部模组等不同生产线,把不同的材料和设备装到这些模组里,拼装起来,然后送往二楼测试。在二楼,我们看到了上百台已经成形的机器人,有的已经装好了外壳,准备打包;有的还着电线,要迎接包括行走能力、自主避障等在内的各种测试。于忠祥一边带我们参观产线,一边介绍到,现在他们的生产团队有一两百人,每个月的产能可以做到几百台。在里面工作的工人都是年轻面孔,很多都是“00后”,不像其他流水线上的工人那样紧张,这里的年轻人手里拿着遥控设备,像在玩游戏。于忠祥介绍,这些工人一部分是大专和本科的毕业生,另一部分是其他行业的产业工人转过来的。机器人仍然是一个还没定型的产品,于忠祥说,产线要随着产品和技术的迭代升级不断做调整。不过,他们的终极理想是用机器人来生产机器人。

  今年年初,全球著名投行摩根士丹利发布了一份报告《人形机器人100:绘制人形机器人价值链图谱》,按照“大脑”(半导体/软件)、“身体”(工业组件)、“集成商”(整机制造)三个维度,罗列出全球人形机器人上市公司百强名单。报告显示,已经确定参与人形机器人产业的公司中,亚洲占据73%,中国占56%;还有77%的集成商来自亚洲,以及45%来自中国。过去五年中,中国以5688项人形机器人专利申请数,牢牢占据第一宝座,超过排在后面的美国(1483项)和日本(1195项)。在全球人形机器人赛道上,中国与美国慢慢的变成了两个最主要的角力场。

  光速光合的合伙人朱嘉说,美国在具身智能这一块的研究起步很早,研究水平也很高,但美国缺少像中国这样完整的、快速响应的供应链。2024年,他主导投资了宇树科技。他认为,科技型公司的发展分为几个阶段,初期是靠好的产品和技术,中期要有一定的市场销售能力,要在商业上能够形成循环,再往后期,供应链会成为非常重要的核心竞争力。“宇树科技当时在这三个方面都已经做得相当不错了,特别是在供应链方面,往往初创公司不太容易在早期就打造出一个非常强的供应链,但宇树科技经过过去这些年在四足机器人领域打造出来的供应链,使得他们做人形机器人的时候具备了压倒性的优势。美国现在很多做具身智能的公司,通过买宇树科技的机器人做研发。”

  2023年,在美国生活多年后,王潜选择回国创业,在深圳创立了自变量。除了考虑到国内供应链在成本、速度方面的优势,王潜还提到了自己的一些切身体会。“在美国机器人的零件坏了要修,至少需要两到三周。在国内,可能是两到三天,甚至更短。机器人毕竟是个软硬一体的东西,供应链的速度其实也决定了大家能跑得有多快。”王潜说,国内还有个比较优势,就是数据采集的成本更低,他们算过美国和中国的数据成本现在差不多是10∶1。

  另一个促使王潜回来的因素就是人才。“在美国,你很难找到非常高水平的硬件人才,因为大部分硬件人才都在大公司里,大家很少往外跑,这是中国和美国的生态很不一样的地方。比如说在深圳,就有很多小公司也能给出不错的待遇,有些优秀的人在大厂待久了,乐意出来做一些有意思的事情。”王潜说,自变量除了专注模型的开发,现在也在做本体,只是没有选择双足机器人,而是做轮式。他认为,未来对外去出售机器人是更加可行的商业路径。“要是在美国,你可能做不了硬件,但在中国不去干这事就实在是太亏了,你想,一个轮式底盘加双臂机器人有多难做吗?”

  2024年,清流资本的投资总监茆雨豪推动了对星动纪元的投资。这家公司是清华大学交叉信息研究院助理教授陈建宇创立的,他曾在加州大学伯克利分校攻读博士学位,师从美国工程院院士、机电控制先驱富塚诚义(Masayoshi Tomizuka)教授。“今天你去看美国的高校、各大实验室,你会发现在里面做科研的、发论文的很多都是华人,他们大多毕业于清华大学、北京大学、浙江大学等国内顶尖学府。”茆雨豪说,这些人才的涌现,是这几年人形机器人蓬勃起来的一个源泉。

  四年前,当科技狂人马斯克放言,未来量产的人形机器人价格会下降到2万到3万美元——相当于一台普通家用小轿车时,很多媒体跑来问优必选:“这个价格是否现实?你们做不做得到?”谭旻告诉我,当时他们拉着产业链的上下游讨论了一下,结果是做不到,而且以当时的条件,即便是特斯拉也不具备量产的能力。那是2021年,ChatGPT还没横空出世,深圳市人工智能产业协会还只有两三百家会员企业,而现在已经突破了1000家。

  赵明国说,以前在学校搞研发,头疼的问题也是机器人太贵。“前些年,一个大点的人形机器人至少卖你个两三百万元,一个减速器要一万多元,一个电机一万多元,驱动器也要一万多元,再加上传感器、电控、电池,光硬件成本就不菲了,而且全世界在干这件事的就那么几家公司,你没得选。”赵明国继续道,“特斯拉入局就不一样了,他们是以大工业的方式去做,把原来车厂的供应商也带了进来。人形机器人很多零部件的生产能力其实在汽车、工业机器人等其他行业已经具备了。比如电机,电动汽车行业过去这些年就做得很成熟了,性能提升了很多,只是它做的不是这种小的电机。如果这些公司觉得人形机器人有市场,要进来做,一定比你自己做要好。问题是需求在哪里,市场有多大,账算不算得过来?”

  尽管人形机器人的技术路线年定为“人形机器人量产元年”。特斯拉称,“擎天柱”计划在2025年启动小批量生产,目标年内生产1万台,2026年对外销售。优必选推出的Walker S人形机器人也说已收到车企超500台意向订单,他们正在北京和无锡自建工厂,即将开始试产,到今年年底要形成1万台左右的量产能力。还有更多企业也开始建设机器人工厂,布局规模化生产能力。

  但实际产出的机器人到底卖给谁了?这个答案有点出人意料——最大的买家其实是科研教育机构,其次可能是表演娱乐和商业互动场景。赵明国和学生创立的加速进化公司就是聚焦教育科研场景,专为开发者打造机器人。赵明国告诉我,2024年全国的人形机器人市场加起来,也就1000台左右的规模,匀到每家生产公司,量就更小了。智元已经出货了上千台人形机器人,姚卯青介绍说,他们的客户一部分是教育科研领域的,一部分是交互服务类的,还有些早期的工厂和商业场景在开发。宇树科技卖给科研机构的机器人,一台定价是19.9万元,而面向消费级市场的Unitree G1人形机器人在京东的售价为9.9万元,Unitree H1人形机器人售价为65万元。这些产品上市第一天就售罄了,背后的原因可能还是量少,连娱乐演出市场的需求都难以满足。

  人形机器人先在工业或商业场景下小范围落地,等规模上来了,再往家庭、医院、养老等场景推广,这是很多人看好的一条落地路径。优必选近两年就送了一批机器人进工厂。谭旻说,他们已经和奥迪一汽、东风柳汽、吉利汽车、比亚迪等多家汽车厂商达成了合作。前不久,优必选的Walker S机器人在极氪的5G智慧工厂里拧螺丝,一起搬东西,还能互相充电。这个视频出来后,引起了新一波关注。谭旻认为,汽车工厂是机器人实训的最佳场景,因为它们的智能化通常接近70%~80%,甚至更高,这意味着生产全流程可采集与连接的数据非常丰富。

  对于制造业企业来说,短期来看,这种投入和产出比的账还算不出来。但在优必选位于深圳南山的办公室里,谭旻坚定不移地说,人形机器人可能是未来颠覆全球产业竞争格局的关键力量。“我认为人形机器人商用、家用的迫切性都没有工厂这么强。家里没有机器人也照样生活,明年后年有没有都无所谓,不会对你生活质量有太大的影响,但是中国制造如果在这场竞争中落后太多,可能就会陷入危机。美国有可能通过人形机器人重塑他们的制造业。”他进一步解释道,制造业有两个核心的问题,一个是人力成本,另一个是工人的技能积累。近些年,中国制造业的人力成本快速上升,但很多工厂迁移到别的地方就不行了,因为他们缺少熟练的技能工人,机器人的出现有可能让这种优势被抹平。

  从2012年至今,陈小平团队一共调研了10多个制造业行业,包括3C(电脑、通信和消费电子)、家电、家具、商业物流、食品制造等。他们的判断是,在生产制造环节,能用工业机器人解决的大问题基本都解决完了,但是仍然有很多问题是工业机器人解决不了的。这就需要用到更加智能的机器人,能够在非结构化的、动态的环境中,自主获取信息,自己决策、工作。

  陈小平重点关注的一个行业是纺织行业,2024年,这个行业的产值高达5万亿元,是中国消费品的三大支柱之一。纺织行业现在面临的问题就是招不到人,特别是年轻人。一些地方的调研数据表明,中国纺织厂工人的平均年龄是45岁,很多岗位干到50岁就干不动,太累了。“如果五年不能实现智能化,整个纺织行业就会很艰难,甚至可能衰落下去。”他提到,纺织厂里有个上下纱的环节,需要把纱桶放到机器设备里,看起来很简单,但目前还是要靠人,工人要不断地弯腰;纱线有时候还会断,也需要靠工人跑过去接线。在大型车间里,这个环节的工人一个班次有时候要跑二三十公里,强度非常大。“这个工作如果将来不用机器人干,肯定没人愿意干。”

  赵明国说,虽然现在大家都在谈论人形机器人,很多团队一上来也在朝着人形方向努力,但人形机器人更多是一种愿景。最后在落地的过程中,不一定要纠结于什么形态,而是可能会有各种各样的形态,只要能实现更高的效率,在审美上、经济上都能达到一个平衡点,消费者愿意接受就可以了。换句话说,人形机器人可能更多是其他机器人的技术来源。

  而公众关心的问题——机器人何时能进入家庭,从业者们的态度更加谨慎。张锐是航天系统出来的,2015年,他创办了北京钢铁侠科技有限公司,这曾是国内最早一批开发大尺寸人形机器人的公司,他们开发的“ART”系列机器人在早年很多展会上是明星产品,还上过央视,与撒贝宁搭档主持节目。但后来,张锐也把精力转向了做教育机器人和特种机器人。但他对这一轮机器人热潮的态度相对冷静,甚至有些悲观。

  “家庭环境比较脆弱,房间里有各种东西,茶几、板凳、脸盆,它们的材质、形态、尺寸都不一样,有的家庭还有老人、小孩,有小猫小狗。目前的人形机器人还是以钢铁结构为主,100多斤重,倾倒的风险比较高,一旦倒下来砸到老人小孩或者猫狗,都会产生很严重的后果。”张锐告诉我,我们人全身比较圆润,没有尖锐的部件,压迫感和破坏力就没那么强,机器人不一样。他的团队曾研发了被送上太空作业的机器人,但“相比进太空,机器人要进家庭完成任务,难度会更高,周期会更长”。

  2015 年,张锐创办了北京钢铁侠科技有限公司,他们推出的机器人一度也是展会和演出上的明星(蔡小川 摄)

  张锐认为,这一轮风口以三年为周期,到明年就可以见分晓。“机器人现在硬件层面也还有几个矛盾没有解决,最典型的比如机器人的自重和负载能力、自由度之间的矛盾。我想让一个机器人的负载能力比较高,机器人自重就会沉,灵活性就差一些,翻跟头、跳高等动作表现上就没那么夸张。所以为了让机器人能做一些夸张的表演,就要牺牲其他的指标,比如把自由度和负载能力降低。”张锐说,现在行业内有一个怪象,就是现场表演的是一台机器人,在工厂干活的可能又是另一台机器人,就是因为这些互相矛盾的指标目前还很难在同一台机器人身上实现。

  熊蓉也认同人形机器人目前要进家庭场景还比较困难,但她觉得跟过去比,这个目标的实现已经大幅提前。“三五年可能在一些特定场景开始落地,要具备通用性需要七到十年。”熊蓉给出的这个时间表,和很多同行给出的预测接近。

  陈小平近年来开始从事人工智能相关伦理的研究,他对机器人的安全伦理问题比较关注。“大模型技术的优势是开放性好,不用事先去计算,弱点就是有幻觉,因为它做的不是逻辑推理,本质上是一种统计推断,总有一定概率会出错。在语言、图像等领域,这个问题可能还好点,但在机器人身上,如果是执行任务的时候出错,就会带来危险。”陈小平自己做过机器人,所以很明白这种风险的后果。“机器人有个很重要的功能是定位,人到一个地方,大脑不需要有意识地去想,就会知道自己到了一个什么环境,但机器人需要专门的定位算法,否则它不知道自己在哪儿。如果环境发生扰动,它的定位就可能出错,紧接着行为也会出错,就是我们经常说的‘像碰到鬼了’。比如你家里正在装修,阳台被打掉了,有个缺口,机器人如果定位和识别不准,你让它去厨房,它可能就从这个缺口走出去了。”

  在北京钢铁侠科技有限公司,工作人员正在操作一台轮足式机器人(蔡小川 摄)

  陈小平认为,安全和伦理方面的问题将是伴随机器人发展过程的一个长期问题,机器人要实现量产,也必须提前制定标准,包括如果出了意外,该如何划分责任,执行什么赔偿标准,等等。陈小平和一些企业合作调研了不少养老院,发现养老院的环境、条件相差都很大。“你要考虑养老院能接受什么程度的风险,从技术角度来讲,哪些情况可以让老人来适应机器人,哪些情况应该让机器人去适应老人,这背后也涉及人和机器人之间的伦理关系、安全边界等等。”

上一篇:社科文献2025年2月书讯 新书发布 下一篇:华南师范大学通报“副校长涉论文抄袭”:存在学术不端严肃处理