近期,星尘智能推出的人形机器人 Astribot S1 在国内外的社会化媒体平台引发了不少的热议。Astribot S1 一口气展示了多个生活化技能,包括弹琴、泡功夫茶、烹饪华夫饼,以及练习咏春拳。
以泡功夫茶为例,泡茶属于繁琐的长序列任务,涉及洗茶、冲泡、倒茶、分茶等多个环节,且每个环节要用多种不同工具。Astribot S1 需要规划出正确的步骤,判断出所有的环节使用哪些工具,并且要抓握一系列完全不同的物品,包括陶瓷、金属、木、茶叶等不一样的材质以及不一样的形状的碗、盏、壶、杯。Astribot S1 因其流畅的动作规划、执行以及在日常生活中解决实际任务引发了包括 Figure CEO 在内的多位大佬的关注转发。
人形机器人赛道近期迎来了活跃期。前有硅谷的创企 Figure 发布了新一代人形机器人产品 Figure 02,后有星尘智能推出人形机器人 Astribot S1,随后,智元机器人也推出了其第二代人形机器人,包括交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」等 5 款机器人产品。宇树科技也宣布其人形机器人 G1 进入大规模量产阶段。
从早期主要使用在在工业制造、物流仓库用于解决重复性、结构性工作的工厂机器人,到现在旨在护理、陪伴等实际生活场景发挥作用的家用、服务型的商用人形机器人,人形机器人正朝着通用性、智能化快速迭代。
目前,对于人形机器人的定义尚未统一,一般认为是具有类人的外观、感知、决策、行为和交互能力,可以在生活、工作场景内如人类一般完成外界感知、自主运动、行为交互等一系列任务的机器人。在 AI 大模型等技术的赋能下,人形机器人不仅在外形和行为上与人类相似,更具有强大智能、思维和类人的语言能力。人形机器人作为 AI 应用的最终极形态,而通用人形机器人一旦实现技术突破及商业化,将对多个行业产生颠覆性影响并开启全新的应用场景和激活潜在市场。顶级投行机构高盛曾预测,2035 年,全球人形机器人市场规模有望达到 1540 亿美元。
而人形机器人的研发是一项难度系数极高的技术工程,涉及力学 、机械工程学 、电子学 、计算机科学和自动控制等多方面技术。本篇解读从人形机器人的发展历史、背后的关键技术结构/原理、产品代际变化以及当前产业情况等方面介绍,试图通过一文为想要了解人形机器人领域的 AI 从业者全面介绍、快速理清其中的关键脉络。
解读要点 为啥说人形机器人是 AI 的终极应用形态?人形机器人赛道的整体情况如何? 为什么人形机器人还「不好用」?有哪些行业共性难点? 人形机器人背后的底层技术/原理是什么? 人形机器人赛道面临着哪些关键难题? 为什么「基础模型 +人形机器人」,让人形机器人更像「人」
人形机器人的定义是具有类人的外观、感知、决策、行为和交互能力,可以在生活、工作场景内如人类一般完成外界感知、自主运动、行为交互等一系列任务的机器人。简单来说,人形机器人要达到用其「身体」认知世界,更接近物理世界的真实的情况,同时更有效地决策和执行任务,即「做成事情」,这也是关键。
按照国际机器人联合会(IFR)的分类,机器人可分为工业机器人和服务机器人。按照应用场景来分,则包括教育型人形机器人、娱乐型人形机器人、服务型人形机器人、工业型人形机器人和通用型人形机器人等。
从驱动角度来看,人形机器人分为双足(Bipedal)和轮式(Wheeled)两种。双足机器人模仿人类行走方式,在不平坦的地形上更具灵活性和适应性;轮式机器人在平坦或预定轨道上运行时,稳定性较好,控制相对简单,工厂、仓库等环境使用。
尽管人形机器人的能力、商业化尚处于较为早期的阶段,但人形机器人的发展历史已长达近百年。1927 年,美国西屋公司制造了世界上第一台人形机器人「Televox」。追溯人形机器人的发展历史,大致可分为三个阶段。
① 早期发展阶段:此阶段的人形机器人实现了关节驱动,可以依据指令完成特定工作,有一定智力水平。1972 年,日本早稻田大学的加藤一郎教授带领团队率先解决了人形机器人的双足行走问题,并研发出世界首款全尺寸人形智能机器人 WABOT-1,为其配置了机械手&人工视觉&听力装置;
② 系统高度集成发展阶段:随着传感、AI 等技术发展,人形机器人在智能化人机互动、运动控制等方面得到一定进步,开启商业化方向。2000 年,本田推出能够跳跃的人形机器人 ASIMO,人形机器人发展逐步成熟;Aldebaran Robotics 推出智能教学双足人形机器人 NAO,能够最终靠现成的指令块进行可视化编程,实现听、说、看和人进行互动,被大范围的应用于学术领域;
③ 高动态运动发展阶段:这一阶段,机器人的「自主」功能被逐步开发,包括自主理解、 自主推断、自主决策、自主行动等。有代表性的机器人产品有,2013 年 Boston Dynamics 推出的人形机器人 Atlas、2018 年优必选推出的第一代大型双足仿人服务机器人 Walker、2020 年美国敏捷机器人公司推出第一款商用化出售的机器人 Digit、2021 年英国 Engineered Arts 公司推出的最接近人类面部表情的机器人 Ameca、以及 2022 年特斯拉推出人形机器人 Optimus。
从产业来看,人形机器人产业链分为上中下游三大部分。上游是原材料&零部件生产,核心零部件在人形机器人的整体成本中占比最高,约占 60-70%,且技术难度大,软件和硬件环节均具备较高的壁垒;中游是人形机器人制造商;下游为场景应用,例如,特斯拉机器人制造后或将率先应用于汽车装配工序。
目前,由于人形机器人的核心零部件供应不足,供应链尚不成熟,人形机器人公司除研发、制造机器人,通常还要设计核心零部件。因此,更严谨地表述,原材料&零部件生产通常是上、中游环节。在中游的人形机器人公司中,较为关键的玩家,国内包括优必选、达闼科技、宇树科技、小米、 追觅科技、智元机器人、傅里叶智能、星尘智能等;国外包括波士顿动力、Figure、MenteeBot、特斯拉、Engineered Arts、Apptronik 等。
从市场来看,2024 年开年以来,人形机器人领域加快速度进行发展。据 Statista 最新报告,2024 年,全球 AI 机器人市场规模将超过 190 亿美元,较 2023 年市场规模增长近 30%。同时,人形机器人赛道受资本青睐,据《中国电子报》不完全统计数据,2024 年上半年全球人形机器人领域融资事件超 22 起,融资金额已超过 70 亿元。其中,Figure AI 融资 6.75 亿美元;宇树科技完成近 10 亿元人民币 B2 轮融资;银河通用机器人完成 7 亿元的天使轮融资。
虽然人形机器人公司融资呈火热之态,但人形机器人领域目前仍处在较为早期的阶段,面临着场景泛化困难、核心零部件供应链不成熟、难以量产、商业化等难题。
2024 年以来,陆续推出了人形机器人 Figure 02、Unitree G1、电动版 Atlas 等,从各家发布的展示 demo 及能力来看,在方向上趋于实现更通用性、交互化,能够执行复杂的动作以及精细的运动控制。
我们期待人形机器人的「ChatGPT 时刻」到来,对于雄心勃勃人形机器人公司们,背后仍有三座大山待翻越:泛化能力不够、核心零部件供应不足及成本高、量产/商业化困难。
目前,人形机器人面临的最大难题即怎么来实现场景泛化,接近「通用性」。机器人系统往往难以准确地感知和理解其环境,没法实现对不同场景的充分泛化,机器人无法将在一个任务上的训练成果泛化到另一个任务,从而进一步限制其在真实世界中的实用性。同时,由于机器人硬件不同,将模型迁移用于不同形态的机器人也很困难。目前,业内的一种做法趋势是通过将基础模型用于机器人,可以部分地解决泛化问题。
泛化控制能力差的背后,是训练数据量的缺乏。具身智能一般来说包括四类数据,在真实世界中有三种。数据体量最大的是人做事情的视频和图片数据,其次是在真实世界通过遥控器方式去遥控机器人产生的遥操作数据,再次是机器人靠自我 policy 在环境中测试或者是进行强化学习回传的数据。但人类收集数据的成本比较高,同时大规模收集数据还有操作复杂,安全风险隐患,数据量不足等一系列问题。另一种是合成数据,在模拟环境中生成合成数据,这是目前解决人形机器人训练数据的一大方向。但合成数据也存在局限性,尤其是在物体的多样性方面,使机器人所学到的技能难以直接用于真实世界情况。
在硬件生产方面,核心零部件的供应不足是一大难题。由于人形机器人的研发还出于 0-1 的研发阶段,因此其核心零部件的供应链尚不成熟,核心零部件没有统一的标准。因此,人形机器人公司不仅需要研发、制造机器人,并且要涉及核心零部件。马斯克曾公开表示,「尽管世界上有很多电机供应商,但没有一种电机适用于人形机器人,也没有一种齿轮箱符合我们的尺寸需求。」
同时,核心零部件的成本高昂也是一大问题。在人形机器人核心零部件中,技术难度最高分别是减速器、伺服系统和控制器,约占总体成本的 60-70%。
人形机器人没法实现对不同场景的充分泛化以及核心零部件等硬件成本高昂进一步导致了人形机器人的量产和商业化困难。人形机器人的价格一直高居不下,尽管在今年宇树科技发布了 售价 9.9 万元人形机器人 G1Unitree G1,将价格战打到了 10 万以内,但价格对于用户市场来说,仍不低。
而量产规模反过来影响着人形机器人的成本。据《2024 年中国人形机器人行业研究报告》,人形机器人按量产规模不同,降本大致可划分为三个阶段:小批量千台量级生产,降本 20%-30%至约 10 万美元;万台级别降本 50%至 5 万美元;数十万至百万台大规模量产,降本 70%-80%至 2-3 万美元。
在硬件方面,伺服电机、减速器、控制器、传感器和电池五类部件是人形机器人运动的基础。
① 伺服电机是人形机器人的执行机构,像是人形机器人的「肌肉」,响应大脑的指令,精准地控制每一个动作。因此,伺服电机的性能直接影响人形机器人的运动精度和速度;
② 减速器是连接伺服电机和关节的部件,将伺服电机的非常快速地旋转转化为关节所需的大扭矩。通过调整传动比,减速器赋予了机器人关节更大的力量,帮助其在举起重物或精细操作时更加稳定;
③ 控制器:控制器是人形机器人的「大脑」,负责接收传感器数据、计算控制指令并发送给伺服电机。控制器的性能直接影响人形机器人的运动协调性和稳定性。
④ 传感器:传感器是人形机器人的「眼睛和耳朵」,可以感知周围环境和自身状态。常见的传感器包括视觉传感器、听觉传感器、触觉传感器、力传感器等;
在软件方面,传统的机器人系统主要由感知(Perception)、决策制定与规划(Decision-making and Planning)、动作生成(Action Generation)三个核心模块构成。涉及运动控制算法、环境感知、物体识别、自主导航等相关技术。
① 感知(Perception)模块类似于人类的「五官」,包含内部传感器和外部传感器。内部传感器主要用来检测机器人本身的状态,为机器人的运动控制提供必要的本体状态信息;外部传感器则用来感知机器人所处的工作环境或工作状况信息,使机器人的动作适应外界情况的变化
② 决策制定与规划模块类似人类的「大小脑」,是机器人的指挥中枢。这部分将在下边 AI 技术作为人形机器人的「大脑」详细展开介绍。
这里需要着重展开介绍的是,LLM 等 AI 技术作为人形机器人的「大脑」,是最为核心的关键技术。根据工信部印发的《人形机器人创新发展指导意见》,将打造人形机器人「大脑」和「小脑」 列为了所需突破的关键技术。开发基于AI大模型的人形机器人「大脑」,增强环境感知、行为控制、人机交互能力,推动云端和边缘端智能协同部署;开发控制人形机器人运动的「小脑」,搭建运动控制算法库,建立网络控制管理系统架构。
简单来说,把感知和决策认为是大脑,对本体或肢体来控制生成动作认为是机器人的小脑。理想情况下的通用人形机器人,需要机器人通过「大脑」理解现实世界和进行「要做什么样的事情」的决策之后,通过小脑大模型去泛化,根据任务去驱使身体产生关节电机扭矩或者是关节位置变化,从而把事情干成。目前的瓶颈在于人形机器人「小脑」无法达到通用性......