具身智能：人工智能的下一个浪潮市场规模已展望到3万亿？

（原标题：具身智能：人工智能的下一个浪潮市场规模已展望到3万亿？丨黄金眼）

特斯拉人形机器人的高速成长、英伟达创始人半导体大会重点提及、上交大提出实施方案，正让“具身智能”成为市场资金的焦点。

01、什么是“具身智能”？

(资料图片)

具身智能其实是智能科学的一个基础问题，是指具有身体体验的智能。

从认知角度看，人类是第一人称视角的智能，但给机器喂很多数据进行学习，属于第三人称的智能，比如给机器很多盒子，并且标注这就是盒子，然后机器就会知道这种模式是盒子。但其实，人类是怎么知道这是盒子的？是通过体验才知道的。

1963年的一个实验能一定程度展示两者的区别，图中的两只猫，一只猫被绑起来，只能看这个世界，与其连接的另一只猫则可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能，实验的最后，主动体验的猫学会了正常行走，但旁观的猫并没能获得行走能力。

资料来源：“机器之心”公众号

人工智能属于很多概念的总和，但其中有些概念很难被测量和验证，例如让机器理解什么是社会、什么是责任，虽然能输出一个表征，但很难检验机器是否真正理解这些概念，因此可在一些可验证、可测量的概念上做出一个闭环，而具身智能刚好是这样的闭环，是迈向通用智能很好的起点。

近期，英伟达创始人黄仁勋也在ITF World 2023半导体大会上表示，AI下一个浪潮将是“具身智能”，其描述的“具身人工智能”是能够理解、推理并与物理世界互动的智能系统，包括机器人技术、自动驾驶汽车，甚至是聊天机器人，它们会更聪明，因为它们能了解物理世界。

02、“具身智能”离我们有多远？

早在1950年，图灵首次提出具身智能的概念。在此后几十年里，具身智能作为很重要的概念，但并没有取得很大的进展，因为当时的技术还不足以支撑其发展。

到了今天，多学科的技术已经改变了这一局面。当前各路大模型百花齐放，计算机视觉、计算机图形学、自然语言、认知科学等技术成熟，将推动具身智能进入快速发展阶段。

不断高速发展的AI大模型，有望突破局限，让机器人生“智”。

机器人的大模型包含LLM(大语言模型)、VLM(视觉-语言模型)、VNM(视觉导航模型)。机器人的“大脑”AI域不局限于ChatGPT运用的语言大模型，谷歌在LM-Nav的研究中提到，LLM+VLM+VNM三个模型相互结合，从自然语言（冗余口语化描述）到文本（地标的字符串）到图像（根据文本找图像中的物体），能够最终生成机器人的路径规划。以此行为模式为基础，机器人能进行人机互动，同时实现一定程度的“随机应变”。

不久前，上海交通大学卢策吾教授在机器之心AI科技年会上发表主题演讲《具身智能》，提出PIE方案，认为具身智能包括3个模块：具身感知（Perception）、具身想象（Imagination）和具身执行（Execution），有望加速推动具身智能落地。

目前看来，AI+机器人或许正是“具身智能”当前的落点。

由于具身智能相较于非智能普通人形机器人有更高的工作效率，其具备的理解力、交互力、规划能力等，在机器人进入千行百业后，拥有极强的落地实用性。同时其能够用自然语言控制的特性，是未来规模化协助普通工作人员的必要条件。

因此，未来可关注目前可用大模型进行改造的硬件机器人类型及应用场景，例如对话为主的服务机器人、工业机器人、复杂场景下的人形机器人等领域。

诸多大厂已在具身智能领域进行布局，谷歌发布史上最大通才模型PaLM-E；微软探索如何将ChatGPT扩展到机器人领域；阿里巴巴-千问大模型正在实验接入工业机器人等。

其中特斯拉人形机器人Optimus让人眼前一亮。

自去年10月特斯拉人形机器人Optimus首次亮相无法自主行走需要人搀扶，5月17日，特斯拉股东大会展示视频中Optimus已经可以在车间灵活行走、抓取物体，已经拥有环境探索与记忆、电机转矩控制能力、基于人类跟踪运动的AI训练以及物体操纵能力，且已打通了FSD底层模块，实现了一定程度的算法复用。

Tesla Bot边走路边识别并记忆周边环境资料来源：计算机视觉联盟

FSD算法指的是其全自动驾驶（Full Self-Driving）系统所采用的算法，采用它是为了实现车辆的自主导航和自动驾驶功能，让车辆能够在各种交通环境下进行感知、决策和控制。其主要依赖于神经网络和计算机视觉技术，核心是神经网络模型：通过对实时传感器（如相机、激光雷达等）获取的数据进行处理和分析，并从中提取有关道路、车辆、行人和障碍物等信息，可以实现车辆的环境感知和物体识别。

加上之前OpenAI投资挪威人形机器人公司1X，以及三花智控与绿的谐波在墨西哥合资设立谐波减速器公司，AI+机器人已经让人看到产业爆发的迹象。

03、市场规模有多大？

短期看来，由于技术不成熟，人形机器人在B端难有明晰应用场景，且未量产的价格对C端用户恐较难接受，所以市场集中在特定消费人群当中。

首先，ASIMO、Atlas、Tesla、小米、优必选发布的机器人侧重于其运动能力，对其手眼协同执行生产任务的能力未过多描述，这意味着短期内其难以走入工厂大规模补充劳动力。从技术看，当前人形机器人还只能基于固定规则运动，即使投入生产性工作，亦只能局限在有限动作与场景，而这又与对人形机器人“跨场景灵活工作”的期望相悖，尚待控制算法的进一步成熟。

其次，当前人形机器人服务能力主要体现在讲解引导、表演方面，还无法较好地完成家务，在家庭场景其与智能音箱的功能更为相似，再加之价格较高，C端用户在短期内可能不会大量接受。

虽实用功能不够丰富，发布初期仍可能吸引科技发烧友、可支配收入充裕的高端消费者进行购买，此时人形机器人满足的是用户的科研、尝鲜、炫耀需求。

前期Tesla Bot价格或定在50万元左右，与之相应的消费人群与当前豪华车、超豪华车的购买者重合度较高。不过考虑到人形机器人购买后实用性较弱且难以携带外出展示，故在高收入人群中的渗透率或将显著低于汽车。

机构预计2025-2027年，TeslaBot在豪华车购买者中的渗透率将分别为1%、2%、3%，在超豪华车购买者中的渗透率将分别为6%、7%、8%，带来的市场规模分别为520.5、1,022.0、1,523.5亿元

资料来源：东吴证券研究所

之后随着技术的完善，会逐步助力机器人填补制造业用工缺口。

此阶段机器人的运动控制能力、续航持久性得到提升，得以发挥优势，承接制造业中跨场景的工作。据《制造业人才发展规划指南》，至2025年我国制造业将有3,000万的人才缺口，占全球缺口的主要份额。

假设人形机器人售价为37万元，且2026-2030年在制造领域人形机器人对人工的新增渗透率相同。预计人形机器人对人工的累计替代率分别为9%、11%时，2030年新增渗透率分别为1.8%、2.2%，创造的市场规模分别为1,998、2,442亿元.

再伴随综合服务、情感交互能力的完善，人形机器人或许会在家庭场景的渗透率开始提升。

此时人形机器人或可完成多种较复杂的家务，实用能力得以提升，加上价格下降的因素，此时不局限于高端消费者，有更多家庭愿意在家中添置人形机器人。以此阶段机器人价格为25万元为前提，机构预测在较悲观、中性、较乐观的三种情境下，家庭场景创造的市场规模或许能分别达到1.47万、1.88万、2.3万亿元，加上工业、商业服务场景总合市场规模或将分别达到1.9万、2.55万、3.16万亿元。

之后受益于AI技术发展，人机交互进一步提升，能承担陪伴、照顾人的功能，还可能在有孩子与老人的家庭中渗透率进一步提升。

资料来源：东吴证券研究所

04、产业链相关企业有哪些？

参考工业机器人，AI+人形机器人本质上也是“硬件+软件”的组合，虽然特斯拉等企业会有一定领先优势，但硬件通常也会外购。

机器人产业链由零部件厂商、机器人本体厂商、系统集成商、终端用户四个环节组成，本体厂商处于核心地位。工业机器人的软件部分涉及到机器人的控制以及对下游工艺的理解，需要做到可复制的同时满足不同客户的需求，这是本体厂商的核心竞争力。而硬件的生产需要规模效应，通常采用外购的方式。

目前看来，机器人产业链相关企业有执行器总成相关的三花智控；旋转执行器-谐波减速器相关的绿的谐波、丰立智能、汉宇集团、国茂股份，RV减速器相关的双环传动、秦川机床、中大力德；直线执行器-力矩电机相关的步科股份，滚珠丝杠相关的鼎智科技、秦川机床；指关节微型电机-空心杯电机相关的鸣志电器、鼎智科技、江苏雷利；环境探索-机器视觉相关的奥普特、凌云光。

资料来源：东吴证券研究所绘制

其中三花智控是全球领先的生产和研发制冷空调控件元件和零部件的厂商，也是特斯拉汽车热管理系统核心供应商，且已布局机器人产业。2023年4月，拟与绿的谐波在三花墨西哥工业园设立一家合资企业，主营业务为谐波减速器相关产品的研发、生产制造及销售。

绿的谐波则从事精密传动装置研发、设计和生产，业务聚焦谐波减速器、机电一体化产品、工业自动化等产品。谐波减速器是机器人核心零部件之一，公司已打破了国际品牌在机器人用谐波减速器领域的垄断，实现批量出口。

鸣志电器主营业务为控制电机及其驱动系统，控制电机是核心工业装备，公司曾打破日本垄断，是十年之内唯一改变HB（混合式）步进电机全球竞争格局的国内企业。其子公司安浦鸣志，瑞士Tmotion，鸣志派博思深度布局异动机器人行业。

同时，还有专注于计算机视觉领域，为行业提供算法授权及系统解决方案，在全球范围内为智能终端机智能驾驶提供视觉算法产品线的虹软科技，以机器视觉、人工智能和导航控制为核心的智能物联网龙头海康威视，以及视频物联网头部玩家的大华股份，都是机器视觉相关受益企业。

此外，还有中科创达、商汤科技、云从科技、科大讯飞在内的大模型相关受益类企业。