走近智算 | 什么是具身智能？它有什么应用场景？

2022年以来的以ChatGPT为代表的生成式AI语言大模型的成功，将通用人工智能（AGI）推向了前台。ChatGPT要成为AGI，必然要从人机对话走向控制、导航、感知、思考、认知；也必然要从通识走向零售、农业、工业、运输业、生活等一个个垂直领域。这不仅需要通用和专用知识，更需要与真实物理世界结合，根据环境动态变化实时思考与决策，并执行与调整行为。

这就是具身智能——通过在物理和数字世界中的学习和进化，实现理解世界、互动交互并完成任务的目标。

具身智能由“本体”和“智能体”组成。本体也就是物理实体，是实际的执行者，在物理或者虚拟世界中进行交互和任务执行。智能体是具身本体之上的智能核心，负责感知、理解、决策和控制，也就是AI。具身智能通过将AI融入物理实体，赋予了它们感知、学习和与环境动态交互的能力。AI融入汽车就是智能汽车，AI融入机器人就是具身机器人，AI融入飞行器就是无人飞机等等，因此具身智能的形态非常丰富。

通常来说，具身机器人的形态可以分为固定基座型（如机械臂）、轮式机器人、履带机器人、仿生机器人、四足机器人和人形机器人。其中，人形机器人作为最突出的具身形态之一，备受关注。为什么目前普遍认为人形机器人是通用人工智能的最佳载体呢？因为人类是世界上唯一真实存在的通用智能体，可以直接使用人类数据训练和学习，快速完成数据积累，同时满足人类情感与审美要求。埃隆·马斯克认为，到2040年，人形机器人的数量可能会超过人类，届时至少会有100亿个人形机器人，每个价格在2万-2.5万美元之间。

人形机器人研究起步于双足行走的模仿，逐步拓展至人工智能的研发。纵观整个具身机器人的演进历史，要做到通用，需要硬件泛化和软件泛化能力，可以简单概括为“心灵”，“手巧”，“移动”3个特征。“心灵”需要感官与大脑的协同，感官负责获取和处理环境信息，为具身智能的决策和执行提供输入；而大脑负责人机交互和规划决策，以满足机器人在理解指令、分解任务、规划子任务、识别物体等需求，是具身智能的核心。“手巧”与“移动”则需要小脑和四肢的协同，小脑根据感知信息和决策指令，协调机器人脚部和手部的运动，实现智能化的行为控制。

具身智能大脑决策领域由于大模型的到来已经颇具成熟度，感官视觉领域也一直是学术界热点所以成熟度颇高。当前的关键瓶颈其实是在手部灵巧操作，尤其对柔性物体的抓取达不到商用的水平。

悲观派认为，具身智能成熟没那么快，现在技术本身和几年前没有本质区别，仿真和手部灵巧技术没有特别大的改进，现阶段多了大模型分解任务和增强视觉感知，但这些是大模型基本能力，和具身智能无关。就像2016 年谈自动驾驶领域一样， 3~5 年没法真正落地，可能需要 10 年时间。

乐观派，如英伟达认为，机器人是英伟达的下一场革命，已经开始构建机器人开发平台。另一乐观派马斯克则致力于把具身硬件成本降下来，未来像电动车一样批量制造。

那么您支持哪种观点呢？