这就是具身智能——通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并完成任务的目标。

具身智能由“本体”和“智能体”组成。本体也就是物理实体,是实际的执行者,在物理或者虚拟世界中进行交互和任务执行。智能体是具身本体之上的智能核心,负责感知、理解、决策和控制,也就是AI。具身智能通过将AI融入物理实体,赋予了它们感知、学习和与环境动态交互的能力。AI融入汽车就是智能汽车,AI融入机器人就是具身机器人,AI融入飞行器就是无人飞机等等,因此具身智能的形态非常丰富。
通常来说,具身机器人的形态可以分为固定基座型(如机械臂)、轮式机器人、履带机器人、仿生机器人、四足机器人和人形机器人。其中,人形机器人作为最突出的具身形态之一,备受关注。为什么目前普遍认为人形机器人是通用人工智能的最佳载体呢?因为人类是世界上唯一真实存在的通用智能体,可以直接使用人类数据训练和学习,快速完成数据积累,同时满足人类情感与审美要求。埃隆·马斯克认为,到2040年,人形机器人的数量可能会超过人类,届时至少会有100亿个人形机器人,每个价格在2万-2.5万美元之间。

人形机器人研究起步于双足行走的模仿,逐步拓展至人工智能的研发。纵观整个具身机器人的演进历史,要做到通用,需要硬件泛化和软件泛化能力,可以简单概括为“心灵”,“手巧”,“移动”3个特征。“心灵”需要感官与大脑的协同,感官负责获取和处理环境信息,为具身智能的决策和执行提供输入;而大脑负责人机交互和规划决策,以满足机器人在理解指令、分解任务、规划子任务、识别物体等需求,是具身智能的核心。“手巧”与“移动”则需要小脑和四肢的协同,小脑根据感知信息和决策指令,协调机器人脚部和手部的运动,实现智能化的行为控制。
具身智能大脑决策领域由于大模型的到来已经颇具成熟度,感官视觉领域也一直是学术界热点所以成熟度颇高。当前的关键瓶颈其实是在手部灵巧操作,尤其对柔性物体的抓取达不到商用的水平。
悲观派认为,具身智能成熟没那么快,现在技术本身和几年前没有本质区别,仿真和手部灵巧技术没有特别大的改进,现阶段多了大模型分解任务和增强视觉感知,但这些是大模型基本能力,和具身智能无关。就像2016 年谈自动驾驶领域一样, 3~5 年没法真正落地,可能需要 10 年时间。
乐观派,如英伟达认为,机器人是英伟达的下一场革命,已经开始构建机器人开发平台。另一乐观派马斯克则致力于把具身硬件成本降下来,未来像电动车一样批量制造。
那么您支持哪种观点呢?