Embodied AI(具身智能)入门的路径以及高质量信息的总结, 期望是按照路线走完后, 新手可以快速建立关于这个领域的认知, 希望能帮助到各位入门具身智能的朋友, 欢迎点Star、分享与提PR🌟~
具身智能是指一种基于物理身体进行感知和行动的智能系统, 其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动, 从而产生智能行为和适应性。
我们希望的是帮助新人快速建立领域认知, 所以设计理念是:简要介绍目前具身智能涉及到的主要技术, 让大家知道不同的技术能够解决什么问题, 未来想要深入发展的时候能够有头绪。
我们是一个由具身初学者组成的团队, 希望能够通过我们自己的学习经验, 为后来者提供一些帮助, 加快具身智能的普及。欢迎更多朋友加入我们的项目, 也很欢迎交友、学术合作, 有任何问题, 可以联系邮箱[email protected]
。
🦉Contributors: 陈天行 (深大BS), 王开炫 (25' 港大PhD), 贾越如 (北大Ms), 姚天亮 (25' 港中文PhD), 高焕昂 (清华PhD), 高宁 (西交BS), 郭常青 (清华Ms), 彭时佳 (深大BS), 邹誉德 (25' 上交AILab联培PhD), 陈思翔 (25' 北大PhD), 朱宇飞 (25' 上科大Ms), 韩翊飞 (清华Ms), 王文灏 (宾大Ms), 李卓恒 (港大PhD), 邱一航 (港大PhD), 梁升一 (港科广PhD), 林俊晓 (浙大Ms), 王冠锟 (港中文PhD), 吴志杰 (港中文PhD), 叶雯 (25' 中科院PhD), 陈攒鑫 (深大BS), 侯博涵 (山大BS), 江恒乐 (25' 南科大PhD), 陈勇超 (MIT+哈佛PhD), 胡梦康 (港大PhD), 梁志烜 (港大PhD), 吴贻谋 (港中文MPhil), 穆尧 (上交AP).
社交媒体:
可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub
AI领域值得关注的博主列表 [3]: zhihu
具身智能会投稿的较高质量会议与期刊:Science Robotics, TRO, IJRR, JFR, RSS, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NIPS, ICLR, AAAI, ACL等。
斯坦福机器人学导论:website
共建全网最全具身智能知识库 [6]: website
Awesome-Embodied-AI-Job (具身智能招贤榜): Repo
具身智能华人高引榜: Repo
社区:
这个部分是关于具身中常用技巧的分享
以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。
CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。
DINO: DINO repo, DINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。
SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。
SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。
Grounding-DINO: repo, 在线尝试, 这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院(做了很多不错开源项目的机构)开发集成的图像目标检测的框架, 很多时候需要对目标物体进行检测的时候可以考虑使用。
OmDet-Turbo: repo, 一个由OmAI Lab开源的研究, 提供OVD(开放词表目标检测)能力, 优点在于推理速度非常快(100+FPS), 适合需要高FPS的自定义目标物体检测场景。
Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。
FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。
Stable Diffusion: repo, website, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。
Point Transformer (v3): repo, 点云特征提取的工作。
RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。
SigLIP: huggingface, 类似CLIP。
机器人学习 Robot Learning 的发展: zhihu
模型预测控制(MPC)是一种先进的控制策略,利用系统的显式动态模型预测有限时间范围内的未来行为。每个控制周期,MPC 通过求解优化问题来确定控制输入,以优化指定的性能指标,同时满足输入和输出的约束条件。优化序列中的第一个控制输入应用于系统,在下一个时间步中,结合新的系统状态测量或估计,重复该过程。
入门推荐视频:
经典工作:
理论基础:
非线性 MPC:
显式 MPC:
鲁棒 MPC:
基于学习的MPC:
下面列出三门比较受欢迎的深度强化学习相关的课程,这几门课互有overlap,时间长短和授课风格也各有不同,读者可以选择适合自己的课程进行学习。此外,深度强化学习的经典算法相关的文章也在必读清单:如PPO, SAC, TRPO, A3C等。
The Foundations of Deep RL in 6 Lectures YouTube 本门在线课程由在RL领域著名的Pieter Abbeel教授主讲,从MDP开始在六节课之内介绍了深度强化学习的主要知识。
UC Berkeley CS285 深度强化学习: website | YouTube 本课程的主讲老师是在RL领域著名的Berkeley的Sergey Levine教授,DRL领域许多著名的工作如SAC就出自他之手。Sergey在授课方面非常用心,本课程对DRL提供了非常详细的介绍。
李宏毅老师也有一套关于强化学习的课程: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
然而,深度强化学习的Reward Tuning和参数调整非常依赖于经验,建议读者在对深度强化学习有相关经验之后,可以自己尝试训练一个policy并在机器人上部署,体会其中的Sim-to-Real Gap。常用的仿真平台有MuJoCo PlayGround, Isaac Lab, SAPIEN, Genesis等。
常用的Codebase有legged-gym(由ETH RSL开发,基于IsaacGym)等,也可以根据你想做的任务找到相近的codebase。
为了促使机器人更好的规划, 现代具身智能工作常常利用大语言模型强大的信息处理能力与泛化能力进行规划。
Vision-Language-Action Models(VLA模型) 是一种结合VLM(Vision-Language Model)与机器人控制的模型,旨在将预训练的VLM直接用于生成机器人动作(RT-2中定义)。和以往利用VLM做planning以及build from strach的方法不同,VLA无需重新设计新的架构,将动作转化为token,微调VLM。
VLA的特点:端到端,使用LLM/VLM backbone,加载预训练模型, etc.
目前的VLA可以从以下几个方面进行区分:模型结构&大小(如action head的设计, tokenize的方法如FAST),预训练与微调策略和数据集,输入和输出(2D vs. 3D | TraceVLA输入visual trace),不同的应用场景等。
参考资料:
Survey: A Survey on Vision-Language-Action Models for Embodied AI, 2024.11.28
经典工作:
Autoregressive Models
RT系列(Robotic Transformers):
TinyVLA (paper, 上海大学, 2024.11)
Diffusion Models for Action Head:
3D Vision:
VLA-related:
Different Locomotion:
CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了, 所以这个阶段可以不用做作业, 只需要看课程视频和课程讲义即可。
视觉提示是一种利用视觉输入引导大模型完成特定任务的方法,常用于具身智能领域。它通过提供示例图像、标注或视觉线索,让模型理解任务要求,而无需额外训练。例如,在机器人导航、操控等场景中,视觉提示可帮助模型适应新环境,提高泛化能力。相比传统方法,视觉提示具备更强的灵活性和可扩展性,使具身智能系统能够通过视觉信息快速适应复杂任务。
可供性锚定任务的目标是从图像中定位物体上能够与之交互的区域,充当了感知与行动之间的桥梁,是具身智能重要的一环。它不仅需要模型对物体及其局部结构的检测与识别,还需要模型理解物体与人或机器人之间的潜在互动关系。例如,在机器人抓取场景中,可供性锚定帮助模型寻找物体上最佳的抓取位置,从而确定最佳抓取角度。该方向通过整合计算机视觉,多模态大模型技术,能够在弱监督或零样本条件下实现对物体交互可能性的精确定位,提升机器人抓取、操作以及人机交互等任务的性能。
2D
3D
如果说计算机视觉是考虑图像之间的变化以及从图像到三维模型(三维重建和生成),那么计算机图形学主要研究的就是三维模型之间的变化以及从三维模型到图像的渲染过程。具身智能在开发和测试的时候离不开仿真器,而仿真也属于图形学的研究范畴。快速、高质量的渲染,并行化、准确的仿真一直是机器人仿真器追求的目标,而这一切通过计算机图形学来实现。
多模态旨在统一来自不同模态信息的表征, 在具身智能中由于面对着机器识别的视觉信息与人类自然语言的引导信息等不同模态的信息,多模态技术愈发重要。
机器人巡航(Robot Navigation)是一类要求智能体在未知场景中,通过获取并处理环境信息,实现达成某种目标的路径规划。机器人巡航是具身任务中的一个重要能力,是完成复杂任务不可缺少的基础技术。机器人巡航任务中,智能体一般接受传感器提供的RGB、深度、GPS等信息和相关目标指令,输出是一系列的动作指令。
按照任务类型分类,机器人巡航可以分为以下几个部分:
按照模型架构分类,机器人巡航可以分为以下几个类别:
端到端模型(End-to-End Model):模型直接将传感器输入通过强化学习或模仿学习映射到动作指令。模型会先将传感器信息编码为视觉表征,结合历史动作作为输入,最后通过与环境交互获得reward实现动作决策的学习。端到端模型主要针对两方面进行优化:一是提升视觉表征能力,二是解决稀疏奖励等动作决策方面的问题。端到端模型的优势在于直截了当,但是面临着严重的过拟合和低泛化性问题,使得其在现实生活中的应用收到了挑战。
模块化模型(Modular Model):将传感器信息输入不同的模块,模块之间通过接口交互,输出动作指令。模块包括建图模块(Mapping,构建语义和占有地图),长期决策模块(Global Policy,决定长期的导航目标),短期决策模块(Local Policy,决定实现长期目标的具体操作)等。建图模块是模型的核心,包含有网格地图、包含预测的网格地图、图表示地图等多种形式。模块化模型的优势在于模块之间的解耦,大大加强了模型的可解释性。同时,独立的建图模块也使得模型更容易泛化到未知环境。但是模块化模型的建图模块仍然充斥着手动设计的规则,这一定程度上也限制了模型的通用性。
经典工作:
零样本模型(Zero-shot Model):模型不接触训练数据,直接在测试阶段完成任务。零样本模型往往利用具有知识先验的大规模预训练模型(CLIP, LLM等)实现。零样本模型的提出旨在解决基于学习的方法面临的过拟合和低泛化性问题,同时也更适合迁移到现实场景。但是零样本模型的缺陷在于推理速度较慢,且性能受限,需要进一步微调以实现更好的性能。
经典工作:
常用数据集:
其他参考:
具身智能技术的迅猛发展正在引领医疗服务模式迈向革命性的新纪元。作为人工智能算法、先进机器人技术与生物医学深度融合的前沿交叉学科, 具身智能+医疗这一研究领域不仅突破了传统医疗的边界, 更开创了智能化医疗的新范式。其多学科协同创新的特质, 正在重塑医疗服务的全流程, 为精准医疗、远程诊疗和个性化健康管理带来前所未有的发展机遇, 推动医疗行业向更智能、更人性化的方向转型升级。这一领域的突破性进展, 标志着医疗科技正迈向一个全新的智能化时代。
医疗机器人的五级自动化(医疗机器人领域行业共识), 杨广中教授于2017年在Science Robotics上的论著: Medical robotics—Regulatory, ethical, and legal considerations for increasing levels of autonomy
医疗机器人的十年回顾(含医疗机器人的不同分类), 杨广中教授在Science Robotics上的综述文章:A decade retrospective of medical robotics research from 2010 to 2020
医疗具身智能的分级: A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities
Artificial intelligence meets medical robotics, 2023年发表在Science正刊上的论著: website
医疗机器人的机器视觉
达芬奇手术机器人是最为常用的外科手术机器人, 对于这类机器人自主技能操作的研究最为广泛
连续体和软体手术机器人作为柔性医疗机器人的重要分支, 凭借其独特的结构设计和材料特性, 在微创介入诊疗领域展现出显著优势。它们能够灵活进入人体狭窄腔体, 实现精准操作, 同时最大限度地减小手术创口, 降低患者术后恢复时间及感染风险, 为现代微创手术提供了创新性的技术解决方案。
连续体和软体机器人因其超冗余自由度和高度非线性的结构特性, 采用传统的控制与传感方法构建正逆运动学方程时面临显著的计算复杂性和建模局限性。传统方法难以精确描述其多自由度耦合运动及环境交互中的动态响应。为此, 基于数据驱动的智能控制方法(如深度学习、强化学习及自适应控制算法)成为解决这一问题的前沿方向。这些方法能够通过大量数据训练, 高效学习系统的非线性映射关系, 显著提升运动控制的精度、自适应性和鲁棒性, 为复杂医疗场景下的机器人操作提供了更为可靠的技术支撑。
微纳机器人技术是一类集成了微纳米制造、生物工程和智能控制等多学科前沿技术的微型机器人系统。凭借其微纳米级的独特尺寸、优异的生物相容性和精准的操控性能,这一前沿技术为现代医学诊疗范式带来了突破性创新。在精准诊断方面,微纳机器人能够深入人体微观环境,实现细胞乃至分子水平的实时监测;在靶向治疗领域,其可作为智能药物载体,实现病灶部位的精准定位与可控释放;在微创手术应用中,微纳机器人系统为复杂外科手术提供了前所未有的精确操作平台。这些创新性应用不仅显著提升了诊疗效率,更为攻克重大疾病提供了全新的技术途径,推动着现代医学向更精准、更微创、更智能的方向发展。
无人机的发展来源于:
不同于legged locomotion和manipulation,在无人机领域,data-driven的方法与model-based/modular的方法在不同任务中的优势不同,仍处于分庭抗礼的阶段。这主要是因为无人机的模型与驱动模式较为简单(如四旋翼的驱动机构只有四个电机),且传统的无人机(即不具有操作设备)不会与环境产生交互,因此基于模型、优化和分层的方法,通过良好的状态机/规则设计和高效的局部优化技术,仍能够被赋予很强的性能。然而,无人机的难点在于其状态估计(通常需要)、感知和底层驱动充满噪声,这是因为小型化无人机的负载能力十分有限以及其成本被尽可能压低,因此在一些任务中data-driven/端到端的方法展现出了远超于传统方法的性能。因此,以下对无人机data-driven资料介绍的同时会穿插其与传统方法的对比,以便大家了解整个领域发展的动机。
总体而言,无人机的研究分为三个部分:
无人机工作的开源代码并不多且良莠不齐,大部分需要通过论文学习。
支持RL的仿真器
无人机的仿真器普遍并不强大,并且几乎没有开源的RL sim2real项目。基于开源代码需要较大的内容改动才能实现理想的sim2real performance。
经典技能代表性工作
我们主要介绍一些data-driven方法在经典任务上的应用。值得一提的是,以下的工作中,出现了一些摆脱了对SLAM系统和里程计依赖的方法(而无人机最初的兴起正是依靠SLAM/里程计系统的日益成熟),将成为无人机技能学习中有趣的进展方向。
未知场景障碍物躲避
无人机竞速
大机动/特技飞行
经典任务实现代表性工作
手搓一个遥控器操控的穿越机不是一个很难的事情,网上有很多爱好者分享教程。但想搭建一个具有自主导航功能的无人机并非易事,是一个系统工程,这里推荐浙大FAST-lab开源的教程:
除了常规用于航拍,环境探索的四旋翼无人机,想让无人机具备更多能力,应用于更广泛的具身智能场景,除了算法上的创新外,也需要在硬件层面对无人机的构型进行创新设计。
空中机械臂(Aerial Manipulator)
空中机械臂,也叫空中操作无人机,兼具无人机的快速空间移动能力和机械臂的精确操纵能力,是具身智能的一种理想载体。西湖大学赵世钰老师组在知乎上有一系列文章介绍:
全驱动无人机(Fully-Actuated UAV)
常见的四旋翼无人机具有欠驱动特性,即位置与姿态耦合。而具有位置姿态解耦控制的全驱动无人机,理论上更适合作为空中操作的飞行平台。
可变形无人机(Deformable UAV)
除了通过往飞行平台上安装机械臂,让无人机本体可以变形,也是使其实现更多功能的一种方法。
多模态无人机(Multi-Modal UAV)
无人机与地面机器人相比,其优势在于三维空间运动能力,劣势则是续航差。因此一些研究关注多模态无人机的构型设计、运动控制以及自主导航。多模态无人机具备空中、地面、水下等多域运动能力。这不仅能解决无人机的续航问题,也能让无人机具有更多应用潜力。
自动驾驶之心 (也有个微信公众号)
自动驾驶被称为”最小的具身智能验证场景”,这是因为它在具身智能的框架中,具备完整的感知、决策和行动闭环,但任务目标明确、物理交互简单、场景复杂性相对较低。作为一个技术验证场景,自动驾驶既能体现具身智能的核心特性,又为更复杂的具身智能任务提供了技术积累和理论支持。
自动驾驶仿真是自动驾驶技术开发中不可或缺的一部分。它通过提供安全、高效、可控的测试环境,不仅降低了研发成本和风险,还加速了技术的迭代和规模化部署。同时,仿真能够覆盖大量现实中难以复现的场景,为自动驾驶系统的安全性、可靠性和泛化能力提供了重要保障。
End-to-end Autonomous Driving: Challenges and Frontiers
经典课程
想要快速了解什么是IK FK的同学可以看这个7分钟的短片, 可以对此建立一个粗略的认知:BiliBili 较为简单的过一遍IK和FK的原理可以看这个:CSDN
IK (Inverse Kinematics) 逆运动学
FK (Forward Kinematics) 正运动学
里程计(Odometry)用于为机器人实时提供定位,里程计常常基于扩展卡尔曼滤波(EKF)实现,融合来自惯性测量单元(IMU)、相机、激光雷达、码盘、毫米波雷达、超宽带(UWB)、光流传感器等等各种常用于机器人位姿感知的传感器之中的多种观测,以较高的频率实现对机器人位姿的估计。
里程计中最常见的是视觉惯性里程计(VIO)和激光惯性里程计(LIO),以及最近新兴的一些用4D毫米波雷达作为主要传感器的方法,其中比较经典的工作包括VINS系列VINS-Mono,ORB-SLAM,VINS-Fusion,LOAM,FAST-LIO等等。此外还有融合了IMU、相机和激光传感器的里程计FAST-LIVO系列等。
SLAM(Simultaneous Locolization And Mapping)在定位的同时完成地图的构建,使得回环(Loop Closure)检测成为可能,回环检测的存在使得当机器人重新访问到某个位置时可以修正一部分的累计误差,提高在长时间作业时的定位精度。SLAM的实现主要有filter-based和optimization-based两种,实现中一般又分前端和后端,基于不同传感器的SLAM又各有其特点,在这里提供一些学习资源,主要是书籍:
此外,SLAM也有端到端的实现DROID-SLAM。
其他关于slam的思考可以参考awesome-and-novel-works-in-slam
具身智能硬件方面涵盖多个技术栈, 如嵌入式软硬件设计, 机械设计, 机器人系统设计, 这部分知识比较繁杂, 适合想要专注此方向的人 关于硬件部分的学习, 最好从实践出发!
RealSense,RealSence Ros 开发套件
视触觉传感器通过摄像头捕捉触觉信息,将触摸表面变形映射为视觉数据,以估计接触力、形变等信息。其设计涉及 传感器形状(影响接触范围与适应性)、标记点设置(追踪表面形变,提高分辨率)、材料选择(如硅胶或弹性体,提高灵敏度)以及 光照与摄像系统(增强视觉信号质量)。
参考文献综述:写的非常详细,分别是算法和结构设计
触觉感知的路径主要就是这两类。电子皮肤模拟人类皮肤的触觉能力,通常采用柔性电子材料(如压力传感薄膜、纳米传感器网络等)来感知外界压力、温度和形变,使机器人具备更接近生物的触觉感知能力。
参考文献综述:Toward an AI Era: Advances in Electronic Skins
3.1 姿态估计(Pose Estimation)
3.2 物体分类(Classification)
3.3 触觉操控(Manipulation)
3.4 触觉大模型(Large Tactile Models)
市面上有一些成熟的视触觉传感器可供选择 🔗 GelSight 官网
公司 | 主营产品 | Others |
---|---|---|
松灵AgileX | pipper 六轴机械臂 PIKA 数采方案Cobot Magic 双臂遥操作平台移动底盘 | 面向教育科研 |
宇树Unitree | 四足机器人开发指南Go2机器狗AlienGo机器狗通用人形H1通用人形G1 | 许多产出使用宇树的机器人作为硬件基础 |
方舟无限ARX | X5机械臂X7双臂平台R5机械臂 | 适合复现很多经典的工作, eg. alohaRoboTwin松灵底盘+方舟臂 |
波士顿动力 | spot机器狗Atlas通用人形 | 具身智能本体制造商, 从液压驱动转向电机驱动 |
灵心巧手 | Linker Hand L30(健绳驱动)Linker Hand L20(连杆驱动) | 主攻各类灵巧手 |
灵巧智能DexRobot | Dexhand 021灵巧手 | 19自由度量产灵巧手 |
银河通用 | GALBOT G1 | 专注于具身智能多模态大模型通用机器人研发 |
星海图Galaxea | A1六轴机械臂 R1-Pro 仿人形机器人 | 软硬件产品均自主研发,专注于打造”一脑多型” |
World Labs | 专注于空间智能, 致力于打造大型世界模型(LWM), 以感知、生成并与 3D 世界进行交互。 相关介绍 | |
星动纪元 | Star1人形 XHAND1灵巧手 | |
加速进化 | Booster T1人形 | |
青龙机器人 | ||
云深处科技 | 绝影X30四足机器人 Dr.01人形机器人 | |
松应科技 | 具身智能仿真平台供应商 | |
光轮智能 | 具身智能数据平台 | |
智元机器人 | 远征A2人形机器人远征A2-W 轮式人形灵犀X1 人形机器人精灵G1 轮式人形 | |
Nvidia | 具身智能基建公司 | |
求之科技 | TOK2 移动主从臂平台MMK2 移动升降双臂平台 Play 六轴机械臂 | |
穹彻智能 | ||
优必选 | ||
具身风暴 | 落地具身智能通用按摩机器人 | |
众擎机器人 | SE 01PM 01 | |
魔法原子 | MagicBotMagicDog |
常见仿真器wiki: wiki
教程:
具身智能常用benchmark总结 [1]: zhihu
本文转载/引用了一些博主的文章, 我们对他们的知识分享表示感谢, 引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng
If you find this repository helpful, please consider citing:
@misc{embodiedaiguide2025,
title = {Embodied-AI-Guide},
author = {Embodied-AI-Guide-Contributors, Lumina-Embodied-AI-Community},
year = {2025},
howpublished = {\url{https://github.com/tianxingchen/Embodied-AI-Guide}},
}
This repository is released under the MIT license. See LICENSE for additional details.