返回文章列表
技术

李飞飞团队的 Agent 智能体:让 AI 不只会"看",还要会"做"

从 ImageNet 到具身智能,李飞飞团队如何推动 AI 从"看懂世界"走向"改变世界"——Agent 智能体的核心原理与前沿进展。

Agent 具身智能 李飞飞 AI 空间智能
目录

2012 年,一个叫 AlexNet 的模型在 ImageNet 竞赛中碾压所有传统方法,深度学习时代正式开启。

推动这一切的人,叫李飞飞——ImageNet 的缔造者。

十多年后,她的目光早已不在”看图”上。她要让 AI 不只会看,还要会做

这就是具身智能体(Embodied Agent)

一、从”看懂”到”做到”

1.1 AI 的三阶段

回顾 AI 的发展,可以分为三个阶段:

阶段能力代表技术比喻
感知能看懂图片/文字CNN, ImageNet眼睛
理解能理解语义和关系Transformer, GPT大脑
行动能在环境中完成任务Agent, 具身智能双手

当前我们正处于从”理解”到”行动”的关键转折点。

1.2 什么是 Agent?

Agent(智能体) 是一个能自主感知环境、做出决策、执行行动的 AI 系统。

Agent 智能体工作流程

和普通 AI 模型的区别:

普通 AI 模型Agent 智能体
输入单次输入持续感知环境
输出单次输出多步行动序列
记忆无记忆有短期/长期记忆
工具不能用工具可以调用工具
目标回答问题完成任务

打个比方:

普通 AI 就像一个字典——你问它什么,它回答什么。

Agent 就像一个管家——你说”帮我打扫房间”,它自己规划怎么做,然后动手干活。

1.3 李飞飞的愿景

2024 年,李飞飞在多个场合提出:

空间智能(Spatial Intelligence)是通向 AGI 的关键路径。

什么意思?

就是 AI 不仅要能理解文本和图片,还要能理解三维空间——知道物体在哪里、怎么移动、如何交互。

空间智能示意图

这才是让 AI 真正”活”在物理世界中的关键。

二、李飞飞团队的核心贡献

2.1 ImageNet:一切的起点

在谈 Agent 之前,必须先说 ImageNet。

ImageNet 数据集

年份事件
2007李飞飞开始构建 ImageNet
2009ImageNet 发布,包含 1500 万张标注图片
2012AlexNet 在 ImageNet 上碾压传统方法,深度学习爆发
2015ResNet 在 ImageNet 上超越人类水平

没有 ImageNet,就没有今天的深度学习,更没有今天的 Agent。

2.2 BEHAVIOR:让 Agent 有”家务能力”

2021 年,李飞飞团队提出了 BEHAVIOR 基准测试。

BEHAVIOR 基准测试

BEHAVIOR 的全称是 Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments

简单说——

在虚拟环境里测试 AI 能不能完成日常家务:做饭、洗碗、叠衣服、打扫卫生…

为什么这很重要?

因为之前的 AI 测试都是”做题”(回答问题、分类图片),而 BEHAVIOR 是”干活”——让 AI 在三维模拟环境中真正操作物体。

任务类型示例
清洁类打扫厨房、洗碗、擦桌子
烹饪类做三明治、煮咖啡、切菜
收纳类叠衣服、整理书架、收玩具
维护类浇花、修东西、换灯泡

BEHAVIOR 包含 1000+ 种日常任务,是当时最大的具身智能测试平台。

2.3 VoxPoser:用语言指挥机器人

2023 年,李飞飞团队发表了 VoxPoser

VoxPoser 工作原理

VoxPoser 的核心思想:

大语言模型(LLM) 理解自然语言指令,然后生成三维空间中的操作约束,指导机器人完成任务。

举个例子:

人类指令:"把杯子放在盘子旁边"

LLM 理解:
  - "杯子" → 物体 A
  - "盘子" → 物体 B
  - "旁边" → 空间关系约束

生成操作:
  - 抓取物体 A
  - 移动到物体 B 的旁边位置(约 10cm 偏移)
  - 放下

VoxPoser 的创新在于:

  1. 不需要专门训练:用 LLM 的知识直接理解空间关系
  2. 零样本泛化:没见过的任务也能做
  3. 可解释:每一步都有明确的空间约束

2.4 3D-LLM:让语言模型理解三维世界

传统的 LLM 只能处理文本,但真实世界是三维的。

李飞飞团队提出了 3D-LLM——一个能理解三维场景的语言模型。

3D-LLM 架构

3D-LLM 能做什么?

能力示例
3D 问答”客厅里有几把椅子?“
空间推理”书架在桌子的哪个方向?“
导航指令”从门口走到窗户旁边”
操作规划”把红色的杯子放到桌上”

这就像给 LLM 装上了一双三维的眼睛,让它真正”看懂”物理空间。

三、Agent 的技术架构

3.1 感知模块

Agent 首先需要感知环境

Agent 智能体工作流程

环境输入

    ├── 视觉:摄像头图像、深度图
    ├── 语言:自然语言指令
    └── 触觉:力传感器反馈


感知模块

    ├── 物体识别:这是什么?
    ├── 场景理解:环境是什么样的?
    └── 状态估计:物体在哪里?什么状态?

3.2 规划模块

感知之后,Agent 需要规划行动

目标:"把杯子放到桌上"


高层规划:找到杯子 → 抓取杯子 → 移动到桌上 → 放下


底层规划:具体的手臂轨迹、力度控制

李飞飞团队发现,LLM 是天然的规划器——它能理解复杂指令,分解成可执行的步骤。

3.3 记忆模块

Agent 需要记住之前做过什么:

记忆类型作用例子
工作记忆当前任务的临时信息”正在拿杯子”
情景记忆过去的经历”上次做饭烧焦了锅”
语义记忆通用知识”杯子是用来装水的”

3.4 执行模块

最后,Agent 需要执行行动

Agent 执行模块

在虚拟环境中,用物理引擎模拟真实世界。

在真实世界中,用机器人硬件执行操作。

四、World Labs:空间智能的未来

2024 年,李飞飞创立了 World Labs,专注于空间智能

World Labs 愿景

World Labs 的目标:

让 AI 理解三维世界的物理规律,能够在三维空间中推理和行动

核心技术方向:

方向说明
3D 场景重建从少量图片生成完整三维场景
空间推理理解物体之间的空间关系
物理模拟理解重力、碰撞等物理规律
交互生成生成与环境交互的行动序列

这意味着什么?

未来的 AI 不只是聊天机器人,而是能在物理世界中帮你做事的智能体。

想象一下:

  • 你说”帮我整理书架”,AI 机器人真的去整理
  • 你说”做个番茄炒蛋”,AI 厨师真的去做
  • 你说”把房间打扫干净”,AI 清洁工开始工作

五、Agent 的应用场景

5.1 家庭服务

家庭服务 Agent

场景Agent 能做什么
烹饪根据菜谱自动做饭
清洁规划清洁路线,打扫房间
照顾看护老人、陪伴小孩
维修检查设备故障,简单维修

5.2 工业制造

场景Agent 能做什么
装配自动组装零件
质检检查产品质量
搬运自动搬运物料
巡检检查设备状态

5.3 医疗健康

场景Agent 能做什么
手术辅助辅助医生完成精细手术
康复训练指导患者做康复运动
药物递送自动送药到病房
环境消毒自动消毒杀菌

六、挑战与展望

6.1 当前挑战

Agent 还面临很多挑战:

挑战说明
泛化能力在 A 环境学会的技能,到 B 环境就不灵了
安全性机器人操作可能造成物理伤害
长程规划复杂任务的规划还不够好
真实世界差距仿真环境和真实世界有差距

6.2 李飞飞的预测

李飞飞在 2024 年的演讲中说:

未来 5-10 年,Agent 将从实验室走向千家万户。

她认为:

  1. 空间智能是下一个突破点
  2. 多模态融合(视觉+语言+触觉)是关键
  3. 安全可控是前提条件
  4. 人机协作是最终形态——不是取代人,而是帮助人

七、总结

Agent 智能体工作流程

Agent 智能体的核心要点:

  1. 从看懂到做到:AI 不只是回答问题,而是完成任务
  2. 空间智能:理解三维世界是具身智能的关键
  3. BEHAVIOR:在虚拟环境中测试 Agent 的家务能力
  4. VoxPoser:用语言指挥机器人,零样本泛化
  5. 3D-LLM:让语言模型理解三维空间
  6. World Labs:李飞飞的空间智能创业公司

记住这句话:

Agent 的本质是让 AI 从”思考者”变成”行动者”。

就像人类不只是用大脑思考,还要用手去创造——Agent 就是 AI 的”手”和”脚”。


参考文献:

  • Li Fei-Fei et al., “ImageNet: A Large-Scale Hierarchical Image Database”, CVPR 2009
  • Srivastava et al., “BEHAVIOR: Benchmark for Everyday Household Activities”, ICLR 2022
  • Huang et al., “VoxPoser: Composable 3D Value Maps for Robotic Manipulation”, CoRL 2023
  • Hong et al., “3D-LLM: Injecting the 3D World into Large Language Models”, NeurIPS 2023
  • Li Fei-Fei, “World Labs: Spatial Intelligence as the Path to AGI”, 2024
所有文章

评论