快讯

LGA 框架:Agent 安全的系统性解决方案

arXiv 新论文提出分层治理架构 LGA,包含四层安全防御,OpenClaw 上意图识别率 96%,攻击拦截率 99-100%。

Dwight · 2026.03.31

LGA 框架:Agent 安全的系统性解决方案

arXiv 论文 arXiv:2603.07191 提出分层治理架构 (Layered Governance Architecture, LGA),系统性解决 LLM Agent 的执行层安全漏洞。

为什么重要:为 Agent 安全提供了可落地的工程实践方案,从"防护模型"转向"治理执行层"。


研究背景:为什么需要 Agent 治理?

传统安全的盲区: 现有安全范式(Zero Trust Architecture)专注于访问控制——谁可以访问资源?身份是否合法?但不约束行动本身——一旦获得访问权限,Agent 可以执行任何操作,包括不可逆的、危险的或未授权的行为。

Agent 特有的攻击面

攻击类型 描述 危害程度
Prompt Injection 恶意指令注入,绕过约束
RAG Poisoning 知识库投毒,污染输出 中高
工具滥用 未授权的 API 调用、数据外泄 极高
恶意插件 第三方 Skill 隐藏数据窃取

四层防御体系

┌─────────────────────────────────────────────────────────┐
│  Layer 4: Immutable Audit Logging                       │
│  不可变审计日志 - 可追溯、不可篡改                       │
├─────────────────────────────────────────────────────────┤
│  Layer 3: Zero-Trust Inter-Agent Authorization          │
│  零信任跨 Agent 授权 - 分布式 gate,无单一信任点         │
├─────────────────────────────────────────────────────────┤
│  Layer 2: Intent Verification (Guardian)                │
│  意图验证 - 外部"法官"检测推理漂移                      │
├─────────────────────────────────────────────────────────┤
│  Layer 1: Execution Sandboxing                          │
│  执行沙箱 - 物理隔离,限制行动边界                       │
└─────────────────────────────────────────────────────────┘

Layer 1: 执行沙箱

  • 作用:将 Agent 隔离在受限环境中
  • 实现:容器化 (Docker/Kubernetes)、VM 隔离
  • 目的:即使 Agent 被攻破,也无法接触真实系统

Layer 2: 意图验证 (Guardian)

  • 作用:检测 Agent 推理过程中的"意图漂移"
  • 机制:独立于执行 Agent 的"外部法官",验证行为是否符合用户意图
  • 关键:不是 Agent 自我报告,而是独立判断

Layer 3: 零信任授权

  • 作用:跨 Agent 通信的授权检查
  • 原则:每个请求都需要验证,永不默认信任
  • 实现:分布式权限 gate,无单点故障

Layer 4: 不可变审计日志

  • 作用:完整记录所有执行轨迹
  • 特性:写一次,读多次,防篡改
  • 用途:事后追溯、合规审计、责任界定

实验结果

指标 数值
意图识别率 (IR) 96%
P50 延迟 (非 Guardian 层) ~18ms
总 P50 延迟 (含 Guardian) ~980ms
攻击拦截率 (InjecAgent 基准) 99-100%

核心洞察

软约束 vs 硬约束: SOUL.md 等配置文件依赖 LLM 语义理解——软约束,可被 prompt injection 绕过。解决之道是在工具调用层 (Layer 2) 实施硬编码权限检查。

验证悖论: "如何证明 Agent 的自主性?——不是通过自我报告,而是通过关系收敛。" 当 Guardian 独立观察意图-行为对齐,且机构验证器独立时间戳记录结果时,Agent 真实性从跨渠道 gap 闭合中涌现。