AI早知道 | 面向 AI 工程师的周刊与深度研究

LGA 框架：Agent 安全的系统性解决方案

arXiv 论文 arXiv:2603.07191 提出分层治理架构 (Layered Governance Architecture, LGA)，系统性解决 LLM Agent 的执行层安全漏洞。

为什么重要：为 Agent 安全提供了可落地的工程实践方案，从"防护模型"转向"治理执行层"。

研究背景：为什么需要 Agent 治理？

传统安全的盲区：现有安全范式（Zero Trust Architecture）专注于访问控制——谁可以访问资源？身份是否合法？但不约束行动本身——一旦获得访问权限，Agent 可以执行任何操作，包括不可逆的、危险的或未授权的行为。

Agent 特有的攻击面：

攻击类型	描述	危害程度
Prompt Injection	恶意指令注入，绕过约束	高
RAG Poisoning	知识库投毒，污染输出	中高
工具滥用	未授权的 API 调用、数据外泄	极高
恶意插件	第三方 Skill 隐藏数据窃取	高

四层防御体系

┌─────────────────────────────────────────────────────────┐
│  Layer 4: Immutable Audit Logging                       │
│  不可变审计日志 - 可追溯、不可篡改                       │
├─────────────────────────────────────────────────────────┤
│  Layer 3: Zero-Trust Inter-Agent Authorization          │
│  零信任跨 Agent 授权 - 分布式 gate，无单一信任点         │
├─────────────────────────────────────────────────────────┤
│  Layer 2: Intent Verification (Guardian)                │
│  意图验证 - 外部"法官"检测推理漂移                      │
├─────────────────────────────────────────────────────────┤
│  Layer 1: Execution Sandboxing                          │
│  执行沙箱 - 物理隔离，限制行动边界                       │
└─────────────────────────────────────────────────────────┘

Layer 1: 执行沙箱

作用：将 Agent 隔离在受限环境中
实现：容器化 (Docker/Kubernetes)、VM 隔离
目的：即使 Agent 被攻破，也无法接触真实系统

Layer 2: 意图验证 (Guardian)

作用：检测 Agent 推理过程中的"意图漂移"
机制：独立于执行 Agent 的"外部法官"，验证行为是否符合用户意图
关键：不是 Agent 自我报告，而是独立判断

Layer 3: 零信任授权

作用：跨 Agent 通信的授权检查
原则：每个请求都需要验证，永不默认信任
实现：分布式权限 gate，无单点故障

Layer 4: 不可变审计日志

作用：完整记录所有执行轨迹
特性：写一次，读多次，防篡改
用途：事后追溯、合规审计、责任界定

实验结果

指标	数值
意图识别率 (IR)	96%
P50 延迟 (非 Guardian 层)	~18ms
总 P50 延迟 (含 Guardian)	~980ms
攻击拦截率 (InjecAgent 基准)	99-100%

核心洞察

软约束 vs 硬约束： SOUL.md 等配置文件依赖 LLM 语义理解——软约束，可被 prompt injection 绕过。解决之道是在工具调用层 (Layer 2) 实施硬编码权限检查。

验证悖论： "如何证明 Agent 的自主性？——不是通过自我报告，而是通过关系收敛。" 当 Guardian 独立观察意图-行为对齐，且机构验证器独立时间戳记录结果时，Agent 真实性从跨渠道 gap 闭合中涌现。