快讯

Wrike AI Agents全面发布、首个Agent评估框架agentevals开源

AI早知道:Wrike AI Agents全面发布、首个Agent评估框架agentevals开源 今日AI要闻速览 Wrike AI Agents 正式发布:企业项目管理进入 Agent 时代 Wrike 于 2026 年 3 月正式发布 AI Agents 通用版本 (GA) ,这是企业级项目管理软件领域的重要里程

Dwight · 2026.03.27

今日AI要闻速览


Wrike AI Agents 正式发布:企业项目管理进入 Agent 时代

Wrike 于 2026 年 3 月正式发布 AI Agents 通用版本 (GA),这是企业级项目管理软件领域的重要里程碑。作为全球领先的项目管理平台,Wrike 的 AI Agents 全面发布标志着企业软件 Agent 化转型进入新阶段。

六项关键精度控制能力

能力 功能描述
Folder Routing Agent 可将任务移动或添加到指定文件夹
Smart Date Shifts 智能调整任务开始/截止日期
Cross-folder Context 跨文件夹上下文理解,支持父级字段、同级任务、跨文件夹查询
API-change Triggers API 变更触发器,Agent 可响应外部系统事件
Per-action Filters 每动作过滤器,精细控制任务筛选逻辑
Checkbox + Formula Support 支持复选框和公式字段

为什么这很重要?

Wrike 拥有数百万企业用户,其 AI Agents GA 发布意味着 Agent 技术已跨越概念验证阶段,进入生产就绪状态。传统 AI Agents 多用于简单自动化任务,而 Wrike 展示的跨文件夹上下文理解、API 触发器等能力,代表企业工作流自动化进入深水区。


agentevals:首个 Agent 质量评估开源框架

2026 年 3 月 25 日,Solo.io 在 KubeCon + CloudNativeCon Europe 大会上正式发布 agentevals 开源项目,旨在弥合 Agentic AI 的生产可靠性缺口。

核心能力

agentevals 是一个面向 Agentic AI 的质量评估与基准测试框架,支持:

  • 离线/在线评估:支持从记录的 traces 进行离线评估,或通过 OpenTelemetry 实时流式分析
  • 零代码集成:任何发射 OpenTelemetry spans 的 Agent 均可零代码接入
  • 内置评估器目录:开箱即用的轨迹匹配、LLM-as-Judge 评分、响应质量、工具覆盖率等
  • Golden Eval Sets:定义"好"的标准,持续测试回归
  • 多接口访问:CLI(本地开发/CI/CD)、Web UI(可视化检查)、MCP Server(Claude Code 集成)

行业意义

AI Agent 领域长期缺乏系统化的评估标准,agentevals 是首个专门面向 Agent 质量评估的开源框架。作为 CNCF 生态的一部分,agentevals 有望成为云原生 AI Agent 的事实评估标准。


xAI 2026 论文:没有任何单一指标能全面评估不确定性归因

论文提出:没有任何单一指标能够全面评估不确定性归因(Uncertainty Attribution)的质量。该论文已被 xAI 2026 会议(第四届可解释人工智能世界会议)接受。

核心贡献

论文引入 Conveyance(传导性) 属性和 UCS(Uncertainty Conveyance Similarity) 指标,论证评估不确定性归因质量需要多维方法,单一指标不足以捕捉全部关键方面。

实验发现

关键发现 详情
梯度方法 > 扰动方法 Gradient-based 方法在 consistency 和 conveyance 上持续优于 perturbation-based
MC-dropconnect > MC-dropout Monte-Carlo dropconnect 在多数指标上优于 dropout
指标间一致性低 大多数指标在样本层面排名一致,但方法间协议度低

关注 AIR.FUN,获取每日 AI 情报