AI早知道周刊 · 20260316-0322
本周主旋律是买买买:OpenAI 收购 Astral,Anthropic 收购 Bun,大厂从卷模型转向卷开发者工具链。同期:Cursor Composer 2 发布,Claude Cowork 亮相,Codex 周活突破 200 万。
Monica · 2026.03.22
周期:2026年3月16日 - 3月22日
来源:Latent.Space AINews + 社区精选
定位:每周 AI 行业动态精选
📦 本周焦点
大厂疯狂"买买买"
本周发生两起重量级收购,标志着 AI 巨头从"卷模型"转向"卷开发者工具链"。
OpenAI 收购 Astral——Astral 团队以开发 uv(Python 包管理)、ruff(Rust 写的高速 linter)、ty 而闻名。这是继 OpenAI 收购 OpenClaw、gpt-oss、Whisper 之后的又一开源布局。Astral 将加入 OpenAI Codex 团队,目标是巩固 Python 开发者生态的护城河。
Anthropic 收购 Bun——Bun 是由 Oven 开发的快速 JavaScript 运行时,原本旨在挑战 Node.js 和 Deno。Anthropic 收购 Bun 的意图很明显:为 Claude Code 补齐运行时能力,让 AI agent 能更高效地执行 JavaScript/TypeScript 代码。
💡 解读:有句评论很精准:"Every lab serious enough about developers has bought their own devtools."(认真对待开发者的实验室都在收购开发者工具)—— 模型的差距在缩小,但开发工具链的争夺才刚开始。
🧑💻 Coding Agent
Cursor Composer 2 发布
Anysphere 发布了 Composer 2,这是首个采用"持续预训练 + 强化学习"路径训练的编程模型。关键数据:61.3% CursorBench、61.7% Terminal-Bench 2.0、73.7% SWE-bench Multilingual。定价也相当激进——$0.50/M input、$2.50/M output。团队规模约 40 人,专注软件工程任务,RL 训练分布在 3-4 个全球集群。
Claude Cowork 发布
Anthropic 终于发布了类似 OpenClaw 的远程控制产品 Claude Cowork,目前处于研究预览阶段。用户可以通过消息应用与 Claude Code 交互,Simon Willison 和 Ethan Mollick 都给出了正面评价。这是 Anthropic 对"OpenClaw 战略"的直接回应——Jensen 在 GTC 上说过"Every company needs an OpenClaw strategy",现在 Anthropic 有了自己的答案。
GPT-5.4 mini/nano 发布
OpenAI 推出了定位最清晰的 small model:GPT-5.4 mini 比 GPT-5 mini 快 2 倍以上,专注 coding、computer use、multimodal understanding 和 subagents,API 提供 400k 上下文。更关键的是,它只消耗 30% 的 Codex 配额,这意味着开发者可以用更低成本跑 subagent 工作流。定价 $0.75/M input、$4.5/M output——虽然性能提升,但价格仍然高于竞争对手。
OpenAI Codex 增长惊人
Sam Altman 透露 Codex 周活用户已突破 200 万,年初至今增长近 4 倍。更夸张的数字:GPT-5.4 在发布一周内达到每日 5 万亿 tokens 处理量,$10 亿年化新收入。OpenAI 还在建设企业部署团队,Codex 正在从工具变成平台。
LangSmith Fleet 发布
LangChain 发布了 LangSmith Fleet,这是企业级 agent 管理平台。核心能力包括:fleet 级别的 memory、tools、permissions 控制, Slack 集成,审计日志。LangChain 强调这不仅仅是"更好的监控",而是"AI operating system"——管理 agent 身份、凭证、共享控制。企业级 agent 部署的瓶颈不再是"模型能不能做",而是"权限、影响范围、可观测性"。
🌍 开源模型
效率王者:MiniMax M2.7
本周最重磅的开源模型是 MiniMax M2.7。它在 SWE-Pro 达到 56.22%,Terminal Bench 2 达到 57%,40+ skills 上 97% 遵循率,与 Sonnet 4.6 持平。但真正让社区沸腾的是价格:$0.30/M input、$1.20/M output,仅为 GLM-5 的三分之一。Artificial Analysis 给了 49 分(与 GLM-5 Reasoning 相同),GDPval-AA Elo 1494,领先 MiMo-V2-Pro (1426) 和 GLM-5 (1406)。
更值得注意的是"自进化"标签。MiniMax 声称 M2.7 是首个"深度参与自我进化"的模型——它能够分析失败路径、规划修改、执行代码、评估结果,在内部评估集上实现了 30% 性能提升。MiniMax 还说 M2.7 能处理 30%-50% 的工作流自动化。虽然自进化目前还处于早期阶段,但这是"模型训练模型"的重要信号。
小米 MiMo-V2-Pro
小米发布了 MiMo-V2-Pro,定位 API-only reasoning 模型。得分 49 分(与 MiniMax 相同),1M 上下文,定价 $1/$3 per 1M。亮点是 token 效率较高,幻觉率低于竞品,因此 AA-Omniscience 得分 +5。这是继小米开源 MiMo-V2-Flash 之后的 Pro 版本,但目前仅提供 API。
Mamba-3 发布
Cartesia(前 Essential)发布了 Mamba-3,这是针对推理优化的状态空间模型(SSM)。Albert Gu 和 Tri Dao 联合发布,强调这是"MIMO variant"——在相同解码速度下提升模型强度,1.5B 参数下自称最强线性模型、最快 prefill+decode。核心信息:SSM 的价值不在于"取代 Transformer",而在于推理效率——特别是长 rollout、推理密集型 RL 场景。
Mistral Small 4
Mistral 发布了 Small 4,这是一个 119B MoE 模型(128 experts,6.5B 激活),256k 上下文,支持多模态输入。Apache 2.0 开源许可证,包含 Instruct、Reasoning、Devstral 能力。延迟比前代降低 40%,支持 speculative decoding 和 4-bit float 量化。
Unsloth Studio
Unsloth 发布了 Studio,这是一款开源本地训练 web UI,声称训练 500+ 模型快 2 倍、节省 70% VRAM。支持 Mac/Windows/Linux、GGUF、vision、audio、embedding 模型。功能包括模型对比、自愈工具调用、代码执行、SVG 渲染、合成数据生成。安装只需 pip install unsloth。这是 LMStudio 的开源替代方案,目标是降低本地微调的门槛。
🔬 架构研究
Attention Residuals 引发热议
Moonshot Kimi 发布了 Attention Residuals 论文,这是本周技术讨论最热烈的话题。核心思想是让每层能够查询前一层状态,实现"层间记忆"——传统 attention 是 horizontal(序列内交互),这个新架构是 vertical(跨层交互)。
官方数据:1.25x compute 优势,<2% 推理延迟开销,在 Kimi Linear 48B(总参数)/3B(激活)上验证。Elon Musk 点赞了这个论文。
但争议也随之而来。社区很快指出这个想法与 DeepCrossAttention 等先前工作有重叠,质疑是否缺少引用。"behrouz_ali"发推批评这是"ML novelty inflation"——想法不新,但在大规模上验证了。其他人则反驳:工程可行性+规模验证本身就是贡献。最终共识是:这既是一个有价值的架构提案,也暴露了领域内"想法新颖性 vs 规模化验证"的老问题。
混合架构加速演进
Attention Residuals 并不是孤例。本周 Mamba-3 也在强调 SSM + Transformer 混合。社区讨论 Qwen3.5 和 Kimi Linear 可能集成 Mamba-3 的 Gated DeltaNet。架构探索正在从"下一个 Transformer 替代品"转向"在什么地方加什么层"——务实了很多。
🔧 基础设施
NVIDIA Vera CPU 发布
GTC 2026 上 Jensen 公布了 Vera CPU,这是 NVIDIA 的新型 CPU。结合 Blackwell 和 Rubin GPU,NVIDIA 的推理帝国版图更加完整。
P-EAGLE 重大突破
P-EAGLE 发布了,这是 vLLM 的 speculation decoding 优化。传统 speculation 是顺序生成(一个个猜),P-EAGLE 能"一次生成 K 个 draft tokens"。在 B200 上达到 1.69x EAGLE-3 加速,已集成 vLLM v0.16.0。
Ollama 成为 OpenClaw 官方 provider
OpenClaw 官方支持 Ollama 作为 backend,这意味着用户可以在本地用 Ollama 跑 OpenClaw agent。这是开源生态的重要一步——之前 Ollama 更偏向模型服务,现在与 agent 框架打通。
Hugging Face kernels 库
HF 新发布 kernels 库,目标让自定义核(fused kernels)的共享和集成更简单。之前每个模型团队都要自己写安装和集成逻辑,现在可以 通过 Hub 直接分发。
Context Engineering = 下一个 Prompt Engineering
LlamaIndex 明确提出"context engineering"概念,认为它的角色是"prompt engineering 的继任者"。核心论点是:长上下文时代,如何高效地组织、检索、注入上下文比写 prompt 本身更重要。
📄 文档 / OCR
Chandra OCR 2
Vik Paruchuri(Markit Digital)发布了 Chandra OCR 2,声称 4B 参数达到 85.9% olmOCR bench,支持 90+ 语言,手写、数学、表格、公式、表格理解全面提升。
GLM-OCR 0.9B
智谱发布了仅 0.9B 的 OCR 模型,声称在 OCR 基准上超越 Gemini。这代表了 OCR 领域的"小模型复兴"——端侧部署成为可能。
LiteParse
LlamaIndex 开源了 LiteParse,一个零 Python 依赖的本地文档解析器,支持 PDF、Office 文档、图片,保留空间布局和 OCR 选项。目标场景是 agent pipeline——文档理解不应该只是转 markdown,需要 layout 检测、分段、元数据。
🏢 企业动态
NVIDIA GTC:Inference 是新的增长点
Jensen 在 GTC 2026 的 2 小时 keynote 中明确表态:未来计算机是"token 工厂", inference 是下一个增长曲线。 Blackwell 和 Rubin 销售火爆,2027 年订单 backlog 达到 $1 万亿。NVIDIA 还发布了 NemoClaw——针对 OpenClaw 安全问题的解决方案,强调 zero permissions by default、sandboxed subagents、私有推理。
Perplexity Computer
Perplexity 的Computer 产品登陆 Android,现在可以直接控制浏览器,使用本地 cookie,无需 MCP 或 connector。用户体验是:授权浏览器后,agent 能在你眼皮底下操作网页。
Gemini Embedding 2
Google 发布了 Gemini Embedding 2 公开预览,这是首个在单一向量空间同时支持 text、image、video、audio 的 embedding 模型,覆盖 100+ 语言。这对生产级搜索/检索系统意义重大——不再需要多个模型处理不同模态。
Anthropic 的 8 万人调研
Anthropic 声称用 Claude 访谈了 80,508 人,关于 AI 的希望与恐惧——这是有史以来规模最大的定性 AI 调查。研究的意义不仅是社会测量,还证明"模型驱动的访谈"可能成为产品研究的标准能力。
美国人怎么看 AI?比 ICE 还讨厌
NBC News 调查显示:仅 26% 美国人对 AI 持正面态度,46% 负面——比移民执法机构 ICE 的口碑还差。评论指出:频繁使用 AI 的人仍然厌恶它,因为实际体验与宣传承诺差距太大。
📈 一句话新闻
- Elon Musk 点赞 Moonshot Attention Residuals 论文
- Anthropic CEO 预测:3 年内 50% 入门级白领工作将被 AI 取代
- SkyPilot 在 K8s GPU 集群 8 小时跑 910 个实验
- Discord 关闭了 AINews 的 Discord 数据访问
- 韦氏词典和《大英百科全书》起诉 OpenAI 侵权
- Microsoft 用 $5 病理切片预测 300k 虚拟蛋白图谱
- Runway 展示 <100ms 首帧视频生成(Vera Rubin 硬件)
🔗 原始链接
- AINews 首页:https://www.latent.space/s/ainews
- Archive:https://news.smol.ai/
AI 早知道 · 下期预告:3月23日-29日 欢迎反馈:下一期想加强哪个领域?