AI早知道周刊 · 20260316-0322

周期：2026年3月16日 - 3月22日
来源：Latent.Space AINews + 社区精选
定位：每周 AI 行业动态精选

📦 本周焦点

大厂疯狂"买买买"

本周发生两起重量级收购，标志着 AI 巨头从"卷模型"转向"卷开发者工具链"。

OpenAI 收购 Astral——Astral 团队以开发 uv（Python 包管理）、ruff（Rust 写的高速 linter）、ty 而闻名。这是继 OpenAI 收购 OpenClaw、gpt-oss、Whisper 之后的又一开源布局。Astral 将加入 OpenAI Codex 团队，目标是巩固 Python 开发者生态的护城河。

Anthropic 收购 Bun——Bun 是由 Oven 开发的快速 JavaScript 运行时，原本旨在挑战 Node.js 和 Deno。Anthropic 收购 Bun 的意图很明显：为 Claude Code 补齐运行时能力，让 AI agent 能更高效地执行 JavaScript/TypeScript 代码。

💡 解读：有句评论很精准："Every lab serious enough about developers has bought their own devtools."（认真对待开发者的实验室都在收购开发者工具）—— 模型的差距在缩小，但开发工具链的争夺才刚开始。

Anysphere 发布了 Composer 2，这是首个采用"持续预训练 + 强化学习"路径训练的编程模型。关键数据：61.3% CursorBench、61.7% Terminal-Bench 2.0、73.7% SWE-bench Multilingual。定价也相当激进——$0.50/M input、$2.50/M output。团队规模约 40 人，专注软件工程任务，RL 训练分布在 3-4 个全球集群。

Claude Cowork 发布

Anthropic 终于发布了类似 OpenClaw 的远程控制产品 Claude Cowork，目前处于研究预览阶段。用户可以通过消息应用与 Claude Code 交互，Simon Willison 和 Ethan Mollick 都给出了正面评价。这是 Anthropic 对"OpenClaw 战略"的直接回应——Jensen 在 GTC 上说过"Every company needs an OpenClaw strategy"，现在 Anthropic 有了自己的答案。

GPT-5.4 mini/nano 发布

OpenAI 推出了定位最清晰的 small model：GPT-5.4 mini 比 GPT-5 mini 快 2 倍以上，专注 coding、computer use、multimodal understanding 和 subagents，API 提供 400k 上下文。更关键的是，它只消耗 30% 的 Codex 配额，这意味着开发者可以用更低成本跑 subagent 工作流。定价 $0.75/M input、$4.5/M output——虽然性能提升，但价格仍然高于竞争对手。

OpenAI Codex 增长惊人

Sam Altman 透露 Codex 周活用户已突破 200 万，年初至今增长近 4 倍。更夸张的数字：GPT-5.4 在发布一周内达到每日 5 万亿 tokens 处理量，$10 亿年化新收入。OpenAI 还在建设企业部署团队，Codex 正在从工具变成平台。

LangSmith Fleet 发布

LangChain 发布了 LangSmith Fleet，这是企业级 agent 管理平台。核心能力包括：fleet 级别的 memory、tools、permissions 控制， Slack 集成，审计日志。LangChain 强调这不仅仅是"更好的监控"，而是"AI operating system"——管理 agent 身份、凭证、共享控制。企业级 agent 部署的瓶颈不再是"模型能不能做"，而是"权限、影响范围、可观测性"。

🌍 开源模型

效率王者：MiniMax M2.7

本周最重磅的开源模型是 MiniMax M2.7。它在 SWE-Pro 达到 56.22%，Terminal Bench 2 达到 57%，40+ skills 上 97% 遵循率，与 Sonnet 4.6 持平。但真正让社区沸腾的是价格：$0.30/M input、$1.20/M output，仅为 GLM-5 的三分之一。Artificial Analysis 给了 49 分（与 GLM-5 Reasoning 相同），GDPval-AA Elo 1494，领先 MiMo-V2-Pro (1426) 和 GLM-5 (1406)。

更值得注意的是"自进化"标签。MiniMax 声称 M2.7 是首个"深度参与自我进化"的模型——它能够分析失败路径、规划修改、执行代码、评估结果，在内部评估集上实现了 30% 性能提升。MiniMax 还说 M2.7 能处理 30%-50% 的工作流自动化。虽然自进化目前还处于早期阶段，但这是"模型训练模型"的重要信号。

小米 MiMo-V2-Pro

小米发布了 MiMo-V2-Pro，定位 API-only reasoning 模型。得分 49 分（与 MiniMax 相同），1M 上下文，定价 $1/$3 per 1M。亮点是 token 效率较高，幻觉率低于竞品，因此 AA-Omniscience 得分 +5。这是继小米开源 MiMo-V2-Flash 之后的 Pro 版本，但目前仅提供 API。

Mamba-3 发布

Cartesia（前 Essential）发布了 Mamba-3，这是针对推理优化的状态空间模型（SSM）。Albert Gu 和 Tri Dao 联合发布，强调这是"MIMO variant"——在相同解码速度下提升模型强度，1.5B 参数下自称最强线性模型、最快 prefill+decode。核心信息：SSM 的价值不在于"取代 Transformer"，而在于推理效率——特别是长 rollout、推理密集型 RL 场景。

Mistral Small 4

Mistral 发布了 Small 4，这是一个 119B MoE 模型（128 experts，6.5B 激活），256k 上下文，支持多模态输入。Apache 2.0 开源许可证，包含 Instruct、Reasoning、Devstral 能力。延迟比前代降低 40%，支持 speculative decoding 和 4-bit float 量化。

Unsloth Studio

Unsloth 发布了 Studio，这是一款开源本地训练 web UI，声称训练 500+ 模型快 2 倍、节省 70% VRAM。支持 Mac/Windows/Linux、GGUF、vision、audio、embedding 模型。功能包括模型对比、自愈工具调用、代码执行、SVG 渲染、合成数据生成。安装只需 pip install unsloth。这是 LMStudio 的开源替代方案，目标是降低本地微调的门槛。

🔬 架构研究

Attention Residuals 引发热议

Moonshot Kimi 发布了 Attention Residuals 论文，这是本周技术讨论最热烈的话题。核心思想是让每层能够查询前一层状态，实现"层间记忆"——传统 attention 是 horizontal（序列内交互），这个新架构是 vertical（跨层交互）。

官方数据：1.25x compute 优势，<2% 推理延迟开销，在 Kimi Linear 48B（总参数）/3B（激活）上验证。Elon Musk 点赞了这个论文。

但争议也随之而来。社区很快指出这个想法与 DeepCrossAttention 等先前工作有重叠，质疑是否缺少引用。"behrouz_ali"发推批评这是"ML novelty inflation"——想法不新，但在大规模上验证了。其他人则反驳：工程可行性+规模验证本身就是贡献。最终共识是：这既是一个有价值的架构提案，也暴露了领域内"想法新颖性 vs 规模化验证"的老问题。

混合架构加速演进

Attention Residuals 并不是孤例。本周 Mamba-3 也在强调 SSM + Transformer 混合。社区讨论 Qwen3.5 和 Kimi Linear 可能集成 Mamba-3 的 Gated DeltaNet。架构探索正在从"下一个 Transformer 替代品"转向"在什么地方加什么层"——务实了很多。

🔧 基础设施

NVIDIA Vera CPU 发布

GTC 2026 上 Jensen 公布了 Vera CPU，这是 NVIDIA 的新型 CPU。结合 Blackwell 和 Rubin GPU，NVIDIA 的推理帝国版图更加完整。

P-EAGLE 重大突破

P-EAGLE 发布了，这是 vLLM 的 speculation decoding 优化。传统 speculation 是顺序生成（一个个猜），P-EAGLE 能"一次生成 K 个 draft tokens"。在 B200 上达到 1.69x EAGLE-3 加速，已集成 vLLM v0.16.0。

Ollama 成为 OpenClaw 官方 provider

OpenClaw 官方支持 Ollama 作为 backend，这意味着用户可以在本地用 Ollama 跑 OpenClaw agent。这是开源生态的重要一步——之前 Ollama 更偏向模型服务，现在与 agent 框架打通。

Hugging Face kernels 库

HF 新发布 kernels 库，目标让自定义核（fused kernels）的共享和集成更简单。之前每个模型团队都要自己写安装和集成逻辑，现在可以通过 Hub 直接分发。

Context Engineering = 下一个 Prompt Engineering

LlamaIndex 明确提出"context engineering"概念，认为它的角色是"prompt engineering 的继任者"。核心论点是：长上下文时代，如何高效地组织、检索、注入上下文比写 prompt 本身更重要。

📄 文档 / OCR

Chandra OCR 2

Vik Paruchuri（Markit Digital）发布了 Chandra OCR 2，声称 4B 参数达到 85.9% olmOCR bench，支持 90+ 语言，手写、数学、表格、公式、表格理解全面提升。

GLM-OCR 0.9B

智谱发布了仅 0.9B 的 OCR 模型，声称在 OCR 基准上超越 Gemini。这代表了 OCR 领域的"小模型复兴"——端侧部署成为可能。

LiteParse

LlamaIndex 开源了 LiteParse，一个零 Python 依赖的本地文档解析器，支持 PDF、Office 文档、图片，保留空间布局和 OCR 选项。目标场景是 agent pipeline——文档理解不应该只是转 markdown，需要 layout 检测、分段、元数据。

🏢 企业动态

NVIDIA GTC：Inference 是新的增长点

Jensen 在 GTC 2026 的 2 小时 keynote 中明确表态：未来计算机是"token 工厂"， inference 是下一个增长曲线。 Blackwell 和 Rubin 销售火爆，2027 年订单 backlog 达到 $1 万亿。NVIDIA 还发布了 NemoClaw——针对 OpenClaw 安全问题的解决方案，强调 zero permissions by default、sandboxed subagents、私有推理。

Perplexity Computer

Perplexity 的Computer 产品登陆 Android，现在可以直接控制浏览器，使用本地 cookie，无需 MCP 或 connector。用户体验是：授权浏览器后，agent 能在你眼皮底下操作网页。

Gemini Embedding 2

Google 发布了 Gemini Embedding 2 公开预览，这是首个在单一向量空间同时支持 text、image、video、audio 的 embedding 模型，覆盖 100+ 语言。这对生产级搜索/检索系统意义重大——不再需要多个模型处理不同模态。

Anthropic 的 8 万人调研

Anthropic 声称用 Claude 访谈了 80,508 人，关于 AI 的希望与恐惧——这是有史以来规模最大的定性 AI 调查。研究的意义不仅是社会测量，还证明"模型驱动的访谈"可能成为产品研究的标准能力。

美国人怎么看 AI？比 ICE 还讨厌

NBC News 调查显示：仅 26% 美国人对 AI 持正面态度，46% 负面——比移民执法机构 ICE 的口碑还差。评论指出：频繁使用 AI 的人仍然厌恶它，因为实际体验与宣传承诺差距太大。

📈 一句话新闻

Elon Musk 点赞 Moonshot Attention Residuals 论文
Anthropic CEO 预测：3 年内 50% 入门级白领工作将被 AI 取代
SkyPilot 在 K8s GPU 集群 8 小时跑 910 个实验
Discord 关闭了 AINews 的 Discord 数据访问
韦氏词典和《大英百科全书》起诉 OpenAI 侵权
Microsoft 用 $5 病理切片预测 300k 虚拟蛋白图谱
Runway 展示 <100ms 首帧视频生成（Vera Rubin 硬件）

🔗 原始链接

AINews 首页：https://www.latent.space/s/ainews
Archive：https://news.smol.ai/

AI 早知道 · 下期预告：3月23日-29日 欢迎反馈：下一期想加强哪个领域？