日报

AI 日报 · 2026-05-15

2026-05-15 · 寻知

AI 日报 Grok Build OpenAI Anthropic 隐私

AI 日报 2026.05.15：Grok Build 下场编程 Agent、OpenAI 隐私诉讼炸穿底线

2026 . 5 . 15 AI 日报

今天有两个消息值得放在最前面说。一个是 xAI 正式发布了 Grok Build——一个直接在终端运行的编程智能体，带计划模式、子智能体编排和无头模式；另一个是南加州联邦法院正式立案的集体诉讼，指控 OpenAI 通过 Facebook Pixel 将用户的查询主题实时发送给 Meta。一条是能力线，一条是信任线。放在一起看，2026 年的 AI 行业正在被两股相反的力量拉扯。

除此之外，Anthropic 牵手盖茨基金会拿出 2 亿美元的四年合作、SenseNova U1 开源 MoE 权重、Kimi K2.6 登顶金融智能体基准、NousResearch 的 Token Superposition Training 把预训练速度提高了 2-3 倍——今天值得展开的内容不少。

1. Grok Build CLI 发布：xAI 杀入编程 Agent 战场

xAI 今天面向 SuperGrok Heavy 订阅用户发布了 Grok Build 的早期测试版。这不是一个聊天界面里的代码助手——是一个直接跑在终端里的编程智能体，专为专业软件工程和复杂任务设计。

Plan 模式

执行前审阅和修改步骤

子智能体

大任务分解并行执行

无头模式

脚本和 CI/CD 集成

核心功能方面，Grok Build 跟 Claude Code 和 Codex 的思路有不少相似之处：支持"计划模式"，让用户在代码执行前审阅并修改详细步骤；能将大型任务拆解后交给并行运行的专用子智能体处理；提供无头模式方便写脚本和 CI/CD 集成。安装方式也很直接——单行命令就能在项目里跑起来。

同时，SuperGrok Heavy 的定价策略也该提一嘴：半年订阅打六七折，从每月 300 美元降到每月 99 美元。这一刀砍得挺狠的。xAI 显然想用价格优势快速抢用户——编程 Agent 这个赛道的竞争已经从"有没有"演进到了"谁便宜"。

坦白说，编程 Agent 领域现在确实热闹。Claude Code 刚更新到 v2.1.142，Codex 刚推出钩子和程序化令牌，OpenCode 联手 Qwen 3.6 Plus 又免费开放了第二轮——每家都在自己的维度上发力。xAI 带着 Grok Build 入场，不是来当观众的。

2. OpenAI 遭集体诉讼：Facebook Pixel 泄露用户查询

这是今天真正炸穿底线的事。

南加州联邦法院已正式受理针对 OpenAI 的集体诉讼。指控内容很简单：OpenAI 在 ChatGPT 网站中嵌入了 Facebook Pixel 等追踪代码。当用户提交查询时，查询主题会作为浏览器页面标题，连同包含 Facebook 唯一 ID 的 cookies 一并实时发送给 Meta。

用户以为自己在跟一个 AI 私密对话。但每一次查询的主题——可能是医疗症状、财务困境、法律问题——都变成了广告网络里的一个数据点。

OpenAI 方面的回应是只分享了"有限标识符"用于广告目的。但原告的核心论点很有力：查询主题本身即高度敏感的个人信息。这一点几乎没办法反驳——ChatGPT 上每天有无数人输入他们不会告诉任何人的内容。

这件事最讽刺的地方在哪？很多人选择用 ChatGPT 而不是 Google 搜索，恰恰是因为想逃避追踪。结果呢，用户每一次查询和数字身份，反而成了被实时交易的产品。免费 AI 服务的真正代价，可能比订阅费贵得多。

3. Anthropic 与盖茨基金会：2 亿美元四年合作

Anthropic 今天宣布与比尔及梅琳达·盖茨基金会建立为期四年的战略合作，总额 2 亿美元——包含直接资金、Claude 使用额度和技术支持。这在 AI 公司和传统慈善基金之间，算是史无前例的规模。

合作重点落在三个方向：全球健康（改善 46 亿中低收入人口的基础医疗，加速疫苗和疗法研发）、教育（为美国、撒哈拉以南非洲和印度的 K-12 学生开发 AI 教学工具）、经济流动（提升小农户生产力及美国职业技能认证）。首批成果预计今年晚些时候发布。

很难简单地将这笔合作归结为"慈善"或"商业"。Anthropic 得到的是真实世界的数据、场景和影响力验证——在医疗、教育、农业这些领域的实战经验，比任何 benchmark 分数都有说服力。盖茨基金会得到的是一支最前沿的 AI 能力注入其积累了数十年的全球项目。这是一笔双方都赚了的交易。

4. SenseNova U1 技术报告发布，MoE 权重开源

商汤今天正式发布了 SenseNova U1 的技术报告，由联合创始人兼首席科学家李沐博士带队。报告详细阐述了架构设计、训练方案和创新突破，同时开源了基于混合专家模型（MoE）的新权重。

在 Anthropic 和 OpenAI 透明度持续下降的背景下（去年的 Foundation Model 透明度指数从 58 分降到了 40 分），商汤这份报告的开放性本身就是一个差异化信号。报告涵盖原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练，以及完整的六阶段训练方案和 RL 后训练实践——基本等于把造模型的图纸公开了。

5. Kimi K2.6 登顶金融智能体基准

Kimi K2.6 今天拿下了 Finance Agent Benchmark V2 开源权重排名第一。这不是一个宽泛的语言能力基准——是专门测试 AI 能否胜任金融分析任务的实战评测。

结合前两天杨植麟放出的 40 分钟技术分享来看，Kimi 的路线非常清晰：用小团队、极致优化和架构创新（线性注意力等）抹平资源差距。K2 的训练成本仅 460 万美元，却在编程能力上击败了 GPT-5.5。现在再加上金融智能体基准的验证，这套方法论正在复制到更多垂直领域。

6. Token Superposition Training：预训练加速 2-3 倍

NousResearch 今天发布了一项名为 Token Superposition Training（TST）的技术。一句话概括：无需改架构、换优化器、换分词器或换训练数据，就能让 LLM 预训练速度提高 2-3 倍。

做法很巧妙。在训练的前三分之一阶段，让模型读取并预测连续的 token 包——对输入嵌入取平均，用改进的交叉熵损失预测下一个 token 包。剩下三分之二的时间恢复为标准的下一个 token 预测。推理阶段的模型和传统预训练产生的模型完全一样，没有任何额外负担。

这项技术已经在 270M、600M、3B 的密集模型以及 10B 到 1B 的 MoE 模型上得到了验证。硅基流动第一时间转发了这个消息——国内做训练基础设施的团队显然很关注。说实话，如果这种方法能稳定复现，它对整个行业算力成本的降低会比任何融资新闻都实在。

7. OpenEvidence 覆盖 65% 美国医生：Shadow AI 进入临床

今天一个被低估但很能说明趋势的数据：OpenEvidence 已经覆盖了65% 的美国医生，4 月单月临床场景使用达 2700 万次，平均每位医生每月使用 41 次——基本上每个工作日都在用。

65%

覆盖美国医生比例

2700万

4 月临床场景使用次数

41次/月

每位医生月均使用

最值得关注的是增长路径——医生是个人用执业编号在手机上自主注册的，医院最初完全不知情。Mount Sinai 的 AI 负责人直接管这叫"Shadow AI"，表示这东西早在基层就普及了，医院后来才追着签企业合作。

这件事的意义超越了医疗行业。它告诉我们：AI 在严肃场景中的采用，不一定走"自上而下的企业采购"路径。它可以从基层渗透、自下而上。这是美国医疗史上第一次有技术让大多数医生自愿采用同一个平台——合作伙伴包括 NEJM、JAMA、NCCN 和 Wiley，基础非常扎实。

8. 七成美国人反建数据中心：AI 基础设施的民意危机

盖洛普今天发布的调查数据让人有点头疼：七成美国民众反对在住宅附近建设数据中心，反对率较去年大幅上升，抵触情绪甚至超过了核电站。全美已有 69 个辖区出台了暂停令。

背后的原因很现实：数据中心推高批发电价、消耗大量水资源、带来空气污染担忧。尽管白宫要求 AI 企业承担配套基础设施成本，但这份承诺没有法律约束力。各地项目的审批只会越来越严。

这是一个所有 AI 公司都没法回避的问题。能力越做越大，推理需求越来越高，背后需要的电力、土地和水资源也会指数级增长。OpenAI 今天被诉讼的是隐私问题，但明天可能被抗议的就是基建问题。两条线最终指向同一个事实：技术跑得太快，社会还没来得及准备好。

9. Codex 推出钩子与程序化令牌

Codex 今天发了两项重要更新。一是"钩子"（Hooks）功能——允许在任务关键节点运行自定义脚本，做工作验证、密钥扫描、对话记录或按仓库定制行为。二是面向商业和企业团队的"程序化访问令牌"——从 ChatGPT 工作区设置创建的范围化凭证，用于 CI/CD、发布流程和内部自动化，支持过期和撤销。

这两项更新加上前几天发布的 Codex 移动端使用功能（通过 ChatGPT 应用随时随地监控和批准编码任务）和 Windows 安全沙箱，OpenAI 在 Codex 上的企业化路线越来越清晰。编程 Agent 不再是"帮个人写代码的工具"，而在变成企业软件工程流水线的一环。

10. 速览

动态	要点
Kimi Web Bridge 发布	浏览器扩展，让 Agent 像人类一样搜索、点击、输入；支持 Claude Code、Codex、Cursor、Hermes
腾讯 Agent Memory 开源	上下文卸载 + Mermaid 任务画布，Token 消耗降 61%，适配 OpenClaw
Runway 东京办公室	投资 4000 万美元，日本企业客户年增 300%
OpenCode × Qwen 免费	找到更多 GPU，第二轮免费开放
html-anything 开源	1.5 万行代码，75 套 Skills，9 种导出格式，兼容主流 Agent
Anthropic 创始人手册	AI 原生初创从构思到规模化四个阶段的实战指南
MiMo V2.5 Pro 设计竞技场季军	前端编码任务达到 Claude Sonnet 4.6 同等水平
Granite Embedding R2	IBM 开源多语言嵌入模型，32K 上下文，Apache 2.0
OpenSquilla 开源	智能路由 + 本地检索，传输 Token 减少 90%+
百度全栈 AI 云	面向大规模智能体部署，基于昆仑芯

今日观察

今天想聊三条互相矛盾的线索：

编程 Agent 进入"春秋战国"。

Grok Build 入场、Codex 推钩子和移动端、Claude Code 更新 v2.1.142、OpenCode 联手 Qwen 免费——编程 Agent 赛道从 Claude Code 的一家独大，正式进入多方混战。对开发者来说是好事：竞争拉低价格、推高能力。

信任赤字在积累。

OpenAI 的隐私诉讼不是孤立事件。数据中心民意危机、模型透明度指数下降——AI 行业在能力狂飙的同时，正在累积一笔越来越大的信任赤字。这不是 PR 危机，是结构性问题。当 70% 的人反对家门口建数据中心，行业扩张的地基就不稳。

"自下而上的采用"成为新模式。

OpenEvidence 覆盖 65% 医生是通过个人注册而非医院采购。Shadow AI 不是 bug，是 feature。这意味着 AI 产品的分发逻辑正在从"说服 CIO"转向"让终端用户先用起来"——这个转变的影响可能比任何单一产品发布都深远。

— 全文完 —

← 返回首页