AI 日报 Grok Build OpenAI Anthropic 隐私

AI 日报 2026.05.15:Grok Build 下场编程 Agent、OpenAI 隐私诉讼炸穿底线

2026 . 5 . 15 AI 日报

今天有两个消息值得放在最前面说。一个是 xAI 正式发布了 Grok Build——一个直接在终端运行的编程智能体,带计划模式、子智能体编排和无头模式;另一个是南加州联邦法院正式立案的集体诉讼,指控 OpenAI 通过 Facebook Pixel 将用户的查询主题实时发送给 Meta。一条是能力线,一条是信任线。放在一起看,2026 年的 AI 行业正在被两股相反的力量拉扯。

除此之外,Anthropic 牵手盖茨基金会拿出 2 亿美元的四年合作、SenseNova U1 开源 MoE 权重、Kimi K2.6 登顶金融智能体基准、NousResearch 的 Token Superposition Training 把预训练速度提高了 2-3 倍——今天值得展开的内容不少。

1. Grok Build CLI 发布:xAI 杀入编程 Agent 战场

xAI 今天面向 SuperGrok Heavy 订阅用户发布了 Grok Build 的早期测试版。这不是一个聊天界面里的代码助手——是一个直接跑在终端里的编程智能体,专为专业软件工程和复杂任务设计。

Plan 模式
执行前审阅和修改步骤
子智能体
大任务分解并行执行
无头模式
脚本和 CI/CD 集成

核心功能方面,Grok Build 跟 Claude Code 和 Codex 的思路有不少相似之处:支持"计划模式",让用户在代码执行前审阅并修改详细步骤;能将大型任务拆解后交给并行运行的专用子智能体处理;提供无头模式方便写脚本和 CI/CD 集成。安装方式也很直接——单行命令就能在项目里跑起来。

同时,SuperGrok Heavy 的定价策略也该提一嘴:半年订阅打六七折,从每月 300 美元降到每月 99 美元。这一刀砍得挺狠的。xAI 显然想用价格优势快速抢用户——编程 Agent 这个赛道的竞争已经从"有没有"演进到了"谁便宜"。

坦白说,编程 Agent 领域现在确实热闹。Claude Code 刚更新到 v2.1.142,Codex 刚推出钩子和程序化令牌,OpenCode 联手 Qwen 3.6 Plus 又免费开放了第二轮——每家都在自己的维度上发力。xAI 带着 Grok Build 入场,不是来当观众的。

2. OpenAI 遭集体诉讼:Facebook Pixel 泄露用户查询

这是今天真正炸穿底线的事。

南加州联邦法院已正式受理针对 OpenAI 的集体诉讼。指控内容很简单:OpenAI 在 ChatGPT 网站中嵌入了 Facebook Pixel 等追踪代码。当用户提交查询时,查询主题会作为浏览器页面标题,连同包含 Facebook 唯一 ID 的 cookies 一并实时发送给 Meta

用户以为自己在跟一个 AI 私密对话。但每一次查询的主题——可能是医疗症状、财务困境、法律问题——都变成了广告网络里的一个数据点。

OpenAI 方面的回应是只分享了"有限标识符"用于广告目的。但原告的核心论点很有力:查询主题本身即高度敏感的个人信息。这一点几乎没办法反驳——ChatGPT 上每天有无数人输入他们不会告诉任何人的内容。

这件事最讽刺的地方在哪?很多人选择用 ChatGPT 而不是 Google 搜索,恰恰是因为想逃避追踪。结果呢,用户每一次查询和数字身份,反而成了被实时交易的产品。免费 AI 服务的真正代价,可能比订阅费贵得多。

3. Anthropic 与盖茨基金会:2 亿美元四年合作

Anthropic 今天宣布与比尔及梅琳达·盖茨基金会建立为期四年的战略合作,总额 2 亿美元——包含直接资金、Claude 使用额度和技术支持。这在 AI 公司和传统慈善基金之间,算是史无前例的规模。

合作重点落在三个方向:全球健康(改善 46 亿中低收入人口的基础医疗,加速疫苗和疗法研发)、教育(为美国、撒哈拉以南非洲和印度的 K-12 学生开发 AI 教学工具)、经济流动(提升小农户生产力及美国职业技能认证)。首批成果预计今年晚些时候发布。

很难简单地将这笔合作归结为"慈善"或"商业"。Anthropic 得到的是真实世界的数据、场景和影响力验证——在医疗、教育、农业这些领域的实战经验,比任何 benchmark 分数都有说服力。盖茨基金会得到的是一支最前沿的 AI 能力注入其积累了数十年的全球项目。这是一笔双方都赚了的交易。

4. SenseNova U1 技术报告发布,MoE 权重开源

商汤今天正式发布了 SenseNova U1 的技术报告,由联合创始人兼首席科学家李沐博士带队。报告详细阐述了架构设计、训练方案和创新突破,同时开源了基于混合专家模型(MoE)的新权重

在 Anthropic 和 OpenAI 透明度持续下降的背景下(去年的 Foundation Model 透明度指数从 58 分降到了 40 分),商汤这份报告的开放性本身就是一个差异化信号。报告涵盖原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练,以及完整的六阶段训练方案和 RL 后训练实践——基本等于把造模型的图纸公开了。

5. Kimi K2.6 登顶金融智能体基准

Kimi K2.6 今天拿下了 Finance Agent Benchmark V2 开源权重排名第一。这不是一个宽泛的语言能力基准——是专门测试 AI 能否胜任金融分析任务的实战评测

结合前两天杨植麟放出的 40 分钟技术分享来看,Kimi 的路线非常清晰:用小团队、极致优化和架构创新(线性注意力等)抹平资源差距。K2 的训练成本仅 460 万美元,却在编程能力上击败了 GPT-5.5。现在再加上金融智能体基准的验证,这套方法论正在复制到更多垂直领域。

6. Token Superposition Training:预训练加速 2-3 倍

NousResearch 今天发布了一项名为 Token Superposition Training(TST)的技术。一句话概括:无需改架构、换优化器、换分词器或换训练数据,就能让 LLM 预训练速度提高 2-3 倍

做法很巧妙。在训练的前三分之一阶段,让模型读取并预测连续的 token 包——对输入嵌入取平均,用改进的交叉熵损失预测下一个 token 包。剩下三分之二的时间恢复为标准的下一个 token 预测。推理阶段的模型和传统预训练产生的模型完全一样,没有任何额外负担。

这项技术已经在 270M、600M、3B 的密集模型以及 10B 到 1B 的 MoE 模型上得到了验证。硅基流动第一时间转发了这个消息——国内做训练基础设施的团队显然很关注。说实话,如果这种方法能稳定复现,它对整个行业算力成本的降低会比任何融资新闻都实在。

7. OpenEvidence 覆盖 65% 美国医生:Shadow AI 进入临床

今天一个被低估但很能说明趋势的数据:OpenEvidence 已经覆盖了65% 的美国医生,4 月单月临床场景使用达 2700 万次,平均每位医生每月使用 41 次——基本上每个工作日都在用。

65%
覆盖美国医生比例
2700万
4 月临床场景使用次数
41次/月
每位医生月均使用

最值得关注的是增长路径——医生是个人用执业编号在手机上自主注册的,医院最初完全不知情。Mount Sinai 的 AI 负责人直接管这叫"Shadow AI",表示这东西早在基层就普及了,医院后来才追着签企业合作。

这件事的意义超越了医疗行业。它告诉我们:AI 在严肃场景中的采用,不一定走"自上而下的企业采购"路径。它可以从基层渗透、自下而上。这是美国医疗史上第一次有技术让大多数医生自愿采用同一个平台——合作伙伴包括 NEJM、JAMA、NCCN 和 Wiley,基础非常扎实。

8. 七成美国人反建数据中心:AI 基础设施的民意危机

盖洛普今天发布的调查数据让人有点头疼:七成美国民众反对在住宅附近建设数据中心,反对率较去年大幅上升,抵触情绪甚至超过了核电站。全美已有 69 个辖区出台了暂停令。

背后的原因很现实:数据中心推高批发电价、消耗大量水资源、带来空气污染担忧。尽管白宫要求 AI 企业承担配套基础设施成本,但这份承诺没有法律约束力。各地项目的审批只会越来越严。

这是一个所有 AI 公司都没法回避的问题。能力越做越大,推理需求越来越高,背后需要的电力、土地和水资源也会指数级增长。OpenAI 今天被诉讼的是隐私问题,但明天可能被抗议的就是基建问题。两条线最终指向同一个事实:技术跑得太快,社会还没来得及准备好。

9. Codex 推出钩子与程序化令牌

Codex 今天发了两项重要更新。一是"钩子"(Hooks)功能——允许在任务关键节点运行自定义脚本,做工作验证、密钥扫描、对话记录或按仓库定制行为。二是面向商业和企业团队的"程序化访问令牌"——从 ChatGPT 工作区设置创建的范围化凭证,用于 CI/CD、发布流程和内部自动化,支持过期和撤销。

这两项更新加上前几天发布的 Codex 移动端使用功能(通过 ChatGPT 应用随时随地监控和批准编码任务)和 Windows 安全沙箱,OpenAI 在 Codex 上的企业化路线越来越清晰。编程 Agent 不再是"帮个人写代码的工具",而在变成企业软件工程流水线的一环

10. 速览

动态 要点
Kimi Web Bridge 发布浏览器扩展,让 Agent 像人类一样搜索、点击、输入;支持 Claude Code、Codex、Cursor、Hermes
腾讯 Agent Memory 开源上下文卸载 + Mermaid 任务画布,Token 消耗降 61%,适配 OpenClaw
Runway 东京办公室投资 4000 万美元,日本企业客户年增 300%
OpenCode × Qwen 免费找到更多 GPU,第二轮免费开放
html-anything 开源1.5 万行代码,75 套 Skills,9 种导出格式,兼容主流 Agent
Anthropic 创始人手册AI 原生初创从构思到规模化四个阶段的实战指南
MiMo V2.5 Pro 设计竞技场季军前端编码任务达到 Claude Sonnet 4.6 同等水平
Granite Embedding R2IBM 开源多语言嵌入模型,32K 上下文,Apache 2.0
OpenSquilla 开源智能路由 + 本地检索,传输 Token 减少 90%+
百度全栈 AI 云面向大规模智能体部署,基于昆仑芯

今日观察

今天想聊三条互相矛盾的线索:

编程 Agent 进入"春秋战国"。

Grok Build 入场、Codex 推钩子和移动端、Claude Code 更新 v2.1.142、OpenCode 联手 Qwen 免费——编程 Agent 赛道从 Claude Code 的一家独大,正式进入多方混战。对开发者来说是好事:竞争拉低价格、推高能力。

信任赤字在积累。

OpenAI 的隐私诉讼不是孤立事件。数据中心民意危机、模型透明度指数下降——AI 行业在能力狂飙的同时,正在累积一笔越来越大的信任赤字。这不是 PR 危机,是结构性问题。当 70% 的人反对家门口建数据中心,行业扩张的地基就不稳。

"自下而上的采用"成为新模式。

OpenEvidence 覆盖 65% 医生是通过个人注册而非医院采购。Shadow AI 不是 bug,是 feature。这意味着 AI 产品的分发逻辑正在从"说服 CIO"转向"让终端用户先用起来"——这个转变的影响可能比任何单一产品发布都深远。

— 全文完 —