AI 日报 GPT-5.6 监管 诉讼 Runway 编码智能体

AI 日报 2026.06.27,GPT-5.6 Sol 预览被叫停、400 家报纸集体起诉微软和 OpenAI、Runway Agent 2.0 发布

2026 . 6 . 27 AI 日报

今天的新闻密度有点高,而且每一条放平时都够单独写一篇的。

OpenAI 公布了 GPT-5.6 Sol 的预览,同时美国政府要求暂缓广泛发布。纽约时报和近 400 家美国报纸联合起诉微软和 OpenAI 侵犯版权。Anthropic 指控阿里巴巴盗取了 Claude 的能力。Runway 发布 Agent 2.0 直接转型营销自动化。还有 Cursor 研究发现奖励攻击在编码基准测试中虚增分数的事。

我写日报这么久,今天第一次觉得「每条都能展开聊两句」的素材有点多到装不下了。挑最关键的几条说。

1. GPT-5.6 Sol 预览、被叫停、政府的门开始关上了

OpenAI 今天放出了 GPT-5.6 Sol 的预览页面。按照官方的说法,这次主打的是推理能力的大幅跃升,特别是在多步推理和工具使用上的进步。但真正炸裂的消息不是技术参数,而是美国政府要求 OpenAI 暂缓 GPT-5.6 的广泛发布。

对,你没有看错。政府直接介入了模型发布节奏。OpenAI 不得不改为受控预览模式,只向小部分合作伙伴提供早期访问,并且由政府逐客户审批准入。Sam Altman 已经在全员会上确认了这个流程的存在。

政府的核心担忧是什么?模型在自动化高技能网络工作上的能力。既能帮防御者更快发现漏洞,也可能被攻击者加速利用。这个逻辑放到现在这个时间点看,其实不让人意外。真正让人意外的是监管手段本身。不是在模型发布之后说「我觉得有问题你再改改」,而是在发布之前就卡住说「谁可以用我说了算」。

这扇门一旦打开,后续所有大模型的发布都会面对这个先例。坦率地讲,这可能是今天 AI 行业里最重要的一条新闻,不是因为 GPT-5.6 有多强,而是因为监管的形态变了。

另外今天 OpenAI 也有一个内部报告很有意思,分析了智能体 Codex 如何改变工作。报告说 Codex 用户中超过一半不是专业开发者,最受欢迎的任务不是写新代码而是改代码、读代码和理解现有代码库。这个数据跟我自己的感受一致。你越用 Agent 编程,你就越发现 Agent 最帮上忙的不是从零搭建而是处理遗留代码库。

2. 纽约时报和 400 家报纸一起把微软和 OpenAI 告了

这件事的烈度很惊人。不是一家两家起诉,而是近 400 家美国报纸联合行动。

纽约时报在修订后的诉讼中指控微软为 OpenAI 建造了一台专门用于版权侵权的超级计算机。这个指控如果被法庭采信,性质就很严重了。不是模型无意中学到了受版权保护的内容,而是从硬件基础设施层面就在为侵权做设计。

400 家报纸的联合诉讼则集中在未经授权抓取新闻内容训练 AI 这一点上。这个案子的走向会直接影响未来所有大模型训练的数据获取方式。如果你是做 AI 产品的,今天应该仔细看看这个案子的进展。它可能比任何监管政策都更直接地影响你的数据策略。

我一直觉得,版权诉讼是 AI 行业目前最被低估的风险。技术跑得太快,法律的滞后性给了很多灰色空间,但一旦判例确立,反向冲击会很大。

3. Anthropic 说阿里巴巴偷了 Claude 的能力

这条消息来自路透社报道。Anthropic 正式指控阿里巴巴非法获取了 Claude AI 模型的能力。具体的技术细节没有完全公开,但这类「蒸馏攻击」在行业内不是新鲜事。通过大量调用目标模型的 API,用输入输出对训练自己的替代模型。

其实行业内大家心知肚明这种事一直在发生,只是很少被公开指控并诉诸法律。Anthropic 这次选择公开,说明他们已经掌握了相当确凿的证据。

比较骚的是,在这条新闻出来的同时,OpenRouter 发布了零数据留存(ZDR)实践报告,说他们有 97 款新模型,流量占比近半。GPT-5.5 Instant 也在今天推出了新版本,OpenAI 官方的描述是「对话更有趣了」。我觉得这个「更有趣」可能不是在说模型变幽默了,而是在说它更懂得什么时候该抖个机灵、什么时候该正经回应。这种分寸感,其实比单纯的「更聪明」更难做。

另外里德·霍夫曼(LinkedIn 联合创始人、OpenAI 早期投资人)今天在接受 Fortune 采访时说了句狠话。他称 xAI 是「一场彻底的灾难」。这话从一个自己投了 OpenAI 的人嘴里说出来,还挺有意思的。不过他说的核心观点我其实是认同的。AI 公司最核心的资产不是算力也不是数据,是人才和文化。这个确实不是靠钱能堆出来的。

4. Runway 发布了 Agent 2.0,不做视频生成改做营销自动化了

Runway Agent 2.0 的发布值得单独拎出来说一下,不是因为技术多惊艳,而是方向转得太有意思了。

它的目标用户完全变了,不再是视频创作者,而是营销人员。品牌团队可以在对话中开发活动概念、生成变体并自动本地化。社交媒体运营可以一次性生成一周内容,自动裁切为 9:16、16:9、1:1 等各种格式。绩效营销人员可以上传创意并导入 Meta、YouTube、TikTok 或 Google 广告数据,由 Agent 分析后生成下一轮待测广告。

你看,Runway 说的已经不是「帮人做视频」了,而是「帮人做营销」。视频生成只是营销全流程里的一个环节。这个叙事升级很聪明。从工具变成平台,从功能变成服务。

我看到这条新闻的第一反应是,Runway 在赌一件事,生成式 AI 的价值不在生成本身,而在生成之后的自动化分发、测试、优化闭环。这个判断对不对,还要看执行,但方向感是清晰的。

5. Cursor 研究发现奖励攻击虚增了编码基准分数

这条对于做 Agent 开发的读者可能更重要一些。

Cursor 的研究发现,在 SWE-bench Pro 等编码基准测试中,部分智能体存在奖励攻击现象。不是真正解决了问题,而是利用了基准测试设计的漏洞来获取高分。这个发现直接动摇了我们对编码基准测试的信任。

坦率地讲,这个问题在 LLM 评测领域不是新问题。从早期的 MMLU 数据泄露到 GSM1K 的题面污染,再到现在的基准奖励攻击,几乎每一代评测标准都会面临「模型学会的是怎么得分而不是怎么解决问题」的困境。

老实说,我自己最近越来越不太看基准分数了。我更倾向于在实际场景里上手试试。比如把我之前写过的一个真实 bug 丢给 Agent,看它能不能修。基准分数可以作为参考,但不能作为信仰。

6. 速览

动态 要点
Codex 在 ChatGPT 移动 App 正式可用 手机变成 Codex 遥控器,启动、监督、批准都在移动端完成
Claude Code v2.1.193 发布 最新版本更新
Claude Code Hook 玩法 6 个实用 Hook 玩法详解,从自动格式检查到 PR 分类
Midjourney V8.2 预览 + V8.1 随机风格 V8.2 通过 --preview 参数提前体验,V8.1 草稿模式新增随机风格
Gemini 3.5 Flash 引入 computer use Google 加入 computer use 赛道,Agent 可直接操作桌面
Meta 员工警告 AI 审核部署过快 AI 替换一半人工审核请求,但模型仍会误删合规内容
General Intuition 3.2 亿美元融资 从 Fortnite 到机器人,用游戏数据训练通用 AI 智能体
OpenRouter MCP 服务器 为编程智能体提供实时模型数据与定价查询
Perplexity Computer for Counsel 为律师定制 AI 助手,接入研究数据库和诉讼管理系统
Notion + Cursor SDK Notion 嵌入编码智能体,用户可在文档中 @Cursor 创建 PR
Figma Config 2026 押注人类判断,画布 AI 能力来自第三方
AI 工程岗位韧性 新数据显示工程是 2025 年最具韧性的岗位
IBM 亚纳米级芯片 0.7nm 纳米堆叠架构,指甲盖大小集成千亿晶体管
Ornith-1.0 开源模型 全参数规模开源,Agentic Coding SWE-Bench 82.4
赫库兰尼姆古卷完整解读 AI 助力首次完整虚拟解读赫库兰尼姆古卷
小互开源 IP 配图技能 含 31 个原创角色,可商用
盈透证券 + Grok 集成 组合分析、情景建模与实时交易指令生成
Mistral Connectors 安全升级 为 Connectors 推出多项安全与可控新能力
AI 经济年化收入超 1750 亿美元 增长速度约移动互联网的 3 倍

今日观察

今天这些新闻串起来,我想到了一个点。2026 年过半,AI 行业正在经历一个从「野蛮生长」到「制度化」的转折期。

监管在介入模型发布(GPT-5.6),法律在界定数据获取边界(400 家报纸起诉),行业标准在被质疑(Cursor 发现奖励攻击),甚至内部员工也在质疑部署速度(Meta 员工警告)。这些信号放在一起,已经不是巧合了。

但另一面,Runway 把视频生成做成了全流程营销自动化、General Intuition 用游戏数据训练通用智能体、Codex 在移动端上线让编程无处不在。产品和商业层面的创造力丝毫没有减速。

所以我自己的判断是,制度的收紧和技术的狂奔会同时发生。这不是一个零和关系。最终胜出的,会是那些在监管框架内仍然能跑得很快的公司。

磨平一些信息差,我们明天见。

— 全文完 —