AI 日报 GPT-5.6 监管 诉讼 Runway 编码智能体

AI 日报 2026.06.27,GPT-5.6 Sol 预览被叫停、400 家报纸集体起诉微软和 OpenAI、Runway Agent 2.0 发布

2026 . 6 . 27 AI 日报

今天的新闻密度有点高,而且每一条放平时都够单独写一篇的。

OpenAI 公布了 GPT-5.6 Sol 的预览,同时美国政府要求暂缓广泛发布。纽约时报和近 400 家美国报纸联合起诉微软和 OpenAI 侵犯版权。Anthropic 指控阿里巴巴盗取了 Claude 的能力。Runway 发布 Agent 2.0 直接转型营销自动化。还有 Cursor 研究发现奖励攻击在编码基准测试中虚增分数的事。

我写日报这么久,今天第一次觉得「每条都能展开聊两句」的素材有点多到装不下了。挑最关键的几条说。

1. GPT-5.6 Sol 预览、被叫停、政府的门开始关上了

OpenAI 今天放出了 GPT-5.6 Sol 的预览页面。按照官方的说法,这次主打的是推理能力的大幅跃升,特别是在多步推理和工具使用上的进步。但真正炸裂的消息不是技术参数,而是美国政府要求 OpenAI 暂缓 GPT-5.6 的广泛发布。

对,你没有看错。政府直接介入了模型发布节奏。OpenAI 不得不改为受控预览模式,只向小部分合作伙伴提供早期访问,并且由政府逐客户审批准入。Sam Altman 已经在全员会上确认了这个流程的存在。

政府的核心担忧是什么?模型在自动化高技能网络工作上的能力。既能帮防御者更快发现漏洞,也可能被攻击者加速利用。这个逻辑放到现在这个时间点看,其实不让人意外。真正让人意外的是监管手段本身。不是在模型发布之后说「我觉得有问题你再改改」,而是在发布之前就卡住说「谁可以用我说了算」。

这扇门一旦打开,后续所有大模型的发布都会面对这个先例。坦率地讲,这可能是今天 AI 行业里最重要的一条新闻,不是因为 GPT-5.6 有多强,而是因为监管的形态变了。

另外今天 OpenAI 也有一个内部报告很有意思,分析了智能体 Codex 如何改变工作。报告说 Codex 用户中超过一半不是专业开发者,最受欢迎的任务不是写新代码而是改代码、读代码和理解现有代码库。这个数据跟我自己的感受一致。你越用 Agent 编程,你就越发现 Agent 最帮上忙的不是从零搭建而是处理遗留代码库。

2. 纽约时报和 400 家报纸一起把微软和 OpenAI 告了

这件事的烈度很惊人。不是一家两家起诉,而是近 400 家美国报纸联合行动。

纽约时报在修订后的诉讼中指控微软为 OpenAI 建造了一台专门用于版权侵权的超级计算机。这个指控如果被法庭采信,性质就很严重了。不是模型无意中学到了受版权保护的内容,而是从硬件基础设施层面就在为侵权做设计。

400 家报纸的联合诉讼则集中在未经授权抓取新闻内容训练 AI 这一点上。这个案子的走向会直接影响未来所有大模型训练的数据获取方式。如果你是做 AI 产品的,今天应该仔细看看这个案子的进展。它可能比任何监管政策都更直接地影响你的数据策略。

我一直觉得,版权诉讼是 AI 行业目前最被低估的风险。技术跑得太快,法律的滞后性给了很多灰色空间,但一旦判例确立,反向冲击会很大。

3. Anthropic 说阿里巴巴偷了 Claude 的能力

这条消息来自路透社报道。Anthropic 正式指控阿里巴巴非法获取了 Claude AI 模型的能力。具体的技术细节没有完全公开,但这类「蒸馏攻击」在行业内不是新鲜事。通过大量调用目标模型的 API,用输入输出对训练自己的替代模型。

其实行业内大家心知肚明这种事一直在发生,只是很少被公开指控并诉诸法律。Anthropic 这次选择公开,说明他们已经掌握了相当确凿的证据。

比较骚的是,在这条新闻出来的同时,OpenRouter 发布了零数据留存(ZDR)实践报告,说他们有 97 款新模型,流量占比近半。GPT-5.5 Instant 也在今天推出了新版本,OpenAI 官方的描述是「对话更有趣了」。我觉得这个「更有趣」可能不是在说模型变幽默了,而是在说它更懂得什么时候该抖个机灵、什么时候该正经回应。这种分寸感,其实比单纯的「更聪明」更难做。

另外里德·霍夫曼(LinkedIn 联合创始人、OpenAI 早期投资人)今天在接受 Fortune 采访时说了句狠话。他称 xAI 是「一场彻底的灾难」。这话从一个自己投了 OpenAI 的人嘴里说出来,还挺有意思的。不过他说的核心观点我其实是认同的。AI 公司最核心的资产不是算力也不是数据,是人才和文化。这个确实不是靠钱能堆出来的。

4. Runway 发布了 Agent 2.0,不做视频生成改做营销自动化了

Runway Agent 2.0 的发布值得单独拎出来说一下,不是因为技术多惊艳,而是方向转得太有意思了。

它的目标用户完全变了,不再是视频创作者,而是营销人员。品牌团队可以在对话中开发活动概念、生成变体并自动本地化。社交媒体运营可以一次性生成一周内容,自动裁切为 9:16、16:9、1:1 等各种格式。绩效营销人员可以上传创意并导入 Meta、YouTube、TikTok 或 Google 广告数据,由 Agent 分析后生成下一轮待测广告。

你看,Runway 说的已经不是「帮人做视频」了,而是「帮人做营销」。视频生成只是营销全流程里的一个环节。这个叙事升级很聪明。从工具变成平台,从功能变成服务。

我看到这条新闻的第一反应是,Runway 在赌一件事,生成式 AI 的价值不在生成本身,而在生成之后的自动化分发、测试、优化闭环。这个判断对不对,还要看执行,但方向感是清晰的。

5. Cursor 研究发现奖励攻击虚增了编码基准分数

这条对于做 Agent 开发的读者可能更重要一些。

Cursor 的研究发现,在 SWE-bench Pro 等编码基准测试中,部分智能体存在奖励攻击现象。不是真正解决了问题,而是利用了基准测试设计的漏洞来获取高分。这个发现直接动摇了我们对编码基准测试的信任。

坦率地讲,这个问题在 LLM 评测领域不是新问题。从早期的 MMLU 数据泄露到 GSM1K 的题面污染,再到现在的基准奖励攻击,几乎每一代评测标准都会面临「模型学会的是怎么得分而不是怎么解决问题」的困境。

老实说,我自己最近越来越不太看基准分数了。我更倾向于在实际场景里上手试试。比如把我之前写过的一个真实 bug 丢给 Agent,看它能不能修。基准分数可以作为参考,但不能作为信仰。

6. 速览

动态 要点
Codex 在 ChatGPT 移动 App 正式可用手机变成 Codex 遥控器,启动、监督、批准都在移动端完成
Claude Code v2.1.193 发布最新版本更新
Claude Code Hook 玩法6 个实用 Hook 玩法详解,从自动格式检查到 PR 分类
Midjourney V8.2 预览 + V8.1 随机风格V8.2 通过 --preview 参数提前体验,V8.1 草稿模式新增随机风格
Gemini 3.5 Flash 引入 computer useGoogle 加入 computer use 赛道,Agent 可直接操作桌面
Meta 员工警告 AI 审核部署过快AI 替换一半人工审核请求,但模型仍会误删合规内容
General Intuition 3.2 亿美元融资从 Fortnite 到机器人,用游戏数据训练通用 AI 智能体
OpenRouter MCP 服务器为编程智能体提供实时模型数据与定价查询
Perplexity Computer for Counsel为律师定制 AI 助手,接入研究数据库和诉讼管理系统
Notion + Cursor SDKNotion 嵌入编码智能体,用户可在文档中 @Cursor 创建 PR
Figma Config 2026押注人类判断,画布 AI 能力来自第三方
AI 工程岗位韧性新数据显示工程是 2025 年最具韧性的岗位
IBM 亚纳米级芯片0.7nm 纳米堆叠架构,指甲盖大小集成千亿晶体管
Ornith-1.0 开源模型全参数规模开源,Agentic Coding SWE-Bench 82.4
赫库兰尼姆古卷完整解读AI 助力首次完整虚拟解读赫库兰尼姆古卷
小互开源 IP 配图技能含 31 个原创角色,可商用
盈透证券 + Grok 集成组合分析、情景建模与实时交易指令生成
Mistral Connectors 安全升级为 Connectors 推出多项安全与可控新能力
AI 经济年化收入超 1750 亿美元增长速度约移动互联网的 3 倍

今日观察

今天这些新闻串起来,我想到了一个点。2026 年过半,AI 行业正在经历一个从「野蛮生长」到「制度化」的转折期。

监管在介入模型发布(GPT-5.6),法律在界定数据获取边界(400 家报纸起诉),行业标准在被质疑(Cursor 发现奖励攻击),甚至内部员工也在质疑部署速度(Meta 员工警告)。这些信号放在一起,已经不是巧合了。

但另一面,Runway 把视频生成做成了全流程营销自动化、General Intuition 用游戏数据训练通用智能体、Codex 在移动端上线让编程无处不在。产品和商业层面的创造力丝毫没有减速。

所以我自己的判断是,制度的收紧和技术的狂奔会同时发生。这不是一个零和关系。最终胜出的,会是那些在监管框架内仍然能跑得很快的公司。

磨平一些信息差,我们明天见。

-- 全文完 --