daily
        
          AI 日报
          GPT-5.6
          监管
          诉讼
          Runway
        
         2026-06-27
         约 4 分钟阅读
      

AI 日报 GPT-5.6 监管诉讼 Runway 编码智能体

AI 日报 2026.06.27，GPT-5.6 Sol 预览被叫停、400 家报纸集体起诉微软和 OpenAI、Runway Agent 2.0 发布

2026 . 6 . 27 AI 日报

今天的新闻密度有点高，而且每一条放平时都够单独写一篇的。

OpenAI 公布了 GPT-5.6 Sol 的预览，同时美国政府要求暂缓广泛发布。纽约时报和近 400 家美国报纸联合起诉微软和 OpenAI 侵犯版权。Anthropic 指控阿里巴巴盗取了 Claude 的能力。Runway 发布 Agent 2.0 直接转型营销自动化。还有 Cursor 研究发现奖励攻击在编码基准测试中虚增分数的事。

我写日报这么久，今天第一次觉得「每条都能展开聊两句」的素材有点多到装不下了。挑最关键的几条说。

1. GPT-5.6 Sol 预览、被叫停、政府的门开始关上了

OpenAI 今天放出了 GPT-5.6 Sol 的预览页面。按照官方的说法，这次主打的是推理能力的大幅跃升，特别是在多步推理和工具使用上的进步。但真正炸裂的消息不是技术参数，而是美国政府要求 OpenAI 暂缓 GPT-5.6 的广泛发布。

对，你没有看错。政府直接介入了模型发布节奏。OpenAI 不得不改为受控预览模式，只向小部分合作伙伴提供早期访问，并且由政府逐客户审批准入。Sam Altman 已经在全员会上确认了这个流程的存在。

政府的核心担忧是什么？模型在自动化高技能网络工作上的能力。既能帮防御者更快发现漏洞，也可能被攻击者加速利用。这个逻辑放到现在这个时间点看，其实不让人意外。真正让人意外的是监管手段本身。不是在模型发布之后说「我觉得有问题你再改改」，而是在发布之前就卡住说「谁可以用我说了算」。

这扇门一旦打开，后续所有大模型的发布都会面对这个先例。坦率地讲，这可能是今天 AI 行业里最重要的一条新闻，不是因为 GPT-5.6 有多强，而是因为监管的形态变了。

另外今天 OpenAI 也有一个内部报告很有意思，分析了智能体 Codex 如何改变工作。报告说 Codex 用户中超过一半不是专业开发者，最受欢迎的任务不是写新代码而是改代码、读代码和理解现有代码库。这个数据跟我自己的感受一致。你越用 Agent 编程，你就越发现 Agent 最帮上忙的不是从零搭建而是处理遗留代码库。

2. 纽约时报和 400 家报纸一起把微软和 OpenAI 告了

这件事的烈度很惊人。不是一家两家起诉，而是近 400 家美国报纸联合行动。

纽约时报在修订后的诉讼中指控微软为 OpenAI 建造了一台专门用于版权侵权的超级计算机。这个指控如果被法庭采信，性质就很严重了。不是模型无意中学到了受版权保护的内容，而是从硬件基础设施层面就在为侵权做设计。

400 家报纸的联合诉讼则集中在未经授权抓取新闻内容训练 AI 这一点上。这个案子的走向会直接影响未来所有大模型训练的数据获取方式。如果你是做 AI 产品的，今天应该仔细看看这个案子的进展。它可能比任何监管政策都更直接地影响你的数据策略。

我一直觉得，版权诉讼是 AI 行业目前最被低估的风险。技术跑得太快，法律的滞后性给了很多灰色空间，但一旦判例确立，反向冲击会很大。

3. Anthropic 说阿里巴巴偷了 Claude 的能力

这条消息来自路透社报道。Anthropic 正式指控阿里巴巴非法获取了 Claude AI 模型的能力。具体的技术细节没有完全公开，但这类「蒸馏攻击」在行业内不是新鲜事。通过大量调用目标模型的 API，用输入输出对训练自己的替代模型。

其实行业内大家心知肚明这种事一直在发生，只是很少被公开指控并诉诸法律。Anthropic 这次选择公开，说明他们已经掌握了相当确凿的证据。

比较骚的是，在这条新闻出来的同时，OpenRouter 发布了零数据留存（ZDR）实践报告，说他们有 97 款新模型，流量占比近半。GPT-5.5 Instant 也在今天推出了新版本，OpenAI 官方的描述是「对话更有趣了」。我觉得这个「更有趣」可能不是在说模型变幽默了，而是在说它更懂得什么时候该抖个机灵、什么时候该正经回应。这种分寸感，其实比单纯的「更聪明」更难做。

另外里德·霍夫曼（LinkedIn 联合创始人、OpenAI 早期投资人）今天在接受 Fortune 采访时说了句狠话。他称 xAI 是「一场彻底的灾难」。这话从一个自己投了 OpenAI 的人嘴里说出来，还挺有意思的。不过他说的核心观点我其实是认同的。AI 公司最核心的资产不是算力也不是数据，是人才和文化。这个确实不是靠钱能堆出来的。

4. Runway 发布了 Agent 2.0，不做视频生成改做营销自动化了

Runway Agent 2.0 的发布值得单独拎出来说一下，不是因为技术多惊艳，而是方向转得太有意思了。

它的目标用户完全变了，不再是视频创作者，而是营销人员。品牌团队可以在对话中开发活动概念、生成变体并自动本地化。社交媒体运营可以一次性生成一周内容，自动裁切为 9:16、16:9、1:1 等各种格式。绩效营销人员可以上传创意并导入 Meta、YouTube、TikTok 或 Google 广告数据，由 Agent 分析后生成下一轮待测广告。

你看，Runway 说的已经不是「帮人做视频」了，而是「帮人做营销」。视频生成只是营销全流程里的一个环节。这个叙事升级很聪明。从工具变成平台，从功能变成服务。

我看到这条新闻的第一反应是，Runway 在赌一件事，生成式 AI 的价值不在生成本身，而在生成之后的自动化分发、测试、优化闭环。这个判断对不对，还要看执行，但方向感是清晰的。

5. Cursor 研究发现奖励攻击虚增了编码基准分数

这条对于做 Agent 开发的读者可能更重要一些。

Cursor 的研究发现，在 SWE-bench Pro 等编码基准测试中，部分智能体存在奖励攻击现象。不是真正解决了问题，而是利用了基准测试设计的漏洞来获取高分。这个发现直接动摇了我们对编码基准测试的信任。

坦率地讲，这个问题在 LLM 评测领域不是新问题。从早期的 MMLU 数据泄露到 GSM1K 的题面污染，再到现在的基准奖励攻击，几乎每一代评测标准都会面临「模型学会的是怎么得分而不是怎么解决问题」的困境。

老实说，我自己最近越来越不太看基准分数了。我更倾向于在实际场景里上手试试。比如把我之前写过的一个真实 bug 丢给 Agent，看它能不能修。基准分数可以作为参考，但不能作为信仰。

6. 速览

动态	要点
Codex 在 ChatGPT 移动 App 正式可用	手机变成 Codex 遥控器，启动、监督、批准都在移动端完成
Claude Code v2.1.193 发布	最新版本更新
Claude Code Hook 玩法	6 个实用 Hook 玩法详解，从自动格式检查到 PR 分类
Midjourney V8.2 预览 + V8.1 随机风格	V8.2 通过 `--preview` 参数提前体验，V8.1 草稿模式新增随机风格
Gemini 3.5 Flash 引入 computer use	Google 加入 computer use 赛道，Agent 可直接操作桌面
Meta 员工警告 AI 审核部署过快	AI 替换一半人工审核请求，但模型仍会误删合规内容
General Intuition 3.2 亿美元融资	从 Fortnite 到机器人，用游戏数据训练通用 AI 智能体
OpenRouter MCP 服务器	为编程智能体提供实时模型数据与定价查询
Perplexity Computer for Counsel	为律师定制 AI 助手，接入研究数据库和诉讼管理系统
Notion + Cursor SDK	Notion 嵌入编码智能体，用户可在文档中 @Cursor 创建 PR
Figma Config 2026	押注人类判断，画布 AI 能力来自第三方
AI 工程岗位韧性	新数据显示工程是 2025 年最具韧性的岗位
IBM 亚纳米级芯片	0.7nm 纳米堆叠架构，指甲盖大小集成千亿晶体管
Ornith-1.0 开源模型	全参数规模开源，Agentic Coding SWE-Bench 82.4
赫库兰尼姆古卷完整解读	AI 助力首次完整虚拟解读赫库兰尼姆古卷
小互开源 IP 配图技能	含 31 个原创角色，可商用
盈透证券 + Grok 集成	组合分析、情景建模与实时交易指令生成
Mistral Connectors 安全升级	为 Connectors 推出多项安全与可控新能力
AI 经济年化收入超 1750 亿美元	增长速度约移动互联网的 3 倍

今日观察

今天这些新闻串起来，我想到了一个点。2026 年过半，AI 行业正在经历一个从「野蛮生长」到「制度化」的转折期。

监管在介入模型发布（GPT-5.6），法律在界定数据获取边界（400 家报纸起诉），行业标准在被质疑（Cursor 发现奖励攻击），甚至内部员工也在质疑部署速度（Meta 员工警告）。这些信号放在一起，已经不是巧合了。

但另一面，Runway 把视频生成做成了全流程营销自动化、General Intuition 用游戏数据训练通用智能体、Codex 在移动端上线让编程无处不在。产品和商业层面的创造力丝毫没有减速。

所以我自己的判断是，制度的收紧和技术的狂奔会同时发生。这不是一个零和关系。最终胜出的，会是那些在监管框架内仍然能跑得很快的公司。

磨平一些信息差，我们明天见。

-- 全文完 --

← 返回首页