日报

AI 日报 · 2026-05-12

2026-05-12 · 寻知

AI 日报大模型行业动态

AI 日报 2026.05.12：Mira 重新定义人机交互、Altman 被六州调查

2026 . 5 . 12 AI 日报

今天的 AI 圈有一种微妙的撕裂感。一边是 Mira Murati 带着 Thinking Machines 把"人机协作"推到了一个从没见过的形态——不是更快更强的模型，而是一种全新的交互范式；另一边是 Sam Altman 被美国六个州的司法部长联合要求 SEC 调查，指控他用 OpenAI 谋私利。技术的弧线在往前冲，治理的绳索也在往后拽。

中间还夹着 Claude Opus 4.7 悄悄开放研究预览、阶跃星辰扔出一个 3.5B 参数就把 KRIS-Bench 榜首全占了、以及一起令人沉重的 ChatGPT 建议致死的诉讼。今天的每条新闻都在说同一件事：AI 的渗透速度和失控风险正在同比例增长。

1. Thinking Machines 发布原生多模态"交互模型"

这是今天最重要的产品发布，没有之一。

前 OpenAI CTO Mira Murati 创立的 Thinking Machines，发布了一个他们称为"交互模型"（Interaction Model）的东西。它不是传统的对话模型——你发一句、它回一句——而是原生、持续地接收音频、视频和文本，实时思考并响应。

架构上它分成两层：前台交互模型以 200 毫秒为节点处理输入，维持用户的"在场感"，支持随时打断；后台推理模型处理长程规划和工具调用。关键是这两层在同一个模型内协同，不是 Agent 串联多个独立模型。

为什么重要：这可能是"打断 AI"这个交互模式第一次被作为一等公民设计进模型架构。过去所有聊天式 AI 都是回合制的，打断意味着丢弃上下文重新开始。Thinking Machines 把连续性作为核心设计目标——这比任何一个 benchmark 分数的提升都更有范式意义。

2. Sam Altman 遭六州司法部长联合调查

佛罗里达、蒙大拿等六个州的司法部长联名致信 SEC，要求调查 Altman 是否利用 OpenAI 谋取个人利益。这是 Altman 自 2023 年短暂被罢免以来，面临的最严重监管挑战。

说实话，这个时间点很微妙。OpenAI 正在疯狂推进商业化——Symphony 产品刚刚推出、Codex 在 Mac 上实现了跨应用操作、与苹果的合作传闻不断。而 Altman 个人在 OpenAI 之外的投资版图（Worldcoin、Helion Energy、Retro Biosciences）一直是被诟病的利益冲突点。

目前 SEC 尚未正式立案，但六州联名本身就是一个政治信号。在 AI 监管立法停滞不前的美国，司法系统正在成为事实上的监管者。

3. Claude Opus 4.7 快速模式开放研究预览

Anthropic 的动作越来越快了。Claude Opus 4.7 的快速模式（Fast Mode）已经在 API 和 Claude Code 中开放研究预览。虽然没有公布 benchmark 数据，但从放出节奏来看，Opus 4.7 的正式版应该不远了。

同一天，Anthropic 还宣布 Claude 进军法律行业——发布 20 多个 MCP 连接器和 12 个专用插件，直接集成到合同管理、文档处理等法律软件栈。Claude 现在可以在 Word 和 Outlook 里直接工作，起草、修订、条款比对。加上与多个司法公益组织的合作，Anthropic 在法律这个垂直赛道的布局已经初具规模。

坦白说，法律是 LLM 落地最自然的垂直场景之一——大量文本处理、严格的格式要求、可验证的输出质量。Anthropic 选这个方向很聪明。

4. 阶跃星辰发布 Step Image Edit 2

阶跃星辰今天正式发布了 Step Image Edit 2——一个 3.5B 参数的图像模型。在指令式图像编辑的权威基准 KRIS-Bench 上，综合、事实和概念三个类别全部排第一，性能超越参数量是其 5-6 倍的模型。

能力	说明
文生图	从文本描述生成图像
指令式图像编辑	按自然语言指令修改已有图像
中英双语文字渲染	在图像中精准渲染中英文文字
风格迁移	保持主体一致性的风格转换

3.5B 参数做到这个水平，效率确实惊人。小模型在特定垂直任务上击败大模型，这正在成为一个重复出现的模式——从蛋白质预测到图像编辑都是如此。

5. Symphony：OpenAI 的"每个任务一个 Agent"

OpenAI 发布了 Symphony，核心概念简单粗暴：每个开放任务都有一个正在运行的 Codex Agent。Codex 可以在你的应用之间工作而不占用 Mac，Agent 能在后台点击、输入、持续工作。

这跟 Claude Code 的 `/goal` 功能（今天也发布了）形成直接竞争——两家都在往"Agent 自主长时运行"这个方向推。区别在于 Claude Code 更偏开发者工作流，Codex + Symphony 更偏通用桌面自动化。

6. 谷歌用 AI 重新设计鼠标指针

Demis Hassabis 亲自转发了一条消息：Google DeepMind 正在用 AI 重新构想这个存在了 50 年的界面——鼠标指针。用户可以通过动作、语音和自然简写在屏幕上直接操控 Gemini 完成任务。

这个方向其实很有意思。我们花了几十年优化键盘快捷键和触控手势，但"鼠标指针"本身几乎没有进化过。如果 AI 能让指针变成一个智能体——你画个圈、点两下、说句话，它就能理解意图并执行——那可能是人机交互的下一个十年。

7. 青少年按 ChatGPT 建议混用药物致死

这是一个令人沉重的新闻。一名 19 岁青少年因过量服用药物死亡，其父母起诉 OpenAI，指控 ChatGPT 的错误建议导致了悲剧。据称该青少年长期向 ChatGPT 咨询关于卡痛（Kratom）、阿普唑仑、酒精等物质的混合使用问题。

说实话，这类事件在技术层面几乎无法完全避免——你不可能让一个通用对话模型在每一个可能涉及风险的领域都做到 100% 的安全过滤。但法律层面的责任归属正在被重新定义：当 AI 的建议导致了真实世界的伤害，谁该负责？模型提供商？用户自己？还是应该有某种中间责任分配机制？

这个案子无论怎么判，都会成为一个重要的判例。

今日观察

今天的八条新闻串起来看，能读出三条主线：

交互范式在加速分化。

Thinking Machines 的连续交互、Google 的 AI 鼠标指针、Symphony 的后台 Agent——"对话"不再是唯一的人机界面。我们正在从"发消息给 AI"走向"AI 在你身边持续存在"。

监管从呼吁走向行动。

六州调查 Altman、ChatGPT 致死诉讼——司法系统正在成为 AI 治理的实际执行者，在立法真空期填补空白。这对行业不一定是坏事——明确的规则比模糊的风险更好。

小模型逆袭成为常态。

Step Image Edit 2（3.5B）在 KRIS-Bench 上击败 20B+ 模型，延续了从蛋白质预测到基因组学的趋势：垂直场景不需要通用巨兽，精准的小模型更高效。

— 全文完 —

← 返回首页