AI 日报 大模型 行业动态

AI 日报 2026.05.12:Mira 重新定义人机交互、Altman 被六州调查

2026 . 5 . 12 AI 日报

今天的 AI 圈有一种微妙的撕裂感。一边是 Mira Murati 带着 Thinking Machines 把"人机协作"推到了一个从没见过的形态——不是更快更强的模型,而是一种全新的交互范式;另一边是 Sam Altman 被美国六个州的司法部长联合要求 SEC 调查,指控他用 OpenAI 谋私利。技术的弧线在往前冲,治理的绳索也在往后拽。

中间还夹着 Claude Opus 4.7 悄悄开放研究预览、阶跃星辰扔出一个 3.5B 参数就把 KRIS-Bench 榜首全占了、以及一起令人沉重的 ChatGPT 建议致死的诉讼。今天的每条新闻都在说同一件事:AI 的渗透速度和失控风险正在同比例增长。

1. Thinking Machines 发布原生多模态"交互模型"

这是今天最重要的产品发布,没有之一。

前 OpenAI CTO Mira Murati 创立的 Thinking Machines,发布了一个他们称为"交互模型"(Interaction Model)的东西。它不是传统的对话模型——你发一句、它回一句——而是原生、持续地接收音频、视频和文本,实时思考并响应

架构上它分成两层:前台交互模型以 200 毫秒为节点处理输入,维持用户的"在场感",支持随时打断;后台推理模型处理长程规划和工具调用。关键是这两层在同一个模型内协同,不是 Agent 串联多个独立模型。

为什么重要:这可能是"打断 AI"这个交互模式第一次被作为一等公民设计进模型架构。过去所有聊天式 AI 都是回合制的,打断意味着丢弃上下文重新开始。Thinking Machines 把连续性作为核心设计目标——这比任何一个 benchmark 分数的提升都更有范式意义。

2. Sam Altman 遭六州司法部长联合调查

佛罗里达、蒙大拿等六个州的司法部长联名致信 SEC,要求调查 Altman 是否利用 OpenAI 谋取个人利益。这是 Altman 自 2023 年短暂被罢免以来,面临的最严重监管挑战。

说实话,这个时间点很微妙。OpenAI 正在疯狂推进商业化——Symphony 产品刚刚推出、Codex 在 Mac 上实现了跨应用操作、与苹果的合作传闻不断。而 Altman 个人在 OpenAI 之外的投资版图(Worldcoin、Helion Energy、Retro Biosciences)一直是被诟病的利益冲突点。

目前 SEC 尚未正式立案,但六州联名本身就是一个政治信号。在 AI 监管立法停滞不前的美国,司法系统正在成为事实上的监管者。

3. Claude Opus 4.7 快速模式开放研究预览

Anthropic 的动作越来越快了。Claude Opus 4.7 的快速模式(Fast Mode)已经在 API 和 Claude Code 中开放研究预览。虽然没有公布 benchmark 数据,但从放出节奏来看,Opus 4.7 的正式版应该不远了。

同一天,Anthropic 还宣布 Claude 进军法律行业——发布 20 多个 MCP 连接器和 12 个专用插件,直接集成到合同管理、文档处理等法律软件栈。Claude 现在可以在 Word 和 Outlook 里直接工作,起草、修订、条款比对。加上与多个司法公益组织的合作,Anthropic 在法律这个垂直赛道的布局已经初具规模。

坦白说,法律是 LLM 落地最自然的垂直场景之一——大量文本处理、严格的格式要求、可验证的输出质量。Anthropic 选这个方向很聪明。

4. 阶跃星辰发布 Step Image Edit 2

阶跃星辰今天正式发布了 Step Image Edit 2——一个 3.5B 参数的图像模型。在指令式图像编辑的权威基准 KRIS-Bench 上,综合、事实和概念三个类别全部排第一,性能超越参数量是其 5-6 倍的模型

能力 说明
文生图从文本描述生成图像
指令式图像编辑按自然语言指令修改已有图像
中英双语文字渲染在图像中精准渲染中英文文字
风格迁移保持主体一致性的风格转换

3.5B 参数做到这个水平,效率确实惊人。小模型在特定垂直任务上击败大模型,这正在成为一个重复出现的模式——从蛋白质预测到图像编辑都是如此。

5. Symphony:OpenAI 的"每个任务一个 Agent"

OpenAI 发布了 Symphony,核心概念简单粗暴:每个开放任务都有一个正在运行的 Codex Agent。Codex 可以在你的应用之间工作而不占用 Mac,Agent 能在后台点击、输入、持续工作。

这跟 Claude Code 的 `/goal` 功能(今天也发布了)形成直接竞争——两家都在往"Agent 自主长时运行"这个方向推。区别在于 Claude Code 更偏开发者工作流,Codex + Symphony 更偏通用桌面自动化。

6. 谷歌用 AI 重新设计鼠标指针

Demis Hassabis 亲自转发了一条消息:Google DeepMind 正在用 AI 重新构想这个存在了 50 年的界面——鼠标指针。用户可以通过动作、语音和自然简写在屏幕上直接操控 Gemini 完成任务。

这个方向其实很有意思。我们花了几十年优化键盘快捷键和触控手势,但"鼠标指针"本身几乎没有进化过。如果 AI 能让指针变成一个智能体——你画个圈、点两下、说句话,它就能理解意图并执行——那可能是人机交互的下一个十年。

7. 青少年按 ChatGPT 建议混用药物致死

这是一个令人沉重的新闻。一名 19 岁青少年因过量服用药物死亡,其父母起诉 OpenAI,指控 ChatGPT 的错误建议导致了悲剧。据称该青少年长期向 ChatGPT 咨询关于卡痛(Kratom)、阿普唑仑、酒精等物质的混合使用问题。

说实话,这类事件在技术层面几乎无法完全避免——你不可能让一个通用对话模型在每一个可能涉及风险的领域都做到 100% 的安全过滤。但法律层面的责任归属正在被重新定义:当 AI 的建议导致了真实世界的伤害,谁该负责?模型提供商?用户自己?还是应该有某种中间责任分配机制?

这个案子无论怎么判,都会成为一个重要的判例。

今日观察

今天的八条新闻串起来看,能读出三条主线:

交互范式在加速分化。

Thinking Machines 的连续交互、Google 的 AI 鼠标指针、Symphony 的后台 Agent——"对话"不再是唯一的人机界面。我们正在从"发消息给 AI"走向"AI 在你身边持续存在"。

监管从呼吁走向行动。

六州调查 Altman、ChatGPT 致死诉讼——司法系统正在成为 AI 治理的实际执行者,在立法真空期填补空白。这对行业不一定是坏事——明确的规则比模糊的风险更好。

小模型逆袭成为常态。

Step Image Edit 2(3.5B)在 KRIS-Bench 上击败 20B+ 模型,延续了从蛋白质预测到基因组学的趋势:垂直场景不需要通用巨兽,精准的小模型更高效。

— 全文完 —