AI 日报 2026.06.25,Oracle 裁员两万、Google 把计算机使用塞进 Gemini、字节全面出击
今天的新闻看下来,我有一个很强烈的感觉。
AI 行业正在从一个「大家都在追模型能力」的阶段,进入一个「谁先把能力落地到真实场景里」的阶段。模型本身当然还在卷,但卷的方向已经变了。
而且今天的新闻量真的很大,大到我一口气写不完。我挑了我自己最关注的几件事,从头到尾捋一遍。
1. Oracle 裁了两万一千人,因为 AI
Ars Technica 爆了一个数字,让我愣了几秒。
Oracle 在截至 5 月 31 日的财年里,裁掉了 21000 人,员工总数降到 14.1 万,降幅 12.9%。公司自己说的,原因就是 AI 技术的采用。与此同时重组成本 18 亿美元,同比涨了 481%。
21000 人是什么概念?很多小一点的科技公司一共也没这么多人。Oracle 一把就裁掉了。而且他们还在规划用债务和股权筹集 450 到 500 亿美元,扩建 Oracle Cloud Infrastructure。
一边裁员,一边借钱投 AI 基础设施。这个操作说实话挺狠的。我之前一直觉得 AI 对就业的影响是个慢变量,但 Oracle 用数字告诉我,不慢了,已经在发生了。
顺带一提,风投机构 SignalFire 追踪了 8000 万家公司的数据,发现工程岗是 2025 年最具韧性的岗位。大型科技公司总招聘比 2019 年降了 25%,但工程岗只降了 11%。早期初创公司的工程师招聘甚至比 2019 年涨了 7%。
Anthropic CEO 说过 AI 可能消灭一半入门级白领,但他们的经济主管又说还没看到显著影响。黄仁勋的观点我觉得最靠谱,AI 让工程师更忙碌了,典型的杰文斯悖论。
效率提高导致需求爆炸,反而需要更多人。这件事在历史上已经上演过无数次了。
2. Google 把计算机使用直接塞进了 Gemini 3.5 Flash
Google 发了个很有意思的更新。
他们之前搞的计算机使用(Computer Use)功能,本来是 Gemini 2.5 里的独立模型,现在直接原生整合进 Gemini 3.5 Flash 了,变成了内置工具。开发者可以通过 Gemini API 调用,让智能体跨浏览器、移动端和桌面环境干活。
安全方面做了两件事,一是针对性的对抗训练来降低提示注入风险,二是两个可选的企业级保护,要求用户确认敏感操作、检测到间接提示注入时自动停止。
我觉得有意思的点不是技术本身,而是「内置」这个动作。Google 在把智能体能力从「高级功能」变成「基础设施」。当一个能力被塞进主力模型而不是独立部署的时候,说明它已经过了实验阶段,进入规模化阶段了。
Google 在智能体这条路上的节奏感越来越强。
3. Notion 把 Cursor 塞进了文档
Cursor 发了一篇博客,讲 Notion 怎么用他们的 SDK 在几周内就把编码智能体嵌入了产品。
现在你在 Notion 的文档里打 @Cursor,或者在讨论串里提到它,或者给数据库指派一个任务,Cursor 就能端到端完成规划、构建、测试、验证,然后自动创建 PR。
这个集成基于一个 Provider 无关的智能体框架。Notion 的讨论串对应一个 Cursor Session。你想想那个场景,你在文档里聊需求,Cursor 在旁边听着,聊完直接把 PR 建好了。
我自己的感受是,AI 编码工具正在从 IDE 插件形态,变成「无处不在的后台员工」。Cursor 不再是你在编辑器里用的工具,而是你写文档的时候它就在旁边候着。这种转变,可能比我们想象的来得更快。
4. OpenAI 两个更新,GPT-5.5 Instant 变有趣了,Bidi 1 语音模型上线
OpenAI 今天也有动作,而且一下是两个。
一个是 GPT-5.5 Instant 的新版本。官方说现在聊天更有趣了,能更好地理解问题背后的意图,相应地调整回应。购物和本地推荐的场景也更实用了。今天向付费用户推送,明天向免费用户推开。应该说,GPT-5.5 Instant 本来就是他们最常用的模型,这个更新覆盖面很大。
另一个更让我兴奋,是双向 AI 语音模型 Bidi 1。23 号开始部分用户已经看到了,在设置模型选择器里跟标准语音和高级语音并列。核心能力是边说话边监听,你在对话中间可以打断它,发出新指令。比如你让它从 1 数到 10,数到一半喊停然后让它倒数,它立刻切换执行。
这个能力听起来简单,但做起来非常难。传统的语音模型要么你在说它在听,要么它在说你听着,不能同时处理。Bidi 1 打破了这堵墙。如果这个模型大规模上线,语音交互的体验会上一个很大的台阶。
OpenAI 还没正式官宣,预计本周会全面推送。
5. 字节跳动全面出击,AI Coding 涨了 6 倍、豆包专业版、Seed2.1
今天的字节系新闻多到可以单独写一篇了。
火山引擎 Force 大会上,技术副总裁洪定坤分享了一组数字,过去一年字节跳动的 AI 代码贡献率涨了 6 倍,tokens 消耗涨了 5 倍。但他说了一个特别清醒的观点,过度关注单一指标可能失真。TRAE 团队的代码超过 90% 由 AI 生成,但人均需求吞吐率只提升了 60%。
我觉得这个对比很有意思。AI 生成代码很容易,但把 AI 生成的东西变成真正能交付的产品,还是需要人来做判断和决策。字节做了 900 次实验,主流 Coding 模型组合的代码正确率超过 80%,但正确代码不代表好代码。
另外今天豆包正式推出了专业版,基于豆包 2.1 系列大模型,面向复杂办公和生产力场景。办公任务模式接入了可执行 Agent 任务的豆包 2.1 模型,支持操作本地电脑、浏览器、调用 Skills 技能、定时任务,内置 Office 办公套件。还能生成带后端数据库的在线应用。
对了,字节 Seed 团队也发布了 Seed2.1 系列,面向真实生产力场景的智能体,强化通用 Agent 能力、代码工程交付和多模态理解。在多个基准上拿了高分。
字节这套组合拳的底层逻辑是,模型自己出(豆包 2.1、Seed2.1),工具自己造(TRAE),平台自己搭(火山引擎 Agent Ready 基础设施),然后全部打包进一个产品(豆包专业版)卖给用户。全栈,而且是真全栈。
通义千问今天也没闲着。他们开源了 Qwen-AgentWorld,号称首个原生语言世界模型,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。基于超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上超越了 GPT-5.4。
阿里和字节在 Agent 这条赛道上的竞争,越来越有意思了。
6. Runway 发了三款新模型,Krea 2 技术报告也来了
Runway 一口气发了 Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo。
Seedance 4K 这个名字就说明了一切。我还没拿到实际体验,但「全球最佳模型,汇聚一处」这个 slogan 说明 Runway 在整合多种能力。
另外 Krea 今天也发布了 Krea 2 的技术报告,深入解析了数据、架构和训练技巧。Krea 2 是我最近一直在关注的工具,他们的实时生成能力在某些场景下真的很惊艳。
还有一个让我觉得挺惊喜的,Sky Computing Lab 发布了 FastWan-QAD,在单张 5090 上端到端生成 5 秒 480P 视频只要 1.8 秒。模型、代码和博客全部开源。这个速度让我有点「卧槽」的感觉。视频生成的门槛在被持续拉低。
7. 五眼联盟警告,AI 网络威胁几个月内就会影响普通用户
这个让我有点不安。
五眼联盟(美英加澳新)的网络安全部门联合发了个警告,说即将到来的 AI 模型(像 GPT-5.5-Cyber、Anthropic 的 Mythos)会大幅降低编写复杂攻击代码的门槛。自动化智能体可以全天候扫描互联网漏洞,安全窗口期会被压缩到几乎没有。
更可怕的是 AI 驱动的超个性化钓鱼诈骗已经在亚太蔓延了。印度那边已经有真实案例。
GitHub 今天也联合开源联盟呼吁修改加州的 AI 透明度法案。目前草案要求开发者在下游用户没履行义务时撤销开源许可证,这跟开源许可证的永久性原则直接冲突。
安全和开源的平衡,这事未来几个月会越来越棘手。
8. 其他值得关注的
Reid Hoffman 在播客里说 SpaceX 不是一家人工智能公司,然后说 xAI 是「彻底的灾难」,所有 11 位联合创始人都离职了,Grok 表现也不佳。这话从 LinkedIn 联合创始人、Anthropic 和 OpenAI 早期投资者嘴里说出来,分量不一样。
OpenAI 跟 Broadcom 发布了定制推理芯片 Jalapeño,专为 LLM 推理优化。这大概意味着 OpenAI 在硬件层面的自主化又前进了一步。
IBM 开源了 CUGA(Configurable Generalist Agent),一个轻量级智能体框架,还附带了二十多个单文件示例应用。适合想自己动手搞智能体但不想从头搭建的人。
网易有道发布了 Confucius4-TTS,号称业内首个支持 14 种语言跨语种无口音语音克隆的开源模型。3 秒音频就能克隆,相似度超 85%。
还有一篇论文我觉得很有价值,苹果 ML 团队发现 LLM-as-a-judge 面板因为模型间高度相关,9 个评委实际只提供约 2 个独立投票的信息量。最佳单一模型的表现已经匹敌或超越整个面板了。有时候少就是多。
— 全文完 —