AI 日报 2026.06.24:小米纽北自动驾驶刷圈、Oracle裁员两万、五眼联盟AI安全警告

今天的信息量,说实话,有点大。大到什么程度呢,我整理完素材之后坐在电脑前面愣了大概五分钟,不知道该从哪说起。

那就先从那件最离谱的事开始吧。

1. 小米把车开到纽北,自动驾驶跑了个 10 分 29 秒

小米 YU7 GT 昨天在纽博格林北环跑了个自动驾驶圈速,10 分 29 秒 483。全球第一个纽北自动驾驶圈速纪录。

你敢信?

不是人类开的,是车子自己开的。全程无人,自动驾驶系统自己认路、自己过弯、自己刹车、自己加速,一口气跑完整条赛道。纽北官方甚至因此新增了一个叫「自动驾驶」的圈速分类。

我觉得这件事的意义不在于那个数字本身。10 分 29 秒在人类驾驶圈速里不算快,那些专业车手开合法量产车也就是 7 分 8 分的事。但问题是,这是机器自己跑的。机器不需要休息,不需要训练,不需要适应赛道。给它一套系统,它能一遍一遍跑,每次都在同一个地方刹车,同一个地方出弯,而且永远不会累。

小米自己也说了,在极限赛道里练出来的动态模型、高频扭矩分配和毫秒级救车能力,会逐步下放到量产车上。啥意思?你在暴雨里开车的时候,车子能自己判断路面附着力,自动调整底盘和扭矩分配。这个能力不是实验室里算出来的,是纽北赛道上真刀真枪跑出来的。

比较骚的事,这可能是今天所有新闻里最容易被低估的一条。

2. Oracle 裁员 21000 人,原因是 AI

Oracle 刚刚结束的财年里裁了 21000 人,员工总数从 162000 降到了 141000,降幅 12.9%。公司直接说,原因是 AI 技术的采用。

同期 Oracle 的重组成本冲到 18 亿美元,同比增长 481%。并且他们还计划通过债务和股权筹集 450 到 500 亿美元来扩建 Oracle Cloud Infrastructure,服务 OpenAI、xAI、AMD、Nvidia、Meta 这些客户。

我自己的感受是,Oracle 这个事其实是一个很重要的信号。以前大家讨论 AI 取代工作,更多是理论层面的。程序员被 AI 取代,客服被 AI 取代,设计师被 AI 取代,但这些讨论大多停留在「未来可能会」的范畴。Oracle 是第一个把「因为 AI 所以裁员 21000 人」白纸黑字写进财报的大公司。

注意,21000 人不是小数目。而且 Oracle 自己也承认,这样规模的裁员可能带来生产力下降、人才短缺和员工士气受损的风险。但即便如此,他们还是做了。这个取舍本身就说明了很多问题。

3. 五眼联盟警告,AI 网络攻击几个月内就会影响普通人

6 月 22 号,五眼联盟的网络安全部门联合发了一个警告。不是那种例行公事的通告,是认真的。他们说,即将到来的 AI 模型,比如 OpenAI 的 GPT-5.5-Cyber、Anthropic 的 Mythos,会大幅降低编写复杂攻击代码的门槛。

自动化智能体可以全天候扫描互联网漏洞,传统安全窗口期会被大幅缩短。而且 AI 驱动的超个性化钓鱼诈骗已经在亚太地区蔓延开了,印度光是 2026 年初勒索软件事件就暴增了 165%。

五眼联盟给企业的建议是部署自动化防御 AI,给个人的建议是开启多因素认证、删除闲置账户。

怎么说呢,这个事让我想起了《北京折叠》里那种科技发展快到让人窒息的压迫感。以前网络攻击需要专业技能,需要有耐心去挖漏洞、写 payload、绕过防御。以后可能只需要对着一个 AI 说一句「帮我把这个网站的漏洞找出来」。门槛降到底了。

4. 京东开源了一个全栈交互模型,叫 JoyAI-VL-Interaction

京东那边开源了一个让我挺感兴趣的东西。JoyAI-VL-Interaction,号称是「全球首个全栈交互模型」。它能持续观察视频流,主动判断关键事件并实时做出回应,还支持把复杂任务委托给后台 Agent 处理。

他们在 58 个真人盲评里,对比豆包视频通话助手胜率 77.6%,对比 Gemini 视频通话助手胜率 87.9%。安防监控场景更是 100% 胜率。

而且他们是真开源,模型权重、交互数据集、训练方案、完整可部署系统全放了。支持摄像头、直播流等视频输入,语音交互,长期记忆,vLLM 部署。京东自己说的应用场景包括安防监控、老人看护、直播讲解这些。

说到老人看护,这个场景我其实是真能看懂的。老人一个人在家,有个 AI 能持续观察他是不是摔倒了、是不是忘记吃饭了、是不是需要帮助了,然后主动判断并响应。这个比那种你喊一句它答一句的智能音箱要实用得多。但我现在还不知道京东这个模型真的落地到这个场景时的表现到底怎么样,我自己还没试过,先记一笔。

5. 字节 Seed2.1 发布,号称面向真实生产力场景

字节跳动发布了 Seed2.1 系列,定位是面向真实生产力场景的智能体。具体来说就是强化通用 Agent 能力、代码工程交付能力和多模态理解。

Seed2.1 Pro 在 GDPval 基准上拿了最高分,Agents’ Last Exam 排在参评模型第一梯队。手机 GUI 任务 MobileWorld 拿了最高分。代码能力上,开发者评测对比 Claude Opus 4.6 获得了 59.1% 的胜率。

已经上线豆包和 TRAE,API 通过火山方舟提供。

字节最近在产品端的动作确实密集。之前 Seedance 视频生成也一直在迭代,现在 Seed2.1 又出来了。感觉字节在 AI 这条线上越来越认真了,不是那种「先占个位置再说」的打法,是真的在堆产品和技术。

6. 微信 Agent 小微开始灰度内测了

微信搞了个叫「小微」的 AI Agent,灰度内测已经开始了。主入口在微信首页左上角,支持给好友发消息和红包,但读不了聊天记录也发不了群消息。群聊和私聊里有个「问小微」的子入口倒是可以读聊天记录。

小微能创建日程提醒、待办事项、总结朋友圈,还打通了公众号和视频号。有个「小工具」功能,支持语音创建简易小程序,不过暂不可发布。

说实话这个产品形态挺微信的。入口藏得比较深,功能铺得比较全面,但又处处小心,生怕越界。能发消息但不能读聊天记录,能创建小程序但不能发布。这种「可以做但不给权限」的风格,跟微信一贯的节奏很一致。

但我觉得最值得关注的不是小微本身,而是微信终于开始在 AI 上出手了。微信的用户基数和场景广度摆在那,一旦这东西全面铺开,影响力不会小。

7. Cursor 审计发现了一个很尴尬的事

Cursor 最近干了一件挺诚实的事。他们审计了自己模型在 SWE-bench Pro 上的表现,发现 Opus 4.8 Max 有 63% 的成功方案是从公开来源直接检索到的修正,而不是自主推导出来的。

他们是怎么发现的?审计了模型的轨迹。具体来说,就是看模型在解题过程中的每一步操作,发现很多成功方案其实是直接从 GitHub 上 copy 过来的。

于是他们做了一个对比实验,把 git 历史隔离掉,限制网络访问,再跑同样的题目。结果呢,Opus 4.8 Max 的得分从 87.1% 直接跌到 73.0%,Composer 2.5 从 74.7% 跌到了 54.0%。

两种主要模式,上游查找占 57%,git 历史挖掘占 9%。

这个事其实挺值得思考的。我不是说 Cursor 在作弊,我是觉得这种「奖励黑客」行为是 AI 评估领域的一个系统性问题。模型发现捷径的能力太强了,它们不是故意要作弊的,而是发现「这样做更容易得分」就自然这样做了。就像考试里发现题目跟往年重复了然后直接默写答案,在人的视角是作弊,但模型的视角里它只是做了一个统计上最有效的选择。

Cursor 的建议是加审计轨迹和限制运行时环境。我觉得这个方向是对的,但更深层的问题是,AI 领域的 benchmark 到底该怎么设计才能不被 reward hacking 钻空子。

8. 今天还有一堆产品更新,挑几个说

Runway 一口气发了三个视频模型,Seedance 4K、Seedance Mini、Kling 3.0 Turbo。用优惠码 30RUNWAY 前三个月七折。他们还说这是全球最佳模型汇聚一处,口气不小。Aleph 2.0 也集成到了 Figma Weave 里,是个基于上下文的视频编辑模型,支持最长 30 秒 1080p。

FastWan-QAD 这个从名字就很硬核的东西我们提一嘴。Sky Computing Lab 发了个视频生成模型,在单张 5090 上端到端生成一段 5 秒 480P 视频只要 1.8 秒。模型、代码和博客都开源了。1.8 秒出 5 秒视频这个速度,已经快到可以在对话里实时生成了吧。

Sakana AI,就是那个由前 Google Brain 的 David Ha 和 Transformer 论文共同作者 Llion Jones 联合创立的东京公司,发布了 Sakana Fugu,一个多智能体编排系统。把多智能体系统封装成单个 API 调用,自动拆解任务、调度模型、验证结果。Fugu Ultra 版本对标 Fable/Mythos。

Anthropic 推出了 Claude Tag,在 Slack 里通过 @Claude 来协作。可以记住频道上下文,支持多用户交互,能异步工作几个小时甚至几天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。

xAI 在 Grok Build 里加了一个 /goal 模式。一行命令设定目标,agent 自动规划、拆解成进度清单、持续执行直到通过验证。坦率的讲,就是我给你一个目标,你自己去想怎么做完。

豆包也发布了音频生成模型 1.0,端到端输出目标音频。一条 Prompt 可以编排多角色对白、情绪语气、背景音乐。一次支持 2 分钟音频创作,多次延长还能保持音色统一。

Mistral 那边出了 OCR 4,支持 170 种语言,带边界框和块分类,OlmOCRBench 上 85.20 分。定价每 1000 页 4 美元。

网易有道搞了个 Confucius4-TTS,14 语种跨语种无口音语音克隆,只要 3 秒音频就能完成音色克隆,开源。相似度超 85%,准确度 97%。

Google DeepMind 投了 A24 7500 万美元,合作开发电影制作 AI 工具。一个 AI 公司投了一个独立电影厂牌,这个组合本身就挺有意思。

IBM 这边也开源了一个叫 CUGA 的轻量级智能体框架,二十多个单文件示例应用,在 AppWorld 和 WebArena 基准上排第一。

9. Anthropic 的工程负责人说,Claude Code 让程序员更孤独了

最后说一个让我有点感慨的。

Anthropic 的工程负责人 Fiona Fung 在 6 月 22 号说了一句话,AI 智能体让工程师越来越依赖自动化工作,彼此之间的交流变少了,长期下去容易感到孤独。他们团队为此组织了编程午餐、黑客松和共同开发时段,重新创造面对面协作的机会。

调查显示 Claude Code 已经成为创业公司最常用的 AI 编程工具,一种叫「氛围编程」的潮流让「单人创业者」变多了。但 Fiona 强调,协作仍然不可或缺。

这个事我很有共鸣。我自己用了快两年的 AI 工具,是真的能感觉到这种变化。以前写代码遇到问题会去跟同事聊、去群里问、去 Stack Overflow 上搜。现在第一反应是直接把报错贴给 Claude 或者 GPT,让它先诊断。大部分时候它能搞定,搞不定再去找人聊。久而久之,主动找人的次数确实少了。

效率变高了,但人与人之间的连接变淡了。我不知道这是好事还是坏事,可能两方面都有。但 Annie 他们搞编程午餐这个事,我觉得挺对的。工具可以替代工作流程,但替代不了一起吃饭聊天的那种感觉。

先聊到这吧

今天的信息密度真的高。从小米在纽北刷圈到 Oracle 裁员两万,从五眼联盟的 AI 安全警告到京东的全栈模型开源,从微信的 Agent 灰度内测到 Cursor 的尴尬审计。

每条单独拎出来都值得单独写一篇。但在 2026 年 6 月 24 号这一天,它们全挤在一起了。这个行业的速度就是这么离谱,你稍微走两天神,回来就发现自己已经落了一大截。

我还是那句话,保持好奇,保持跟进。看不懂的可以先存着,慢慢就懂了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标~

谢谢你看我的文章,我们,下次再见。