AI 日报 2026.06.05:这周产品经理集体加班,模型军备竞赛升级,互联网正在被机器人接管

AI 日报 2026.06.05:这周产品经理集体加班,模型军备竞赛升级,互联网正在被机器人接管

事情是这样的。昨天晚上我在刷新闻的时候,突然意识到一个事儿,这个月 AI 圈的更新速度,已经快到让我有点跟不上了。

不是那种「好多新东西「的快,是那种「我昨天刚知道这个产品,今天它就已经迭代了两个版本「的快。我有时候觉得,我们是不是正在经历一个什么特殊的节点,还是说这已经变成了新常态?

Anyway,不管怎么说,作为每天蹲在 AI 圈门口的观察者,我有义务把过去这 24 小时最重要的动静整理给你。这期内容有点多,我们一个一个聊。

产品更新,这周的产品经理们都疯了

先说说产品。这周产品更新的密度之高,让我甚至怀疑是不是所有公司都约好了同一周发布。NotebookLM 先出手,搞了个「来源归属「功能,现在你可以看到每个生成内容背后的确切提示词和来源了。想要调整?点一下「迭代「就行。

说实话,这个功能我期待很久了。之前用 NotebookLM 最大的痛点就是,它生成的东西你没法追溯到底Reference了什么。现在好了,透明度直接拉满。不过我也在想一个问题,当我们把所有提示词都摆上台面的时候,会不会反而让「好的提示词「变成新的信息差?

Gemini 的 macOS 客户端也更新了,现在双击 Command 键就能把当前活动窗口直接丢给 Gemini,不用截图不用切换标签。这个细节很实用,但更让我在意的是背后的逻辑,AI 助手正在变得越来越「无感「,你甚至不需要刻意去「使用「它,它就在那儿,等着被你召唤。

说到召唤,OpenAI 那边给 API 加了内容审核评分。现在 Moderation scores 直接在 Responses API 和 Completions API 里返回了。那结果会怎样呢?开发者不用再单独调一次审核接口,一次请求拿生成结果和审核信号,省了一次网络往返。看起来是小优化,但用过的人都知道,这种「减少一次API调用「的改动在实际工程里有多重要。

最让我兴奋的其实是 ChatGPT 的新记忆系统,Dreaming。名字起得挺好,听起来就像是在说「我在睡觉的时候也在想你「。不过这不是浪漫,是技术,新系统能更有效地记住用户偏好,跨对话保持上下文的新鲜度。我自己的 ChatGPT 已经用了三个月,记忆功能确实好用,但也确实有时候会「记错「我的偏好。这次升级据说能解决这个问题,我打算这两天仔细测试一下。

如果说到测试,那不得不提 Replit Agent 联手 Shopify 这个事。告诉 Replit Agent 你想卖什么,它会帮你搭店铺页面、创建 Shopify 商店、添加商品。从想法到上线商店只需几分钟。这太离谱了。我认识几个在做跨境电商的朋友,他们要是看到这个,估计会直接失眠。这已经不是降低门槛了,这是把门槛直接挖了个坑埋了。

还有个事我必须单独拎出来说,Hugging Face 把 hf CLI 重写了。重写的目标用户不是人,是编码智能体。他们让 CLI 自动检测自己是不是被 AI 驱动,如果是,就输出紧凑无截断的 TSV 格式,不搞 ANSI 颜色,不搞交互提示,直接给纯数据。 token 消耗大幅降低。我第一次看到这个新闻的时候愣了一下,AI 时代,工具开始为 AI 自己优化了。这个方向很值得关注。

最后说两个我觉得比较「骚「的更新。一个是 OpenClaw 2026.6.1,新增了 Windows 节点主机和技能工坊。Windows 加入集群了,朋友们。另一个是 OpenShell v0.0.55,加了 Vertex AI 推理支持。这两个工具我最近都在用,更新速度和质量都出乎意料地好。

模型发布, MoE 和多模态的军备竞赛

模型这边也没闲着。NVIDIA 放了两个大招,Nemotron 3.5 Content Safety 和 Nemotron 3 Ultra。前者是个可定制的多模态安全模型,企业可以用自然语言定义自己的安全规则,还能输出逐步推理过程。后者专门为长时间运行的智能体设计,在多轮对话中保持上下文、调用工具、子智能体,速度还快。

NVIDIA 这波操作很清晰,他们不做通用大模型,但他们要做 AI 时代的基础设施。安全、推理、智能体编排,这些都是「水管「,不管上层是什么应用,都绕不开。

Google 的 Magenta RealTime 2 也挺有意思,实时音乐模型,延迟低于 200ms,能在 MacBook 上跑。支持 MIDI 键盘、文本提示、手势控制。我虽然不是音乐人,但这个方向我觉得有意思,AI 生成内容的实时性一旦上来,应用场景会完全不一样。

最炸的可能是 Nex-N2-Pro,397B 参数的 MoE 推理模型,性能达到 GPT-5.5 和 Claude Opus 4.7 级别。支持 262K 上下文,多模态。关键是能自动调节推理深度,减少 30-50% 的思考 token 且不损失性能。这个数字我一开始看到以为是吹的,后来去翻了技术博客,确实有据可查。如果属实,这对推理成本的影响是革命性的。

Ideogram v4.0 也发布了,原生 2K 分辨率,文字渲染更好,支持 JSON 提示词。我之前一直觉得 Ideogram 的文字渲染是业界第一,这次 v4 在分辨率上的突破让它在商业设计场景里更实用了。

最后还有个语音模型 Miso One,8B 参数,110ms 延迟,一次语音克隆。听起来像是为实时对话和快速定制的场景设计的。我试了下他们的演示,确实快,质感也不错。

行业动态,一些不该忽略的信号

说完了产品和模型,我们聊聊行业层面的一些信号。这些信号单独看可能没什么,但串起来看,我觉得有些东西在发生变化。

说起来,台积电表示难以跟上 AI 需求,说「我们只能支持这么多「。这不是台积电第一次说产能紧张,但这次的态度不一样,他们开始公开说「可能需要非常长的时间「才能通过美国本土生产满足客户需求。AI 芯片的军备竞赛正在从性能战变成产能战。谁能拿到更多先进制程产能,谁就可能在接下来一两年里占据优势。

然后,DeepSeek 连续四周在 OpenRouter 的 token 份额排行榜上位居第一。这个事我之前提过一次,但连续四周这个事实在有点离谱。DeepSeek 不是最大的模型公司,也不是最有名的,但它就是能打。用 OpenRouter 的推理花费来衡量,它已经是过去一个月里被用得最多的模型了。

Cloudflare 的数据也出来了,过去一周,全球所有 HTML 网页请求流量中,57.5% 来自机器人(爬虫、AI 抓取、自动化脚本),只有 42.5% 来自真人浏览器。机器人流量首次超过人类。我第一次看到这个数字的时候,忍不住「卧槽「了一声。那结果会怎样呢?我们互联网的基础流量结构正在被 AI 重塑。这不是未来,是现在。

微软 AI 负责人说 Anthropic 的模型太贵,正在自研更便宜的替代。这个新闻我读到的时候有点感慨。几年前大家都在比谁的模型更强,现在开始比谁更便宜了。价格战一旦打起来,最先倒下的不是大公司,是那些靠 API 差价生存的中小服务商。我跟几个做 AI 应用的朋友聊过,他们现在最头疼的就是模型成本占收入的比例太高,客户付费意愿又上不去。这个矛盾不解决,很多公司撑不过今年。

联合国那份报告更狠,2030 年 AI 数据中心耗电量将翻倍至 945 太瓦时,耗水 9.3 万亿升。占地面积从 6900 平方公里扩展到 14500 平方公里。我之前一直觉得「AI 能耗「是个可以慢慢解决的问题,现在看,它可能是未来十年最大的瓶颈之一。如果真要到那个规模,现在的电网和供水系统能不能扛得住?我不知道,但我觉得这个问题应该被更多人认真对待。

论文与研究,不是只有大模型才值得看

说完行业动态,我们看看研究圈这周有什么值得关注的。不是只有大模型发布才算新闻,有些论文的影响是长期的。

Google Research 搞了个被动心率监测系统 PHRM,用手机前置摄像头在日常使用中捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差低于 10%,达到心电图金标准级别。重点是,不需要专门拍,人脸解锁的数秒内就能完成。这个方向很有意思,当传感器的精度足够高的时候,你甚至不需要意识到自己正在被测量。隐私问题肯定会有人提,但技术本身确实 impressive。

EVA-Bench Data 2.0 也值得提一下。从单一企业领域扩展到了三个领域(航空公司客户服务、企业 IT 服务管理、医疗 HR 服务交付),121 个工具,213 个场景,比之前翻了 4 倍。为什么重要?因为现在企业 AI 的 benchmark 太窄了,大多在客服和代码这两个圈子里打转。EVA-Bench 想要覆盖真实企业环境的多样性,这个思路对。

NVIDIA 那篇关于任务种子合成问答生成的论文,用 Task-Seeded SDG 方法在 Nemotron-3 Nano 的续训练实验里,MMLU-Pro 涨了 1.8 分,GPQA 涨了 11.1 分。这个 GPQA 涨幅特别显眼,一般 SDG 方法在推理类 benchmark 上不容易有这么大提升。我去翻了他们的实验设计,他们用 lm-eval-harness 做评估,实验设置比较严谨。这个方向值得持续关注。

还有 PPISP,NVIDIA 的 3D 重建论文,补偿光度变化。我虽然不是做图形学的,但知道 3D 重建里光照不一致是个大麻烦。这篇论文的方法论看起来挺 elegant,项目链接我也放文末了,感兴趣的可以去看看。

技巧与观点,几个值得花时间细看的内容

最后这期,我攒了几个这周看到的、我觉得特别值得花时间细看的内容。不是新闻,是观点和深度分析。

Ethan Mollick 发了一篇长文,《共存与协同智能的终结》。他在里面聊了一个我一直也在想的问题,当 AI 越来越强的时候,我们和 AI 的关系会变成什么样?「共存「和「协同智能「这两个概念我 previously 在别的地方见过,但 Mollick 的梳理比我之前看到的都清楚。他也介绍了怎么向 AI 推销一本书,这个例子本身就挺有意思。

李飞飞和 World Labs 团队发了一篇文章梳理「世界模型「这个被用滥了的概念。他们用部分可观马尔可夫决策过程(POMDP)框架做了分类,核心论点是,当前被称为「世界模型「的不同系统,说到底是同一个循环的不同投影。这个观点很 sharp,不是否定世界模型的价值,而是说我们需要更精确的词汇来描述我们在做什么。当所有人都用同一个词描述不同的东西时,这个词就失去了意义。

Boson AI 和 LMSYS 联合推出了 Higgs Audio v3 TTS 端到端服务。4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言,在多个 TTS benchmark 上超过 Seed-TTS 和 MiniMax。这个事的重要的不是参数大小,而是它展示了「小模型 + 精调 + 好框架「在语音领域的竞争力。不是所有任务都需要几百B的模型。

Alex Imas 和 Phil Trammell 在播客里聊了 AGI 之后什么仍然稀缺。他们的例子是芭蕾舞演员,机器人数量可以快速复制增长,但人类独特技能的数量保持不变。这个论题其实触及了「稀缺性「的本质,当物质极大丰富之后,什么变得珍贵?不只是 AI 圈,整个社会都需要思考这个问题。

OpenRouter 做了一个有意思的 benchmark,用 11 款 LLM 跑 30 轮实时决策的「大逃杀「,总推理花费 482 美元。结论是,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务中的真实表现,Claude 和 Grok 领衔。这个实验设计本身比结论更值得关注,用真实场景、真实时间压力、真实金钱成本来衡量模型能力,比跑静态数据集靠谱多了。

最后,OpenAI 发布了一份名为《智能时代的生物防御》的行动计划,以 AI 驱动生物韧性。这份文件我没来得及精读,但标题本身就足够引人注目。AI 既能用来做坏事,也能用来防坏事,这个辩证关系会是接下来几年的重要议题。

今日观察,几个我自己也没想明白的事

聊完这些,我想聊几个我自己也没完全想明白的事。不是结论,是问题。

第一个问题,工具为 AI 优化,那结果会怎样呢?

Hugging Face 把 hf CLI 重写成给 AI 用的版本,这不是孤例。我之前看到过别的工具也在做类似的事,为 AI Agent 优化输出格式,为 AI 理解优化文档结构。这个趋势如果持续下去,会怎么样?未来我们的工具会不会分成两版,给人用的,和给 AI 用的?AI 会不会变成某些工具的主要用户?这听上去很 meta,但仔细想想,这可能就是未来。

第二个问题,机器人流量超过人类,是好事还是坏事?

Cloudflare 的数据显示机器人流量首次超过人类。很多人看到这个数字可能觉得「AI 太猛了「,但我想的是另一个角度,如果互联网的大部分流量都是机器人在跟机器人交互,那「互联网「这个概念本身会不会发生变化?我们现在的互联网是为人类设计的,页面、交互、体验。如果主要用户变成 AI,整个技术栈都会不一样。当然,这个过程会很慢,但方向是清晰的。

第三个问题,当「构建一个产品「的成本降到零,什么变得重要?

从 Replit Agent 一键建店,到 OpenJarvis 本地智能体框架,到 OpenClaw 的工作板编排,「构建「的成本真的在快速下降。当任何人用自然语言就能生成一个功能完整的应用时,「会不会写代码「这件事本身的价值会下降。那什么会变得更重要?我想可能是「知道要构建什么「和「知道构建出来的东西好不好「。也就是判断力和品味。这是好消息,因为这两件事AI现在还做不到。

好了,这期就到这里。如果觉得不错,随手点个赞、在看、转发三连吧。如果想第一时间收到推送,也可以给我个星标。

我们下次再见。