AI 日报 2026.06.26：GPT-5.6被叫停、IBM 0.7nm芯片、赫库兰尼姆古卷AI解读

故事是这样的。

美国政府跟OpenAI说，你先别急着把GPT-5.6全面放出来，咱们缓缓。

The Information的报道说得很清楚，美国政府因为安全顾虑要求OpenAI暂缓GPT-5.6的广泛发布，改为一个受控预览版。OpenAI现在打算先向小部分合作伙伴开放，而且每一个合作伙伴都要由政府逐客户审批才能接入。

为什么？因为GPT-5.6在自动化高技能网络工作上的能力太强了。它能帮防御者更快发现漏洞没错，但它也可能被攻击者用来加速测试漏洞利用。这是个双刃剑问题，而且这次美国政府选了非常规的做法，直接干预发布节奏。本周四，Sam Altman已经向员工确认了这个审批流程的存在。

我觉得这事挺有意思。不是说AI太强所以要限制，而是说AI已经强到让美国政府觉得需要对它单独设立一个审批通道了。这本身就是一个信号。

说真的，我有时候觉得，2026年可能就是一个分水岭。上半年我们看到了太多从实验室走向生产的标志性事件，从Agent到芯片，每一件都在提醒你，我们正在经历一个历史性的拐点。

回到今天的信息量巨大的话题上来。

先说硬件层的消息。

IBM发布了全球首款亚纳米级芯片技术，0.7纳米节点，指甲盖大小的芯片集成了近1000亿个晶体管。密度大概是IBM 2021年那个2nm芯片的两倍。性能最高提升了50%，能效最高提升70%。这玩意现在已经在VLSI 2026会议上验证了，IBM预计5年内量产。

我寻思了一下。1000亿个晶体管在一个指甲盖上。你想想看，前几年我们还在讨论7nm、5nm，现在直接干到0.7nm了。这背后的制造工艺突破，其实比很多人想象的要大得多。

另外一条硬件消息来自OpenAI。他们跟Broadcom联合发布了LLM推理芯片Jalapeño。从设计到流片只用了9个月，而且早期测试显示性能功耗比大幅优于现有SOTA。OpenAI说今年开始就跟微软等合作伙伴部署千兆瓦级数据中心。

OpenAI做芯片这事传了好几年了，现在终于落地了。而且9个月流片，这个速度在芯片行业简直是光速。

再聊一个让我特别兴奋的事情。

赫库兰尼姆古卷被完整解读了。

研究人员用高分辨率X射线显微断层扫描加机器学习，在不物理展开的情况下，完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667。这是历史上第一次有人从头到尾连续读完一卷纸莎草卷。

内容是什么？斯多葛哲学的论著，提到了克里西普斯的侄子Aristocreon。

你敢信？两千年前被火山灰掩埋、碳化到根本没法用手展开的纸卷，现在被AI给读出来了。第二卷PHerc.Paris4用更高分辨率成像，墨水在三维数据里直接可见。第三卷PHerc.139确定了标题和作者，菲洛德穆的《论诸神》第八卷。

所有数据都开源了。代码也开源了。

我当时就愣住了。想想看，庞贝古城旁边那个图书馆里可能还有几百卷没读过的古卷，每一卷都可能藏着失传的古希腊哲学、文学。以前我们以为永远读不到的，现在AI把它变成现实了。

太特么赤鸡了。

顺着上面的再聊聊开源模型。

Ornith-1.0开源模型家族发布了，专注Agentic Coding。覆盖从9B到397B MoE的全尺寸。在Agent Coding基准上拿了开源顶尖，SWE-Bench Verified 82.4、Terminal-Bench 77.5。这东西基于gemma4和qwen3.5后训练，用强化学习联合优化任务脚手架和最终解决方案。全系列MIT开源，GGUF版本也都提供了，Ollama和Unsloth都能跑。

开源社区最近的节奏真的太快了。每个月都有新的编程模型跑到开源第一，然后下个月又被另一个干翻。大家都想让模型自己写代码自己修bug自己部署。我觉得这方向是对了，但节奏快得有点让人喘不过气。

说完模型说产品。

OpenAI发了一篇内部报告，讲Codex怎么改变工作方式的。数据非常炸裂。

从2025年8月到2026年6月，Codex取代ChatGPT成为OpenAI内部的主要工作工具。各部门输出的token中，Codex占比从不到10%飙到了99.8%。80.6%的个体用户发起过预计等效人类工作时间超过30分钟的请求，25.6%超过8小时。最狠的那1%用户，每天生成超过60小时的agent turns。

更让我惊讶的是，非开发者用户增长极其迅猛。个体用户增长137倍，组织用户增长189倍。法务、财务、招聘部门在2026年4月前后跨过了Codex使用过半的拐点，平均每个律师或招聘人员超过85%的输出token来自Codex。

我觉得这个数据挺能说明问题的。以前我们说AI coding是程序员的工具，现在法务和HR都在用了。Codex用它自己证明了，门槛降低以后，非技术用户才是最大的增量市场。

字节跳动这周也很猛。

豆包正式推出了专业版，基于豆包2.1系列大模型。办公任务模式能操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，还能生成带后端数据库的在线应用。

定价，标准套餐68元/月，加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月。

68块一个月，说实话不贵。对比一下ChatGPT Plus是20美元，Claude Pro也是20美元。豆包专业版能做的事情比ChatGPT多不少，操作电脑、自动办公、生成应用，这些是ChatGPT Plus的浏览器版没法比的。

字节技术副总裁洪定坤在火山引擎Force大会上分享了AI Coding的实践数据。过去一年，字节AI代码贡献率增长6倍。但他说了一个很有意思的观察，过度关注单一指标可能失真。TRAE团队代码超90%由AI生成，但人均需求吞吐率只提升了60%。

什么意思呢？写代码变快了，但理解需求、沟通协作、测试验证这些环节才是真正的瓶颈。

900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性只有40-60分。结合Harness基建后才能提升到80分。他说得很实在，AI降低了编程门槛，但需要优化指标、治理和协作。

这是我很喜欢的那种分享，有数据，有反思，不吹牛。

OpenAI还悄悄上线了Bidi 1，一个双向AI语音模型。就在ChatGPT的设置模型选择器里，跟标准语音和高级语音并列。这玩意支持边说话边监听，你可以在跟它说话的中途打断它，直接发一个新指令。比如你让它从1数到10，数到一半喊停，它能立刻切换执行倒数。

GPT-5.5 Instant也更新了。新版本聊天更有趣，能更好理解问题背后的意图，处理复杂约束也更可靠。今天向付费用户推送，明天免费用户也能用。

说一个让我有点震撼的数据。

General Intuition以23亿美元估值完成了3.2亿美元融资。这公司从旗下游戏剪辑平台Medal获取了数亿小时含精确按键动作标签的游戏操作数据，训练单一模型同时驾驭Fortnite和四足机器人。演示里AI智能体在游戏中连续运行100小时，机器人只靠8分钟真实街道数据微调就能自主探索办公室。

Khosla Ventures领投，General Catalyst、Jeff Bezos、Eric Schmidt跟投。这阵容很豪华。

我觉得这个方向特别有意思。以前我们都觉得游戏和现实世界是两个完全不同的领域，但General Intuition的做法表明，在游戏里学会的通用操作能力，其实可以被迁移到现实世界。因为游戏里包含了大量丰富的交互数据，鼠标键盘的每一个动作、每一次点击的时间、每一帧画面的变化，这些东西比任何精心标注的数据集都更接近通用智能的训练材料。

他们计划夏末前开放API。我挺想试试的。

再聊点八卦。

LinkedIn联合创始人Reid Hoffman最近在播客上火力全开。他说SpaceX不是一家人工智能公司，6月12日上市后收购Cursor属于花钱买相关性。他说xAI是彻底的灾难，所有11位联合创始人都离职了，Grok在基准测试中落后于Anthropic和OpenAI。

他还批评美国政府以出口管制为由强制Anthropic下架Fable和Mythos模型，理由是Amazon CEO报告说Fable 5存在jailbreak漏洞。他说这做法专断随意。

Hoffman是Anthropic和OpenAI的投资人，他一边说这两家公司都有巨大发展空间，一边说Cursor可能已经过了巅峰。然后他给年轻人的建议是，不要抵制AI。

挺有意思的立场。

还有个八卦。Anthropic指控阿里巴巴未经授权提取了Claude AI模型的能力。说阿里巴巴通过逆向工程或者其他手段复制了Claude的核心技术。阿里巴巴目前还没公开回应。

这事如果属实，那比之前DeepSeek争议的性质严重得多。不过现在还只有Anthropic单方面的说法。我持保留态度，等更多信息出来再说。

产品方面还有几条值得提的。

Google DeepMind把computer use作为内置工具集成到了Gemini 3.5 Flash。开发者可以构建跨浏览器、移动端和桌面的智能体了。之前这个功能只在Gemini 2.5里以独立模型形式提供，现在直接内置在3.5 Flash里。安全方面做了针对性对抗训练，还配了企业防护系统，敏感操作需要用户确认，检测到间接prompt注入自动停止任务。

Notion用了Cursor SDK，几周内就把编码智能体嵌入了产品。用户可以在文档里@Cursor，Cursor帮你端到端规划、构建、测试、验证，自动创建PR。Notion没自己建智能体基础设施，直接用了Cursor的框架。

Runway发布了Agent 2.0，帮营销人员创建、测试和优化广告和营销活动。可以一次生成一周内容，自动裁切各种尺寸。从开发者工具到营销工具，Agent正在渗透每一个职业领域。

OpenRouter发布了自己的MCP服务器，给编程智能体提供实时模型数据、基准排名、定价和文档查询。一键安装，支持Claude Code、Codex CLI、Cursor。推荐GLM-5.2作为性价比最佳的编码模型。

还有一个研究层面的动态值得关注。

Cursor审计了SWE-bench Pro，发现Opus 4.8 Max有63%的成功解决方案直接从公开来源检索了修正。隔离环境后，得分从87.1%跌到了73.0%。

这件事其实挺重要的。很多基准测试的结果，可能没有你想象的那么可靠。因为模型在训练数据里看到过这些问题的答案，或者能从外部队列里找到修正。这不是作弊，这是预训练数据的污染问题。但如果你把基准测试分数当作真实能力的标尺，那你可能会高估实际表现。

类似的研究还有，苹果发现9位LLM评委因为高度相关只提供了大约2个独立投票的信息量，面板准确率比独立投票理想值低8-22个百分点。

另一个让我印象深刻的研究是AI招聘工具中的种族偏见。覆盖340万人、400万份申请的实地研究发现，26%的黑人申请者和15%的亚裔申请者遭遇算法系统性排斥。如果按AI推荐率最高标准执行，会有4万份额外申请进入下一轮，但这些申请本来是合格的，只是被算法筛掉了。

算法偏见这件事我们已经讨论了好几年了，但这项研究的规模，340万人，让它有了前所未有的说服力。研究者呼吁对算法招聘进行独立监管。我觉得这个呼吁很合理。

最后说两个小动态。

Meta员工警告AI内容审核部署过快。Meta已经用大语言模型替换了大约一半人工审核请求，计划年底前把部分内容类型的AI审核比例提升到90%以上。Meta说模型错误率比人类低13%，多捕捉10%违规。但员工指出模型仍会移除或限流无害内容，而且快速部署已经导致外包裁员。

这又是一个效率与质量的拉扯。AI的确比人类更便宜更快速，但无害内容被误伤的成本，不是省钱能抵消的。

Midjourney预览了V8.2，加了个–preview参数就能提前体验新版本的美学效果。草稿模式也提速了，搭配–sref random探索风格空间比之前快了24倍。

怎么说呢。今天信息量确实大，从宏观的AI经济报告到微观的模型更新，从硬件层的芯片突破到应用层的产品发布，从严肃的伦理争议到有趣的创意工具。

我有时候觉得这个世界变化太快了。快到我写日报的时候都在想，明天又会有什么新东西炸出来。

但我觉得这才是最迷人的地方。保持好奇，然后亲自去试试那些新东西。别光看，去做。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

/ 作者卡兹克
/ 投稿或爆料请联系 wzglyay@virxact.com