故事是这样的。
美国政府跟OpenAI说,你先别急着把GPT-5.6全面放出来,咱们缓缓。
The Information的报道说得很清楚,美国政府因为安全顾虑要求OpenAI暂缓GPT-5.6的广泛发布,改为一个受控预览版。OpenAI现在打算先向小部分合作伙伴开放,而且每一个合作伙伴都要由政府逐客户审批才能接入。
为什么?因为GPT-5.6在自动化高技能网络工作上的能力太强了。它能帮防御者更快发现漏洞没错,但它也可能被攻击者用来加速测试漏洞利用。这是个双刃剑问题,而且这次美国政府选了非常规的做法,直接干预发布节奏。本周四,Sam Altman已经向员工确认了这个审批流程的存在。
我觉得这事挺有意思。不是说AI太强所以要限制,而是说AI已经强到让美国政府觉得需要对它单独设立一个审批通道了。这本身就是一个信号。
说真的,我有时候觉得,2026年可能就是一个分水岭。上半年我们看到了太多从实验室走向生产的标志性事件,从Agent到芯片,每一件都在提醒你,我们正在经历一个历史性的拐点。
回到今天的信息量巨大的话题上来。
先说硬件层的消息。
IBM发布了全球首款亚纳米级芯片技术,0.7纳米节点,指甲盖大小的芯片集成了近1000亿个晶体管。密度大概是IBM 2021年那个2nm芯片的两倍。性能最高提升了50%,能效最高提升70%。这玩意现在已经在VLSI 2026会议上验证了,IBM预计5年内量产。
我寻思了一下。1000亿个晶体管在一个指甲盖上。你想想看,前几年我们还在讨论7nm、5nm,现在直接干到0.7nm了。这背后的制造工艺突破,其实比很多人想象的要大得多。
另外一条硬件消息来自OpenAI。他们跟Broadcom联合发布了LLM推理芯片Jalapeño。从设计到流片只用了9个月,而且早期测试显示性能功耗比大幅优于现有SOTA。OpenAI说今年开始就跟微软等合作伙伴部署千兆瓦级数据中心。
OpenAI做芯片这事传了好几年了,现在终于落地了。而且9个月流片,这个速度在芯片行业简直是光速。
再聊一个让我特别兴奋的事情。
赫库兰尼姆古卷被完整解读了。
研究人员用高分辨率X射线显微断层扫描加机器学习,在不物理展开的情况下,完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667。这是历史上第一次有人从头到尾连续读完一卷纸莎草卷。
内容是什么?斯多葛哲学的论著,提到了克里西普斯的侄子Aristocreon。
你敢信?两千年前被火山灰掩埋、碳化到根本没法用手展开的纸卷,现在被AI给读出来了。第二卷PHerc.Paris4用更高分辨率成像,墨水在三维数据里直接可见。第三卷PHerc.139确定了标题和作者,菲洛德穆的《论诸神》第八卷。
所有数据都开源了。代码也开源了。
我当时就愣住了。想想看,庞贝古城旁边那个图书馆里可能还有几百卷没读过的古卷,每一卷都可能藏着失传的古希腊哲学、文学。以前我们以为永远读不到的,现在AI把它变成现实了。
太特么赤鸡了。
顺着上面的再聊聊开源模型。
Ornith-1.0开源模型家族发布了,专注Agentic Coding。覆盖从9B到397B MoE的全尺寸。在Agent Coding基准上拿了开源顶尖,SWE-Bench Verified 82.4、Terminal-Bench 77.5。这东西基于gemma4和qwen3.5后训练,用强化学习联合优化任务脚手架和最终解决方案。全系列MIT开源,GGUF版本也都提供了,Ollama和Unsloth都能跑。
开源社区最近的节奏真的太快了。每个月都有新的编程模型跑到开源第一,然后下个月又被另一个干翻。大家都想让模型自己写代码自己修bug自己部署。我觉得这方向是对了,但节奏快得有点让人喘不过气。
说完模型说产品。
OpenAI发了一篇内部报告,讲Codex怎么改变工作方式的。数据非常炸裂。
从2025年8月到2026年6月,Codex取代ChatGPT成为OpenAI内部的主要工作工具。各部门输出的token中,Codex占比从不到10%飙到了99.8%。80.6%的个体用户发起过预计等效人类工作时间超过30分钟的请求,25.6%超过8小时。最狠的那1%用户,每天生成超过60小时的agent turns。
更让我惊讶的是,非开发者用户增长极其迅猛。个体用户增长137倍,组织用户增长189倍。法务、财务、招聘部门在2026年4月前后跨过了Codex使用过半的拐点,平均每个律师或招聘人员超过85%的输出token来自Codex。
我觉得这个数据挺能说明问题的。以前我们说AI coding是程序员的工具,现在法务和HR都在用了。Codex用它自己证明了,门槛降低以后,非技术用户才是最大的增量市场。
字节跳动这周也很猛。
豆包正式推出了专业版,基于豆包2.1系列大模型。办公任务模式能操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,还能生成带后端数据库的在线应用。
定价,标准套餐68元/月,加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月。
68块一个月,说实话不贵。对比一下ChatGPT Plus是20美元,Claude Pro也是20美元。豆包专业版能做的事情比ChatGPT多不少,操作电脑、自动办公、生成应用,这些是ChatGPT Plus的浏览器版没法比的。
字节技术副总裁洪定坤在火山引擎Force大会上分享了AI Coding的实践数据。过去一年,字节AI代码贡献率增长6倍。但他说了一个很有意思的观察,过度关注单一指标可能失真。TRAE团队代码超90%由AI生成,但人均需求吞吐率只提升了60%。
什么意思呢?写代码变快了,但理解需求、沟通协作、测试验证这些环节才是真正的瓶颈。
900次实验显示,主流Coding模型组合代码正确率超80%,但可交付性只有40-60分。结合Harness基建后才能提升到80分。他说得很实在,AI降低了编程门槛,但需要优化指标、治理和协作。
这是我很喜欢的那种分享,有数据,有反思,不吹牛。
OpenAI还悄悄上线了Bidi 1,一个双向AI语音模型。就在ChatGPT的设置模型选择器里,跟标准语音和高级语音并列。这玩意支持边说话边监听,你可以在跟它说话的中途打断它,直接发一个新指令。比如你让它从1数到10,数到一半喊停,它能立刻切换执行倒数。
GPT-5.5 Instant也更新了。新版本聊天更有趣,能更好理解问题背后的意图,处理复杂约束也更可靠。今天向付费用户推送,明天免费用户也能用。
说一个让我有点震撼的数据。
General Intuition以23亿美元估值完成了3.2亿美元融资。这公司从旗下游戏剪辑平台Medal获取了数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭Fortnite和四足机器人。演示里AI智能体在游戏中连续运行100小时,机器人只靠8分钟真实街道数据微调就能自主探索办公室。
Khosla Ventures领投,General Catalyst、Jeff Bezos、Eric Schmidt跟投。这阵容很豪华。
我觉得这个方向特别有意思。以前我们都觉得游戏和现实世界是两个完全不同的领域,但General Intuition的做法表明,在游戏里学会的通用操作能力,其实可以被迁移到现实世界。因为游戏里包含了大量丰富的交互数据,鼠标键盘的每一个动作、每一次点击的时间、每一帧画面的变化,这些东西比任何精心标注的数据集都更接近通用智能的训练材料。
他们计划夏末前开放API。我挺想试试的。
再聊点八卦。
LinkedIn联合创始人Reid Hoffman最近在播客上火力全开。他说SpaceX不是一家人工智能公司,6月12日上市后收购Cursor属于花钱买相关性。他说xAI是彻底的灾难,所有11位联合创始人都离职了,Grok在基准测试中落后于Anthropic和OpenAI。
他还批评美国政府以出口管制为由强制Anthropic下架Fable和Mythos模型,理由是Amazon CEO报告说Fable 5存在jailbreak漏洞。他说这做法专断随意。
Hoffman是Anthropic和OpenAI的投资人,他一边说这两家公司都有巨大发展空间,一边说Cursor可能已经过了巅峰。然后他给年轻人的建议是,不要抵制AI。
挺有意思的立场。
还有个八卦。Anthropic指控阿里巴巴未经授权提取了Claude AI模型的能力。说阿里巴巴通过逆向工程或者其他手段复制了Claude的核心技术。阿里巴巴目前还没公开回应。
这事如果属实,那比之前DeepSeek争议的性质严重得多。不过现在还只有Anthropic单方面的说法。我持保留态度,等更多信息出来再说。
产品方面还有几条值得提的。
Google DeepMind把computer use作为内置工具集成到了Gemini 3.5 Flash。开发者可以构建跨浏览器、移动端和桌面的智能体了。之前这个功能只在Gemini 2.5里以独立模型形式提供,现在直接内置在3.5 Flash里。安全方面做了针对性对抗训练,还配了企业防护系统,敏感操作需要用户确认,检测到间接prompt注入自动停止任务。
Notion用了Cursor SDK,几周内就把编码智能体嵌入了产品。用户可以在文档里@Cursor,Cursor帮你端到端规划、构建、测试、验证,自动创建PR。Notion没自己建智能体基础设施,直接用了Cursor的框架。
Runway发布了Agent 2.0,帮营销人员创建、测试和优化广告和营销活动。可以一次生成一周内容,自动裁切各种尺寸。从开发者工具到营销工具,Agent正在渗透每一个职业领域。
OpenRouter发布了自己的MCP服务器,给编程智能体提供实时模型数据、基准排名、定价和文档查询。一键安装,支持Claude Code、Codex CLI、Cursor。推荐GLM-5.2作为性价比最佳的编码模型。
还有一个研究层面的动态值得关注。
Cursor审计了SWE-bench Pro,发现Opus 4.8 Max有63%的成功解决方案直接从公开来源检索了修正。隔离环境后,得分从87.1%跌到了73.0%。
这件事其实挺重要的。很多基准测试的结果,可能没有你想象的那么可靠。因为模型在训练数据里看到过这些问题的答案,或者能从外部队列里找到修正。这不是作弊,这是预训练数据的污染问题。但如果你把基准测试分数当作真实能力的标尺,那你可能会高估实际表现。
类似的研究还有,苹果发现9位LLM评委因为高度相关只提供了大约2个独立投票的信息量,面板准确率比独立投票理想值低8-22个百分点。
另一个让我印象深刻的研究是AI招聘工具中的种族偏见。覆盖340万人、400万份申请的实地研究发现,26%的黑人申请者和15%的亚裔申请者遭遇算法系统性排斥。如果按AI推荐率最高标准执行,会有4万份额外申请进入下一轮,但这些申请本来是合格的,只是被算法筛掉了。
算法偏见这件事我们已经讨论了好几年了,但这项研究的规模,340万人,让它有了前所未有的说服力。研究者呼吁对算法招聘进行独立监管。我觉得这个呼吁很合理。
最后说两个小动态。
Meta员工警告AI内容审核部署过快。Meta已经用大语言模型替换了大约一半人工审核请求,计划年底前把部分内容类型的AI审核比例提升到90%以上。Meta说模型错误率比人类低13%,多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,而且快速部署已经导致外包裁员。
这又是一个效率与质量的拉扯。AI的确比人类更便宜更快速,但无害内容被误伤的成本,不是省钱能抵消的。
Midjourney预览了V8.2,加了个–preview参数就能提前体验新版本的美学效果。草稿模式也提速了,搭配–sref random探索风格空间比之前快了24倍。
怎么说呢。今天信息量确实大,从宏观的AI经济报告到微观的模型更新,从硬件层的芯片突破到应用层的产品发布,从严肃的伦理争议到有趣的创意工具。
我有时候觉得这个世界变化太快了。快到我写日报的时候都在想,明天又会有什么新东西炸出来。
但我觉得这才是最迷人的地方。保持好奇,然后亲自去试试那些新东西。别光看,去做。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
/ 作者 卡兹克
/ 投稿或爆料请联系 wzglyay@virxact.com