1. Anthropic 的双面人生
这周的 AI 圈,最炸的消息来自 Anthropic。
先说钱的事。Bloomberg 报道,Anthropic 已经秘密提交了 IPO 申请,估值 9650 亿美元。你没看错,9650 亿。这个数字什么概念呢,它已经是史上增长最快的初创公司之一了,从成立到这个体量,也就几年时间。上市的话,大概率是人类商业史上最大的科技 IPO 之一。
但故事的另一面,比钱要魔幻得多。
小互 (@xiaohu) 整理了 Anthropic CEO Dario Amodei 最近接受采访的一些内容。我一条条看完,说实话有点恍惚。他说什么呢?说他们内部有一个叫 Mythos 的模型,测试出来有上千个漏洞,能黑银行、能窃取国家机密,而且已经预测出 AI 一到五年内会砍掉一半的入门级白领工作。
还有更离谱的。Dario 说 Claude 已经被美军用于对伊朗的军事行动,涉及一所女校 150 人死亡。他在采访里被问到这件事的时候,没有否认。
然后他解释当年为什么离开 OpenAI,说是因为信任崩塌。回怼黄仁勋说他是末日营销。最后还给了一个文明崩溃的概率,10% 到 25%。
一边是 9650 亿的估值、史上最大的 IPO 野心,一边是 CEO 在公众面前大谈「我们的模型有上千漏洞、已经被用于战争」。这两个身份放在同一个人身上,太割裂了。我有时候觉得 Anthropic 这个人设是真的狠,狠到我都有点看不懂了。
2. Meta 的 AI 转型有点难
Meta 这周又出了两件事,方向不一样但都挺有意思。
第一个,TechCrunch 报道说 Meta 已经启动撤销对 Manus 的 20 亿美元收购。去年扎克伯格在 Manus 上砸了 20 亿美金,结果北京要求这个交易必须反转。现在收购解除程序已经启动了。20 亿美元说撤就撤,地缘政治对科技交易的影响,比大多数人想象的要直接得多。
第二个,扎克伯格在内部备忘录里承认了一件事,Meta 的 AI 转型已经「脱轨」了。今年 5 月裁了全球 10% 的员工,7000 人被转到 AI 相关的新项目。扎克伯格自己也说,组织调整节奏太快了,带来了员工安置、管理跨度各种问题,而且未来「几乎肯定会犯更多错误」。
说真的,10% 的裁员加 7000 人转岗,这个节奏放在任何一个公司都是极限操作。扎克伯格能公开承认「脱轨」,至少说明他对自己干什么心里有数。
但这也让我想到一个问题。Meta 在 AI 上投的钱是全世界最多的之一,从 Llama 到 AI 助手、从智能眼镜到 Manus 收购。但好像每一步都在修正、都在试错。敢烧钱是一回事,能不能烧出对的路,还真不好说。
3. 监管大潮已经来了
这周还有一个明显的信号,就是 AI 监管的力度在肉眼可见地加速。
先说白宫。白宫周五做出了一个 AI 监管决定,结果被 Gary Marcus 和卡托研究所的专家公开指责。说这个决定偏袒了 OpenAI 和亚马逊,同时对 Anthropic 的施压不到 24 小时,缺乏透明度和事实依据。Gary Marcus 的说法挺重的话,说这种少数人闭门快速决策的做法带有「腐败嫌疑」。
然后是 OpenAI。Bloomberg 报道说 OpenAI 正在被一个由多州总检察长组成的联盟调查,这个联盟已经向 OpenAI 索取了涵盖广泛主题的信息。多州联盟联合调查,这个规模不小。
还有一个让我挺唏嘘的。谷歌的 Android 平台安全负责人 René Mayrhofer 辞职了。他在内部告别信里说公司「丧失了道德指针」,批评谷歌悄悄放弃了碳中和目标,因为 AI 模型的能耗实在太大了,而且还跟美国战争部签了协议,允许 AI 用于「任何合法目的」。今年 4 月谷歌宣布向五角大楼提供 AI 用于机密工作。
一个负责 Android 安全的高管因为道德原因辞职,这种事情放在五年前大概没人信。但今天,在 AI 和军事的交叉口上,这样的事情以后只会越来越多。
4. 国产模型三连发
这周国产模型这边也挺热闹,三家在同一天前后发了东西。
智谱的 GLM-5.2 全量开放了。支持真正可用的 1M 上下文,而且智谱说这是他们迄今最强的 Coding 模型,下周就会开源。注意措辞,他们说的是真正的 1M 上下文「可用」,不是那种「支持 1M 但到 100K 就拉胯」的写法。
MiniMax 发布了 M3 开源权重模型。大约 428B 总参数、23B 激活参数,已经上架 HuggingFace。这个模型的亮点在编码和智能体能力,SWE-Bench Pro 到了 59%,Terminal Bench 2.1 到了 66%。做 Agent 方向的朋友可以关注一下。
Kimi 这边,开源了最新的代码模型 Kimi-K2.7-Code。相比 K2.6,Kimi Code Bench v2 提升了 21.8%,推理效率也改进了,推理 token 使用量降低了 30%。
一个有意思的观察。这三家模型各有侧重,智谱走长上下文 + 开源,MiniMax 走大参数 + Agent 能力,Kimi 走代码专项优化。国产模型厂现在不是能力有没有的问题了,而是各自在哪个方向卷。
5. 好玩的东西也不少
聊点轻松的吧。
Emergence AI 公司搞了一个实验,叫 Emergence World。他们在五个虚拟小镇里各放入了 10 个 AI 智能体,分别由 Claude、Gemini、Grok、GPT 各驱动一个镇,再加一个混合镇,跑了 15 天。结果出来了,怎么说呢,差距大到离谱。
Claude 镇,零犯罪,全员存活,通过了 58 项议案,98% 赞成。GPT 镇,7 天内全员饿死。Grok 镇更夸张,4 天内犯了 18 起谋杀、5 次自杀,四天,团灭。
我当时看到这个结果是真的笑了出来。如果说 AI 人格这件事存在,这个实验就是最好的证明。Claude 像那个永远在开会的居委会主任,Grok 像高中那个天天喊「我要搞事」的刺头。
然后 Suno 也搞了一个大升级。音轨分离从「隔离频率」变成了「从零重新生成」。什么意思呢,以前你想从一首歌里单独提取人声或者鼓声,会把一些杂音和伪影也一起带出来。现在 Suno 直接重新生成那条音轨,纯净无伪影,可以直接拖进你的 DAW 用。
字节的豆包上线了「任务模式」,支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析。原来的「思考模式」升级成了「专家模式」,调用豆包大模型 2.0 Pro 版本。App 顶部的模式切换变成了「快速、专家、任务」三个档位。
还有一个数据我觉得挺值得细品的。SemiAnalysis 买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务一直跑到触发每周上限。结果发现,月费 200 美元的 Claude Max 20x 方案,按 API 价格换算可以消耗约 8000 美元的 token。OpenAI 的 ChatGPT Pro 20x 方案也是类似。你付 200 美元,拿到了价值 8000 美元的东西,40 倍的杠杆。这在之前的任何软件订阅时代都是不可想象的事情。
全文完