提交需求，让我们为你的业务

打造一套真正能落地的 AI 软件解决方案

滚水科技-Grok 4 登场：马斯克用 10 倍算力砸开 AI「下半场」大门 | 滚水科技

banner

Grok 4 登场：马斯克用 10 倍算力砸开 AI「下半场」大门

2025-07-16 15:47:09

Grok 4 登场：马斯克用 10 倍算力砸开 AI「下半场」大门

“如果 AI 终将毁灭人类，我至少想亲眼看到那一天。”
——埃隆·马斯克在 7 月 10 日 Grok 4 发布会结尾

1. 成绩单：把“天花板”直接掀掉

评测	Grok 4 得分	此前最佳	备注
HLE（人类最后考试）	45 %	21 %	马斯克：人类博士 5 % 就不错了
ARC AGI v2	15.8 %	7 %	三个月内唯一破 10 %
GBQA（博士级问答）	近乎满分	—	全科屠榜
USAMO / HMMT / AMC 25	霸榜	—	数学竞赛全线第一
Live Coding Benchmark	领先	—	代码实战
Vending Benchmark	净利润 4700 $	2× 前任	7×24 小时“数字员工”
医疗影像	胸片诊断最佳	—	ARC 研究所已在 CRISPR 流程中落地
游戏制作	4 小时 FPS Demo	—	逻辑 + 素材全自动

2. 现场 6 连 Live：没有彩排，全是心跳

环节	难度	Grok 4 表现
范畴论证明	博士级	逐步推理，步骤可视化
电环化反应	化学 PhD	轨道对称性分析到位
希伯来语音韵学	语言 PhD	区分音节 + 历史演变讲解
“最怪员工头像”	主观审美	实时爬 X、识人、审美判断
MLB 世界大赛预测	概率建模	4.5 min 全网爬取 → 道奇 21.6 %
黑洞合并可视化	物理模拟	引力波动画 + 教材引用

新增语音人格 Eve
英伦腔 + 情感安慰 + 即兴可乐歌剧
现场对比 ChatGPT 语音：延迟 < 300 ms vs 1 s+

3. 训练内幕：20 万张 GPU 的“暴力美学”

• 底座：Grok 3 预训练权重
• 核心差异：

• 10× 强化学习（其他公司 10 %-20 % 算力 → xAI 100 %）
• Colossus 超算：20 万 H100，全球最大 AI 训练集群

• 工具原生训练：搜索、计算器、代码解释器直接写入训练数据

• HLE 得分提升 50 %

• 下一步：Tesla 级有限元、CFD 工具接入

4. Grok 4 Heavy：基础模型的“多智能体”首秀

• 机制：多个 AI 实例并行思考 → 思想碰撞 → 共识输出
• 效果：

• 单模型 HLE 40 % → 多智能体 50 %

• 意义：把“多 Agent”从外挂变成基础模型原生能力

5. 价格：贵，但贵得有底气

套餐	功能	价格
SuperGrok	Grok 4 全功能	$30 / 月
SuperGrok Heavy	Grok 4 + 多智能体 + 研究主管模式	$300 / 月
API	256 k 上下文，已开放申请	—

6. 路线图：把油门踩到底

时间	交付物	备注
8 月	代码特化模型	正面硬刚 Claude
9 月	多模态智能体	狙击 Gemini / Veo 3
10 月	视频生成模型	10 万 GB200 已待命

内部梗：xAI 办公室帐篷销量 ↑↑↑

7. AI 进入“下半场”，马斯克按下快进键

• 18 个月 4 代：Grok 1 → 4，行业 3 倍速迭代
• 卡尔达肖夫时间表：1-2 % → 80-90 % → 二级文明
• 安全？ “朝闻道，夕死可矣。”

结语

当别家还在 PPT 里预热“下一代”时，Grok 4 已把基准、实战、多模态、多智能体一次性打包上桌。
AI 战争正式进入 “跨代碾压” 模式——上一代模型，直接判负。