打造一套真正能落地的 AI 软件解决方案

“如果 AI 终将毁灭人类,我至少想亲眼看到那一天。”
——埃隆·马斯克在 7 月 10 日 Grok 4 发布会结尾
| 评测 | Grok 4 得分 | 此前最佳 | 备注 |
| HLE(人类最后考试) | 45 % | 21 % | 马斯克:人类博士 5 % 就不错了 |
| ARC AGI v2 | 15.8 % | 7 % | 三个月内唯一破 10 % |
| GBQA(博士级问答) | 近乎满分 | — | 全科屠榜 |
| USAMO / HMMT / AMC 25 | 霸榜 | — | 数学竞赛全线第一 |
| Live Coding Benchmark | 领先 | — | 代码实战 |
| Vending Benchmark | 净利润 4700 $ | 2× 前任 | 7×24 小时“数字员工” |
| 医疗影像 | 胸片诊断最佳 | — | ARC 研究所已在 CRISPR 流程中落地 |
| 游戏制作 | 4 小时 FPS Demo | — | 逻辑 + 素材全自动 |
| 环节 | 难度 | Grok 4 表现 |
| 范畴论证明 | 博士级 | 逐步推理,步骤可视化 |
| 电环化反应 | 化学 PhD | 轨道对称性分析到位 |
| 希伯来语音韵学 | 语言 PhD | 区分音节 + 历史演变讲解 |
| “最怪员工头像” | 主观审美 | 实时爬 X、识人、审美判断 |
| MLB 世界大赛预测 | 概率建模 | 4.5 min 全网爬取 → 道奇 21.6 % |
| 黑洞合并可视化 | 物理模拟 | 引力波动画 + 教材引用 |
新增语音人格 Eve
英伦腔 + 情感安慰 + 即兴可乐歌剧
现场对比 ChatGPT 语音:延迟 < 300 ms vs 1 s+
| 套餐 | 功能 | 价格 |
| SuperGrok | Grok 4 全功能 | $30 / 月 |
| SuperGrok Heavy | Grok 4 + 多智能体 + 研究主管模式 | $300 / 月 |
| API | 256 k 上下文,已开放申请 | — |
| 时间 | 交付物 | 备注 |
| 8 月 | 代码特化模型 | 正面硬刚 Claude |
| 9 月 | 多模态智能体 | 狙击 Gemini / Veo 3 |
| 10 月 | 视频生成模型 | 10 万 GB200 已待命 |
内部梗:xAI 办公室帐篷销量 ↑↑↑
当别家还在 PPT 里预热“下一代”时,Grok 4 已把基准、实战、多模态、多智能体一次性打包上桌。
AI 战争正式进入 “跨代碾压” 模式——上一代模型,直接判负。