一场53分钟的发布会,一次AI能力的量子跃迁,马斯克再次将人类推向智能新边疆。北京时间7月10日中午,硅谷钢铁侠埃隆·马斯克站在xAI发布会的聚光灯下,向全世界宣告:”这是世界上最好的AI。” 在他的身后,是酝酿已久的下一代大模型——Grok 4,一个号称推理能力比前代提升10倍、所有学科达到博士后水平的人工智能系统。 这场技术盛宴不仅兑现了一周前”Grok 4跑分泄露”的惊人预告,更展示了AI领域的最新巅峰之作。当马斯克自信地表示”Grok今年内将实现科学新发现“时,全场屏息——我们正站在通用人工智能(AGI)的门槛上吗?
01 超级发布,Grok 4震撼登场
xAI的下一代大模型Grok 4终于在万众期待中正式亮相。这次发布直接跳过了原先计划的Grok 3.5版本,野心勃勃地一步到位推出Grok 4,展现了马斯克在AI赛道上的激进策略。 在长达53分钟的直播活动中,马斯克亲自演示了Grok 4的多模态功能、超快推理能力等革命性特性。令人印象深刻的是,该模型在xAI专门打造的Colossus超级计算机上完成训练——这台被誉为全球最大的AI超算为Grok 4提供了强大的算力基础。 “我们已经没有什么测试题目可以问了,”马斯克在发布会上自豪地宣称,”现实才是最终的推理测试。” 这句话暗示了Grok 4已经突破了传统测试的局限,开始向解决现实世界复杂问题迈进。 发布会选择的时间点耐人寻味——恰在X公司CEO琳达·亚卡里诺宣布辞职几小时后。这一巧合让科技圈纷纷猜测,马斯克正将全部精力聚焦于AI战场。02 技术亮点,重新定义AI能力边界
Grok 4的核心突破在于其革命性的推理能力升级。据xAI官方披露,Grok 4的推理能力相较于前代实现了10倍的巨大提升,这一飞跃源于其全新的技术架构。 从技术演进路径看:- Grok 2采用下一个token预测
- Grok 3实现预训练计算+强化学习微调
- Grok 4则进入强化学习计算主导范式
- Grok 4(单代理版本)
- Grok 4 Heavy(多代理版本,支持四个代理协同工作)
03 性能爆表,基准测试全榜称王
Grok 4的实际性能表现印证了马斯克的豪言壮语。在被称为”人类最后考试“的HLE(Humanity’s Last Exam)基准测试中,Grok 4创造了历史最佳成绩:- 基础版Grok 4:38.6%
- 多代理版Grok 4 Heavy:44.4%
- 优化状态下最高可达50.7%
- 横跨100多个学科的2,500道专家级试题
- 14%多模态题型(文本+图像)
- 24%为多项选择题
- 设有防记忆陷阱和隐藏测试集
- GPQA(研究生级科学问题):87-88%
- AIME25(美国数学邀请赛):100%
- HMMT25(高中生团队数学竞赛):96.7%
- USAMO25(美国顶级数学竞赛):领先地位
04 多模态与语音,更接近人类的交互体验
Grok 4不仅智商超群,更在多模态和语音交互方面实现重大突破。据发布会披露,Grok 4将支持图像甚至视频处理,这与OpenAI的GPT-5o和Google的Gemini 2.5 Pro形成直接竞争。 语音交互能力获得显著增强:- 响应速度比上代快2倍
- 端到端延迟大幅降低
- 支持5种自然语音
- 新增角色Eve(可唱歌和低语)和Sal(支持多种性格)
05 版本与定价,高端路线的战略选择
xAI为Grok 4设计了分层产品体系,满足不同用户需求:- Grok 4:旗舰单代理模型
- Grok 4 Heavy:多代理版本(4代理协同)
- Grok 4 Code:专业编程模型(8月推出)
- SuperGrok(30美元/月):Grok 4使用权+128K Token上下文
- SuperGrok Heavy(300美元/月):独享Grok 4 Heavy+优先体验新功能+专属技术支持
- SuperGrok:300美元/年
- SuperGrok Heavy:3000美元/年(约合人民币21,540元)
06 行业影响,大模型格局重塑
Grok 4的发布直接挑战现有AI巨头格局。根据大模型评估平台Artificial Analysis的综合评分:- Grok 4:73分
- o3(OpenAI):低于73分
- Gemini 2.5 Pro:低于73分
- Claude 4 Opus:低于73分
- DeepSeek R1 0528:低于73分
07 未来路线图,月更节奏的野心计划
xAI公布了雄心勃勃的产品路线图,几乎达到月更节奏:- 2025年8月:推出Grok 4 Code编程专用模型
- 2025年9月:上线多模态智能代理
- 2025年10月:发布视频生成模型
随着Grok 4 Heavy以44.4%的得分在”人类最后考试”中登顶,一个全新的AI时代已拉开帷幕。 马斯克声称的博士后级全能学者模型不再是科幻想象,而成为可订阅服务。 技术革命的浪潮正以前所未有的速度推进。当Grok 4在ARC-AGI测试中以15.9%的准确率将竞争对手远远甩开,当多代理架构在商业模拟中创造双倍效益,当视频模型路线图清晰展开——我们不禁要问: 人类智慧的最后堡垒,究竟还能坚守多久? Grok 4的答案是:现实世界已是终极测试场。而这场测试,才刚刚开始。
没有回复内容