马斯克发布Grok 4:全球最强AI模型正式登场,开启AGI新纪元 - 技术宅银魂 - 科技改变生活 - 万事屋 | 生活·动漫·娱乐综合社区-银魂同好聚集地

马斯克发布Grok 4:全球最强AI模型正式登场,开启AGI新纪元

一场53分钟的发布会,一次AI能力的量子跃迁,马斯克再次将人类推向智能新边疆。
北京时间7月10日中午,硅谷钢铁侠埃隆·马斯克站在xAI发布会的聚光灯下,向全世界宣告:”这是世界上最好的AI。” 在他的身后,是酝酿已久的下一代大模型——Grok 4,一个号称推理能力比前代提升10倍所有学科达到博士后水平的人工智能系统。 这场技术盛宴不仅兑现了一周前”Grok 4跑分泄露”的惊人预告,更展示了AI领域的最新巅峰之作。当马斯克自信地表示”Grok今年内将实现科学新发现“时,全场屏息——我们正站在通用人工智能(AGI)的门槛上吗?

01 超级发布,Grok 4震撼登场

xAI的下一代大模型Grok 4终于在万众期待中正式亮相。这次发布直接跳过了原先计划的Grok 3.5版本,野心勃勃地一步到位推出Grok 4,展现了马斯克在AI赛道上的激进策略。 在长达53分钟的直播活动中,马斯克亲自演示了Grok 4的多模态功能、超快推理能力等革命性特性。令人印象深刻的是,该模型在xAI专门打造的Colossus超级计算机上完成训练——这台被誉为全球最大的AI超算为Grok 4提供了强大的算力基础。 “我们已经没有什么测试题目可以问了,”马斯克在发布会上自豪地宣称,”现实才是最终的推理测试。” 这句话暗示了Grok 4已经突破了传统测试的局限,开始向解决现实世界复杂问题迈进。 发布会选择的时间点耐人寻味——恰在X公司CEO琳达·亚卡里诺宣布辞职几小时后。这一巧合让科技圈纷纷猜测,马斯克正将全部精力聚焦于AI战场。

02 技术亮点,重新定义AI能力边界

Grok 4的核心突破在于其革命性的推理能力升级。据xAI官方披露,Grok 4的推理能力相较于前代实现了10倍的巨大提升,这一飞跃源于其全新的技术架构。 从技术演进路径看:
  • Grok 2采用下一个token预测
  • Grok 3实现预训练计算+强化学习微调
  • Grok 4则进入强化学习计算主导范式
特别值得注意的是,从Grok 2到Grok 3,预训练阶段的计算量提升了10倍;而Grok 4在强化学习阶段再度投入10倍于现有任何模型的计算资源。这种不计成本的投入直接转化为模型深度推理能力的质变。 第一性原理推理成为Grok 4的思维核心。马斯克早前在微软Build 2025大会上就透露:”我们目标是让模型像物理学家那样思考,把问题分解到最基本公理层面,然后向上推理并验证结论。” 这种方法论使Grok 4在处理复杂科学问题时展现出类人的逻辑链条。 在架构创新上,Grok 4系列包含两个版本:
  • Grok 4(单代理版本)
  • Grok 4 Heavy(多代理版本,支持四个代理协同工作)
这种多智能体架构让复杂任务处理能力实现几何级增长,为后续的AI Agent应用奠定基础。

03 性能爆表,基准测试全榜称王

Grok 4的实际性能表现印证了马斯克的豪言壮语。在被称为”人类最后考试“的HLE(Humanity’s Last Exam)基准测试中,Grok 4创造了历史最佳成绩:
  • 基础版Grok 4:38.6%
  • 多代理版Grok 4 Heavy:44.4%
  • 优化状态下最高可达50.7%
这一成绩大幅超越了此前泄露的35%-45%的预期,更将竞争对手Gemini 2.5 Pro(21.6%)和OpenAI o3(21%)远远抛在身后。 HLE测试之所以被誉为”人类最后防线”,在于其极端严苛的设计:
  • 横跨100多个学科的2,500道专家级试题
  • 14%多模态题型(文本+图像)
  • 24%为多项选择题
  • 设有防记忆陷阱和隐藏测试集
在其他关键学术基准测试中,Grok 4 Heavy更是实现了全面称霸:
  • GPQA(研究生级科学问题):87-88%
  • AIME25(美国数学邀请赛):100%
  • HMMT25(高中生团队数学竞赛):96.7%
  • USAMO25(美国顶级数学竞赛):领先地位
马斯克在发布会现场强调:”Grok现在在所有学科都达到了博士后水平,没有例外。它虽尚未发现新物理定律,但这只是时间问题。” 在衡量AGI核心能力的ARC-AGI v2测试中,Grok 4以15.9%的准确率创下新纪录,几乎是第二名Claude 4(8.6%)的两倍。 这项测试专门评估AI系统解决全新问题的能力,被视为通向AGI的关键试金石。

04 多模态与语音,更接近人类的交互体验

Grok 4不仅智商超群,更在多模态和语音交互方面实现重大突破。据发布会披露,Grok 4将支持图像甚至视频处理,这与OpenAI的GPT-5o和Google的Gemini 2.5 Pro形成直接竞争。 语音交互能力获得显著增强:
  • 响应速度比上代快2倍
  • 端到端延迟大幅降低
  • 支持5种自然语音
  • 新增角色Eve(可唱歌和低语)和Sal(支持多种性格)
这些改进使Grok 4的日用户停留时长提升了惊人的10倍,显示其在用户体验上的巨大成功。 实时网络访问功能延续了Grok系列的特色。借助DeepSearch技术,Grok 4能直接从X平台抓取最新数据,让用户无需切换浏览器即可获取实时信息。 更引人注目的是其文化理解能力。xAI特别强调,Grok 4被调校为能够高精度解读网络”梗”、俚语和幽默,有望成为迄今为止最”懂网上冲浪”的AI助手。 这一特性在与年轻用户群体的互动中将形成独特优势。 现场演示环节展示了Grok 4的多模态生成能力——它基于物理原理创建了”两个黑洞碰撞产生引力波”的30秒HTML动画可视化,同步生成推理过程和参考论文链接,令人叹为观止。

05 版本与定价,高端路线的战略选择

xAI为Grok 4设计了分层产品体系,满足不同用户需求:
  • Grok 4:旗舰单代理模型
  • Grok 4 Heavy:多代理版本(4代理协同)
  • Grok 4 Code:专业编程模型(8月推出)
在定价策略上,xAI选择了高端定位
  • SuperGrok(30美元/月):Grok 4使用权+128K Token上下文
  • SuperGrok Heavy300美元/月):独享Grok 4 Heavy+优先体验新功能+专属技术支持
按年付费方案同样震撼:
  • SuperGrok:300美元/年
  • SuperGrok Heavy:3000美元/年(约合人民币21,540元)
相比竞争对手,这一价格体系明显偏高。OpenAI的ChatGPT Plus仅需20美元/月,而Anthropic的Claude高级订阅也低于30美元/月。xAI显然瞄准了高端专业用户和企业市场

06 行业影响,大模型格局重塑

Grok 4的发布直接挑战现有AI巨头格局。根据大模型评估平台Artificial Analysis的综合评分:
  • Grok 4:73分
  • o3(OpenAI):低于73分
  • Gemini 2.5 Pro:低于73分
  • Claude 4 Opus:低于73分
  • DeepSeek R1 0528:低于73分
这一评分确认了Grok 4的全面领先地位,标志着大模型竞赛进入新阶段。 在编码领域,Grok 4 Code将与GitHub Copilot(基于OpenAI技术)和Google的Gemini CLI展开正面竞争。Gemini CLI可处理百万token上下文,而Anthropic的Claude Code则提供终端环境一站式开发体验。 这一战场胜负尚未分明。 Grok 4展示的多代理协作能力(Grok 4 Heavy)可能引领下一代AI架构潮流。在Vending-Bench商业模拟测试中,Grok 4平均净资产达$4684.15,是第二名Claude 4的两倍,证明了其在复杂长任务处理上的优势。 然而,质疑声依然存在。有网友指出发布会”质感很差”,PPT像是”工程师自己做的”;更有人担忧xAI平台近期的争议可能拖累Grok 4的技术成就。 这些因素可能影响市场接受度。

07 未来路线图,月更节奏的野心计划

xAI公布了雄心勃勃的产品路线图,几乎达到月更节奏
  • 2025年8月:推出Grok 4 Code编程专用模型
  • 2025年9月:上线多模态智能代理
  • 2025年10月:发布视频生成模型
这一计划展示了xAI在生成式AI全领域布局的战略意图。尤其是视频模型的加入,将直接挑战OpenAI的Sora和Google的Veo等现有视频生成模型。 技术进化的速度令人瞠目。从Grok 3到Grok 4仅用了不到一年时间,性能却实现量子跃迁。当被问及AGI时间表时,马斯克回应:”我们正处于智能发展的大爆炸过程中,这是人类历史上前所未见的。” 开发者社区已开始探索Grok 4的应用边界。有开发者在短短4小时内用Grok 4制作出可运行的FPS射击游戏,并获得了模型对游戏设计的改进建议。 这种高效创作能力展示了生成式AI改变软件开发流程的潜力。 API开放方面,Grok 4已提供256K tokens上下文窗口支持,版本号为grok-4-0709。性能测试显示其API速度达每秒75个token,优于Claude 4 Opus(66 token/s),但不及OpenAI o3(188 token/s)。
随着Grok 4 Heavy以44.4%的得分在”人类最后考试”中登顶,一个全新的AI时代已拉开帷幕。 马斯克声称的博士后级全能学者模型不再是科幻想象,而成为可订阅服务。 技术革命的浪潮正以前所未有的速度推进。当Grok 4在ARC-AGI测试中以15.9%的准确率将竞争对手远远甩开,当多代理架构在商业模拟中创造双倍效益,当视频模型路线图清晰展开——我们不禁要问: 人类智慧的最后堡垒,究竟还能坚守多久? Grok 4的答案是:现实世界已是终极测试场。而这场测试,才刚刚开始。
请登录后发表评论

    没有回复内容

万事屋新帖