欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站登录入口

发布日期：2025-03-05 10:10 点击次数：133

糜费了 DeepSeek V3 的 263 倍的算力的 Grok3，就这？

　　作家 | 极客公园张勇毅

　　北京时刻 2 月 18 日，马斯克与 xAI 团队，在直播中崇拜发布了 Grok 最新版块 Grok3。

　　早在本次发布会之前，依靠着种种有关信息的抛出，加上马斯克本东说念主 24/7 不绝绝的预热炒作，让众人对 Grok3 的期待值被拉到了空前的经由。在一周前，马斯克在直播中驳倒 DeepSeek R1 时，还信心满满地暗示「xAI 行将推出更优秀的 AI 模子」。

　　从现场展示的数据来看，Grok3 在数学、科学与编程的基准测试上照旧杰出了当今扫数的主流模子，马斯克致使声称 Grok 3 当年将用于 SpaceX 火星任务计较，并瞻望「三年内将罢了诺贝尔奖级别冲破」。

　　但这些当今齐只是马斯克的一家之言。笔者在发布后，就测试了最新的 Beta 版 Grok3，并提倡了阿谁经典的用来刁难大模子的问题：「9.11 与 9.9 哪个大？」

　　缺憾的是，在不加任何定语以及标注的情况下，堪称当今最忠良的 Grok3，仍然无法正确复兴这个问题。

　　Grok3 并没准确识别出这个问题的含义 | 图片来源：极客公园

　　在这个测试发出之后，很短的时刻内连忙激发了不少一又友的蔼然，无非凡偶，在国外也有好多近似问题的测试，举例「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题，Grok3 也被发现仍然无法应酬。因此被戏称为「天才不肯意复兴简便问题」。

　　Grok3 在本体测试中的许多学问问题上出现「翻车」 | 图片来源：X

　　除了网友自愿测试的这些基础知识上 Grok3 出现了翻车，在 xAI 发布会直播中，马斯克演示使用 Grok3 来分析他堪称宽泛玩的 Path of Exile 2 (充军之路 2) 对应的办事与升华后果，但本体上 Grok3 给出的对应谜底绝大部分齐是粗心的。直播中的马斯克并莫得看出这个彰着的问题。

　　Grok3 在直播中也出现给出数据多数粗心的情况 | 图片来源：X

　　因此这个荒唐不仅成为了国外网友再次嘲讽马斯克打游戏「找代练」的实锤根据，同期也为 Grok3 在本体诓骗中的可靠性，再次打上了一个大大的问号。

　　关于这么的「天才」，非论本体才略几何，当年被用于火星探索任务这么的相配复杂的诓骗场景，其可靠性齐要打上一个大大的问号。

　　当今，繁密在几周前得回 Grok3 测试经验、以及昨天刚刚用上几个小时的模子才略测试者，关于 Grok3 面前的发扬，齐指向了一个交流的论断：

　　「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」

　　「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」 | 图片来源：X

　　Grok3 在发布宦官方的 PPT 中，在大模子竞技场 Chatbot Arena 中罢了「遥遥起始」，但这其实也诓骗了一些小小的作图手段：榜单的纵轴仅列出了 1400-1300 分段的排行，让蓝本 1% 的测试适度差距，在这个 PPT 展示中齐变得特地彰着。

　　官方发布 PPT 中的「遥遥起始」后果 | 图片来源：X

　　而本体的模子跑分适度，Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 罢了了不到 1-2% 的差距：这对应了不少用户在本体测试中「并无彰着远隔」的体感后果。

　　本体上的 Grok3，只比自后者高了 1%-2% | 图片来源：X

　　此外天然在分数上，Grok3 高出了当今公开测试的扫数模子，但这少量并不被好多东说念主买账：毕竟 xAI 在 Grok2 时期就有在这个榜单中「刷分」，跟着榜单对复兴长度立场作念降权处理而大幅缩小分数的情况，因此宽泛被业内东说念主士诟病「高分粗劣」。

　　非论是榜单「刷分」，如故配图狡计上的「小手段」，齐展示出的是 xAI 以及马斯克本东说念主关于模子才略「遥遥起始」这件事的捏念。

　　而为了这些差距，马斯克所付出的代价堪称不菲：在发布会中，马斯克用近乎炫夸的口气暗示，用了 20 万张 H100（马斯克直播中暗示使用「高出 10 万」张) 实际 Grok3，总实际小时数达到两亿小时。这让一部分东说念主以为这是对 GPU 行业的又一个要紧利好，并认为 DeepSeek 给行业带来的滚动是「愚蠢」的。

　　不少东说念主认为堆砌算力将会是模子实际的当年 | 图片来源：X

　　但本体上，有网友对比了使用 2000 张 H800 实际两个月得出的 DeepSeek V3，计较出 Grok3 其本体的实际算力糜费是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距，致使还不到 100 分辛苦。

　　从这些数据出炉之后，就有不少东说念主快速意志到，在 Grok3 登顶「天下最强」的背后，其实是模子越大，性能越强的逻辑，照旧出现了彰着的旯旮效应。

　　即使是「高分粗劣」的 Grok2，其背后也有着 X（Twitter）平台内海量的高质地第一方数据手脚因循来使用。而到了 Grok3 的实际中，xAI 天然也会际遇 OpenAI 面前相似际遇的「天花板」——优质实际数据的不及，让模子才略的旯旮效应连忙曝光。

　　关于这些事实，最早意志到而且亦然最潜入交融的东说念主，详情是 Grok3 的劝诱团队与马斯克，因此马斯克也在外交媒体上不停暗示面前用户体验到的版块「还只是只是测试版」「竣工版将在当年几个月推出」。马斯克本东说念主更是化身 Grok3 居品司理，建议用户径直在驳倒区反映使用时所际遇的各式问题。

　　他八成是地球上粉丝数目最多的居品司理 | 图片来源：X

　　但不到一天之内，Grok3 的发扬，无疑给寄但愿依靠「放浪飞砖」实际出才略更强的大模子的自后者敲响了警钟：根据微软公开的信息揣度，OpenAI GPT4 参数体积为 1.8 万亿参数，比较 GPT3 照旧提高了高出 10 倍，而神话中的 GPT4.5 的参数体积致使还会更大。

　　模子参数体积飞涨的同期实际老本也在飙升 | 图片来源：X

　　有 Grok3 在前，GPT4.5 以及更多想要赓续「烧钱」，以参数体积来得回更好模子性能的选手，齐不得不筹商到照旧近在目前的天花板，应该若何冲破。

　　此时此刻，OpenAI 的前首席科学家 Ilya Sutskever 在旧年 12 月曾暗示「咱们所熟谙的预实际将会遣散」，又被东说念主再行谨记来，并试图从中找到大模子实际的简直前程。

　　Ilya 的不雅点，照旧为行业敲响了警钟 | 图片来源：X

　　彼时， Ilya 准确预猜度了可用的新数据接近穷乏，模子难以再赓续通过获取数据来提高性能的情况，并这种情况形色为化石燃料的糜费，暗示「正如石油是有限资源一样，互联网中由东说念主类生成的内容亦然有限的」。

　　在 Sutskever 瞻望中，预实际模子之后的下一代模子将会有「简直的自主性」。同期将具备「近似东说念主脑」的推理才略。

　　与如今预实际模子主要依赖的内容匹配（基于模子此前学习的内容）不同，当年的 AI 系统将能够以近似于东说念主脑「想维」的时势，来徐徐学习并缔造起贬指责题的要领论。

　　东说念主类对某一个学科作念到基本的醒目，只需要基本专科书本即可罢了，但 AI 大模子却需要学习数以百万计的数据才略罢了最基础的初学后果，致使当你换了个问法之后，这些基础的问题也无法正确交融，模子在简直的智能上并莫得得到提高：著作开始提到的那些基础但 Grok3 仍然无法正确复兴的问题，等于这种风光的直不雅体现。

　　但在「力大飞砖」以外，Grok3 若是确实能向行业揭示「预实际模子行将走到尽头」这个事实，那它对行业仍然称得上有着遑急的启发真谛。

　　有时，在 Grok3 的怒潮渐渐褪去之后，咱们也能看到，更多近似李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中，最终找到简直通向 AGI 的说念路。

海量资讯、精确解读，尽在新浪财经APP

背负剪辑：韦子蓉欧洲杯体育

欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站登录入口

栏目分类

热点资讯

相关资讯

欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站 登录入口

栏目分类

热点资讯

相关资讯

欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站登录入口