欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站 登录入口

发布日期:2025-03-05 10:10    点击次数:112

欧洲杯体育很短的时刻内连忙激发了不少一又友的蔼然-开云(中国)Kaiyun·官方网站 登录入口

糜费了 DeepSeek V3 的 263 倍的算力的 Grok3,就这?糜费了 DeepSeek V3 的 263 倍的算力的 Grok3,就这?

  作家 | 极客公园 张勇毅

  北京时刻 2 月 18 日,马斯克与 xAI 团队,在直播中崇拜发布了 Grok 最新版块 Grok3。

  早在本次发布会之前,依靠着种种有关信息的抛出,加上马斯克本东说念主 24/7 不绝绝的预热炒作,让众人对 Grok3 的期待值被拉到了空前的经由。在一周前,马斯克在直播中驳倒 DeepSeek R1 时,还信心满满地暗示「xAI 行将推出更优秀的 AI 模子」。

  从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上照旧杰出了当今扫数的主流模子,马斯克致使声称 Grok 3 当年将用于 SpaceX 火星任务计较,并瞻望「三年内将罢了诺贝尔奖级别冲破」。

  但这些当今齐只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提倡了阿谁经典的用来刁难大模子的问题:「9.11 与 9.9 哪个大?」

  缺憾的是,在不加任何定语以及标注的情况下,堪称当今最忠良的 Grok3,仍然无法正确复兴这个问题。

  Grok3 并没准确识别出这个问题的含义 | 图片来源:极客公园

  在这个测试发出之后,很短的时刻内连忙激发了不少一又友的蔼然,无非凡偶,在国外也有好多近似问题的测试,举例「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应酬。因此被戏称为「天才不肯意复兴简便问题」。

  Grok3 在本体测试中的许多学问问题上出现「翻车」 | 图片来源:X

  除了网友自愿测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他堪称宽泛玩的 Path of Exile 2 (充军之路 2) 对应的办事与升华后果,但本体上 Grok3 给出的对应谜底绝大部分齐是粗心的。直播中的马斯克并莫得看出这个彰着的问题。

  Grok3 在直播中也出现给出数据多数粗心的情况 | 图片来源:X

  因此这个荒唐不仅成为了国外网友再次嘲讽马斯克打游戏「找代练」的实锤根据,同期也为 Grok3 在本体诓骗中的可靠性,再次打上了一个大大的问号。

  关于这么的「天才」,非论本体才略几何,当年被用于火星探索任务这么的相配复杂的诓骗场景,其可靠性齐要打上一个大大的问号。

  当今,繁密在几周前得回 Grok3 测试经验、以及昨天刚刚用上几个小时的模子才略测试者,关于 Grok3 面前的发扬,齐指向了一个交流的论断:

  「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」

  「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」 | 图片来源:X

  Grok3 在发布宦官方的 PPT 中,在大模子竞技场 Chatbot Arena 中罢了「遥遥起始」,但这其实也诓骗了一些小小的作图手段:榜单的纵轴仅列出了 1400-1300 分段的排行,让蓝本 1% 的测试适度差距,在这个 PPT 展示中齐变得特地彰着。

  官方发布 PPT 中的「遥遥起始」后果 | 图片来源:X

  而本体的模子跑分适度,Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 罢了了不到 1-2% 的差距:这对应了不少用户在本体测试中「并无彰着远隔」的体感后果。

  本体上的 Grok3,只比自后者高了 1%-2% | 图片来源:X

  此外天然在分数上,Grok3 高出了当今公开测试的扫数模子,但这少量并不被好多东说念主买账:毕竟 xAI 在 Grok2 时期就有在这个榜单中「刷分」,跟着榜单对复兴长度立场作念降权处理而大幅缩小分数的情况,因此宽泛被业内东说念主士诟病「高分粗劣」。

  非论是榜单「刷分」,如故配图狡计上的「小手段」,齐展示出的是 xAI 以及马斯克本东说念主关于模子才略「遥遥起始」这件事的捏念。

  而为了这些差距,马斯克所付出的代价堪称不菲:在发布会中,马斯克用近乎炫夸的口气暗示,用了 20 万张 H100(马斯克直播中暗示使用「高出 10 万」张) 实际 Grok3,总实际小时数达到两亿小时。这让一部分东说念主以为这是对 GPU 行业的又一个要紧利好,并认为 DeepSeek 给行业带来的滚动是「愚蠢」的。

  不少东说念主认为堆砌算力将会是模子实际的当年 | 图片来源:X

  但本体上,有网友对比了使用 2000 张 H800 实际两个月得出的 DeepSeek V3,计较出 Grok3 其本体的实际算力糜费是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距,致使还不到 100 分辛苦。

  从这些数据出炉之后,就有不少东说念主快速意志到,在 Grok3 登顶「天下最强」的背后,其实是模子越大,性能越强的逻辑,照旧出现了彰着的旯旮效应。

  即使是「高分粗劣」的 Grok2,其背后也有着 X(Twitter)平台内海量的高质地第一方数据手脚因循来使用。而到了 Grok3 的实际中,xAI 天然也会际遇 OpenAI 面前相似际遇的「天花板」——优质实际数据的不及,让模子才略的旯旮效应连忙曝光。

  关于这些事实,最早意志到而且亦然最潜入交融的东说念主,详情是 Grok3 的劝诱团队与马斯克,因此马斯克也在外交媒体上不停暗示面前用户体验到的版块「还只是只是测试版」「竣工版将在当年几个月推出」。马斯克本东说念主更是化身 Grok3 居品司理,建议用户径直在驳倒区反映使用时所际遇的各式问题。

  他八成是地球上粉丝数目最多的居品司理 | 图片来源:X

  但不到一天之内,Grok3 的发扬,无疑给寄但愿依靠「放浪飞砖」实际出才略更强的大模子的自后者敲响了警钟:根据微软公开的信息揣度,OpenAI GPT4 参数体积为 1.8 万亿参数,比较 GPT3 照旧提高了高出 10 倍,而神话中的 GPT4.5 的参数体积致使还会更大。

  模子参数体积飞涨的同期实际老本也在飙升 | 图片来源:X

  有 Grok3 在前,GPT4.5 以及更多想要赓续「烧钱」,以参数体积来得回更好模子性能的选手,齐不得不筹商到照旧近在目前的天花板,应该若何冲破。

  此时此刻,OpenAI 的前首席科学家 Ilya Sutskever 在旧年 12 月曾暗示「咱们所熟谙的预实际将会遣散」,又被东说念主再行谨记来,并试图从中找到大模子实际的简直前程。

  Ilya 的不雅点,照旧为行业敲响了警钟 | 图片来源:X

  彼时, Ilya 准确预猜度了可用的新数据接近穷乏,模子难以再赓续通过获取数据来提高性能的情况,并这种情况形色为化石燃料的糜费,暗示「正如石油是有限资源一样,互联网中由东说念主类生成的内容亦然有限的」。

  在 Sutskever 瞻望中,预实际模子之后的下一代模子将会有「简直的自主性」。同期将具备「近似东说念主脑」的推理才略。

  与如今预实际模子主要依赖的内容匹配(基于模子此前学习的内容)不同,当年的 AI 系统将能够以近似于东说念主脑「想维」的时势,来徐徐学习并缔造起贬指责题的要领论。

  东说念主类对某一个学科作念到基本的醒目,只需要基本专科书本即可罢了,但 AI 大模子却需要学习数以百万计的数据才略罢了最基础的初学后果,致使当你换了个问法之后,这些基础的问题也无法正确交融,模子在简直的智能上并莫得得到提高:著作开始提到的那些基础但 Grok3 仍然无法正确复兴的问题,等于这种风光的直不雅体现。

  但在「力大飞砖」以外,Grok3 若是确实能向行业揭示「预实际模子行将走到尽头」这个事实,那它对行业仍然称得上有着遑急的启发真谛。

  有时,在 Grok3 的怒潮渐渐褪去之后,咱们也能看到,更多近似李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中,最终找到简直通向 AGI 的说念路。

海量资讯、精确解读,尽在新浪财经APP

背负剪辑:韦子蓉 欧洲杯体育



栏目分类



Powered by 开云(中国)Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图