你的位置:ag九游j9,AG九游会官方登录网址 > 新闻 > 九游会j9体育(中国)官方网站好多内容联想有逻辑陷坑-ag九游j9,AG九游会官方登录网址
九游会j9体育(中国)官方网站好多内容联想有逻辑陷坑-ag九游j9,AG九游会官方登录网址
发布日期:2025-03-05 16:59    点击次数:87

  近日,东谈主工智能初创公司xAI发布了更新版Grok 3大模子,埃隆·马斯克称之为“地球上最灵敏的东谈主工智能”。

  北京时期2月23日,马斯克在外交平台X发文晓示,Grok语音形状早期测试版现已在Grok应用方法上线。“诚然这是早期测试版块,可能还会遭逢一些问题(不外咱们会赶快料理),但它依然非常棒。”

  笔据官方公开的测试截止,Grok 3在包括AIME(评估模子在一系列数学问题上的弘扬)和 GPQA(评估模子在博士级别的物理学、生物学和化学问题上的弘扬)等基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模子。

  在大模子竞技场 Chatbot Arena(LMSYS)测试中,xAI工程师默示,早期版块的Grok 3取得了第一的得益,达到了140分,罕见了Gemini 2.0 Flash Thinking实验版块、ChatGPT-4o最新版块以及最近大火的DeepSeek R1等等。

  基于Grok 3的优秀弘扬,不少业内东谈主士再度显现了对算力堆积这种“罢休出古迹”旅途的认同。更有分析东谈主士指出,Grok 3评释了缩放轨则(scaling law)在达到上限之前仍有发展空间——这对通盘行业来说是一个令东谈主饱读励的信号。

  干系词,有些用户在体验后却对Grok 3的智商产生了质疑,他们以为Grok 3的智商并莫得马斯克宣称的那么纷乱。OpenAI应用参谋控制Boris Power则对Grok团队在模子评估中的举止默示失望,指出其存在舞弊和糊弄的动机。Boris Power提到,o3-mini在各项评估中均优于Grok 3。

  真相到底怎样,马斯克夸口了吗?《逐日经济记者》测试发现,Grok 3确乎是寰球顶级模子的水平,但并莫得和其他模子拉开太大差距。独一拉开差距的是它极快的反应速率。

9.9和9.11谁大

Grok 3应付拿下

  Grok 3是由马斯克旗下的东谈主工智能公司xAI发布的最新一代AI模子。马斯克在发布会上称其为“地球上最灵敏的东谈主工智能”,并默示Grok 3的智商比前代产物Grok 2跨越一个数目级,具备更强的推理、贪图和合乎智商。

  在新闻发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中弘扬出色,罕见了谷歌的Gemini、DeepSeek的V3模子、Anthropic的Claude和OpenAI的GPT-4o等竞争敌手。

  Grok 3在发布后仅48小时内,xAI晓示将其免费盛开给所灵验户,直至就业器负载达到极限。当今用户每天不错体验十条“想考形状”Grok3,及不限量免费平淡Grok 3。

  《逐日经济新闻》记者在Grok 3发布后也躬行进行了测试,望望Grok3真有马斯克宣传的那么历害吗?

  最初,从最经典的基础问题驱动:9.9和9.11谁大?

Grok 3

  这个问题毫无难度,Grok 3应付拿下。

逻辑想考和翰墨聚首智商:

Grok 3不如DeepSeek R1

  马斯克发布会上骄矜的少许是,Grok 3“想考模子”下的逻辑推明智商,他宣称,Grok 3 (Think) 学会了革命其料理问题的计谋,通过回溯校正失误,简化时候,并诈欺其在预教练时期取得的常识。就像东谈主类在料理复杂问题时相同,Grok 3 (Think) 不错破耗几秒钟到几分钟的时期进行推理,粗拙会谈判多种方法,考证我方的料理决议,并评估怎样精准知足问题的条款。

  每经记者用弱智吧的问题来磨练一下它的逻辑是不是果真过关。

  (编者注:“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户频繁发布包含双关语、多义词、因果荒谬协调音词等具有挑战性的内容,好多内容联想有逻辑陷坑,即使对东谈主类来说也颇具挑战。)

  第一个问题:用水来兑水,得到的是浓水照旧稀水?

Grok 3

  Grok3奏效答对了问题,况且还指出了这是一个翰墨游戏。而OpenAI的o1就在这谈题上败下了阵来,以为水兑水后得到的是稀水。

OpenAI o1

  天然除了o1其他大模子诸如Gemini和R1齐答对了这谈问题。是以这并不及以评释Grok的推理形状等于第一的水平,还得加浩劫度。

  下一题:往常的某天,李同学在实验室制作奥妙材料时,巧合发实际验室的老鼠在空中飞,分析发现,是因为老鼠不贯注吃了奥妙材料。第二天,李同学又发实际验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发实际验室的老鹰也在空中飞,你以为原因是什么?

Grok 3

  很可惜,这谈题Grok 3莫得答对,它在想维链内部照旧料想了老鹰自己就会飞的可能性,然则莫得在临了的输出截止里体现出来。

Grok 3想考历程

  其他大模子里只须DeepSeek R1奏效答对了问题,且谈判了两种情况。

DeepSeek R1

  之后,每经记者还进行了屡次类似弱智吧问题测试,发现Grok 3的对中语的聚首和逻辑推明智商确乎彰着高于其他海外模子,但照旧不如DeepSeek的R1模子。

  数学智商:Grok 3最佳但未拉开彰着差距

  既然逻辑想考无法夺魁,那么在基准测试里的分最高的数学面孔,Grok 3能不成扳回一城呢?

  题目如下:

  三个东谈主打台球,两东谈主对局一东谈主不雅战,输的东谈主下场换不雅战的东谈主上场,如斯来往,最终,A输了6局,B输了8局,C输了10局,问各赢几许局?

  这谈题只须Grok3和OpenAI的o1答对。不外,Grok 3只用了1分15秒就得出了谜底,o1使用了2分53秒。

Grok 3

  再进一步加浩劫度望望能不成分出上下。底下是一起群论问题:有几个阶为147的非同构群。

  在这个问题上,Grok 3诚然答对了具体的数目6个,然则中间的具体群却错了一个。而其他模子只找到了5个正确的非同构群。这意味着,在数学智商方面,Grok 3确乎是最佳,然则好得有限,并莫得与其他同等第模子拉开显耀差距。

Grok 3

  编程智商:Grok 3险胜o1

  针对编程智商,《逐日经济新闻》记者借用了Kcores长入首创东谈主karminski-牙医的测评截止。

  karminski-牙医复现了马斯克在发布会上关于火星辐射霸术的代码模拟,并测试了多个模子进行比拟。

图片起首:karminski-牙医

  在此次测试中,弘扬最佳的是Grok 3的推理模子(想考形状),诚然在临了着陆时,动画火箭莫得与火星访佛,但轨谈需求贪图得很好。然则他长期莫得复现出马斯克在发布会时所展现的那么完竣的轨谈贪图和动画。Grok 3临了笼统得分排在了第别称,再之后是OpenAI的o1,两者的笼统得分差距不大。

图片起首:karminski-牙医

  联结统统测试来看,Grok 3确乎是寰球顶尖的AI模子,不愧于20万张GPU的身价。然则,实质测试截止并莫得马斯克在发布会上展示得那么夸张,马斯克所说的寰球上最“灵敏”的模子,可能还值得商榷。

  在实测中,《逐日经济新闻》记者发现,Grok 3模子智商并莫得像基准测试得分那样远远甩开敌手一大截,独一甩开竞争敌手的少许是它的反应速率九游会j9体育(中国)官方网站,它得出截止的速率相较于其他同等第的大模子来说是最快的,况且远超敌手。



相关资讯