加拿大pc28官网规则记者实测 | DeepSeek-R1对决四款主流推理模子：基础题不测“翻车”，高难度推理碾压ChatGPT o1

发布日期：2024-08-31 04:04 点击次数：126

1月20日发布的DeepSeek-R1模子闪开发公司DeepSeek在全球的热度捏续攀升。1月27日加拿大pc28官网规则，DeepSeek接连登顶中国和好意思国地区诈欺商城的免费诈欺名次榜，以致超越了大众熟知的ChatGPT。

诸多测评扫尾炫耀，DeepSeek旗下模子R1在多个基准测试下皆能匹敌以致超越OpenAI、和Meta的大模子，而且本钱更低。在聊天机器东说念主竞技场笼统榜单上，DeepSeek-R1一经升至全类别大模子第三，其中，在立场罢休类模子（StyleCtrl）分类中与顶尖推理模子OpenAI o1比肩第一。其竞技场得分达到1357分，略超OpenAI o1的1352分。

据外媒报说念，Meta挑升成立了四个挑升询查小组来询查DeepSeek的责任旨趣，并基于此来鼎新旗下大模子Llama。

其中两个小组正在试图了解DeepSeek如何裁减老师和运行本钱；第三个询查小组则在询查DeepSeek老师模子可能用到的数据；第四个小组正在探求基于DeepSeek模子属性重构Meta模子。

《逐日经济新闻》记者也对炙手可热的R1模子与四款主流推理模子——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节向上的豆包1.5Pro和月之暗面的Kimi 1.5——进行了对比测试。测试扫尾炫耀，DeepSeek在难度最低的简单逻辑推理问题上弘扬欠安，但在高难度问题上弘扬可圈可点，不仅回应正确，还在速率上打败了o1。

DeepSeek旗下模子极低的老师本钱不详预示着AI大模子对算力过问的需求将大幅下跌。多家券商研报指出，算力需求会加快从预老师向推理侧歪斜，推理有望极力老师，成为下一阶段算力需求的主要驱能源。

记者实测：DeepSeek简单问题出错，高难度问题完胜，并在速率上打败o1

《逐日经济新闻》记者对DeepSeek-R1以及市面上的几款主流推理模子进行了对比测试，包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节向上的豆包1.5Pro和月之暗面的Kimi 1.5。

记者遴选了三个问题对以上五款模子进行测试，难度挨次升级（辞别为一级到三级），挨次评估模子的合座弘扬。由于DeepSeek的模子并不具备多模态功能，是以未进行多模态干系测试。

最初需要明确的是，推理模子与传统的大谈话模子在输出花样上接收了两种不同的模式。传统的大谈话模子关于模子的输出接收的预测模式，即通过大范围的预老师磋磨下一个输出应该是什么。而推理模子则具备自我事实核查身手，能够有用幸免一些常见演叨，使之输出逻辑更接近东说念主类自己念念考推理的经由。是以，推理模子在责罚问题时连续比非推理模子需多浪费几秒到几分钟，在物理、科学和数学等领域，其可靠性更高，但在学问领域可能有着后果不高的问题。

DeepSeek推理经由暗示图

难度I|三个灯泡问题：五大模子全部通关

最初，记者遴选了一起简单的念念维问题：在一个黢黑的房间里，有三个开关，辞别罢休着房间外的三个灯泡。你站在房间里，不可看到灯泡，只可通过开关罢休它们。你只可走一次出去检讨灯泡，如何笃定每个开关罢休哪个灯泡？

五个模子皆很快得出了正确谜底，在这个简单的问题上莫得分出区别。

豆包

DeepSeek

Kimi

Gemini

难度II|囚犯帽子情愫推理：DeepSeek、Kimi犯错，Gemini耗时最短且透顶正确

接下来问题升级：有四位囚犯列队站好，囚犯1号能看见囚犯2号和囚犯3号；囚犯2号不错看见囚犯3号；囚犯3号看不见任何东说念主；囚犯4号也看不见任何东说念主。他们知说念一共有4顶帽子，2黑2白，但并不知说念我方头顶的帽子是什么情愫。求教谁会是第一个知说念我方头顶的帽子是什么情愫况且赶快喊出来的东说念主？

在这个问题上加拿大pc28官网规则，DeepSeek和Kimi皆犯错了，两者在推理经由中推导出了一种情况，但正确选项应该是两种。

Kimi

DeepSeek

而Gemini、豆包和o1皆回应正确。其中，Gemini推理速率最快，仅用了6.8秒就得出了扫尾，最慢的是o1，耗时1分02秒。

Gemini

豆包

难度III|询查生级别数学题：DeepSeek-R1完胜，且用时最短

评测扫尾炫耀，DeepSeek在科学领域如数学身手上排名第一。于是，记者找来了一起询查生级别的数学题进行测试：找出通盘阶为147且不包含阶为49的元素的两两不同同构群（出自好意思国南加州大学博士资历锻真金不怕火）。

在这一问题上，DeepSeek-R1莫得“亏负”评测，弘扬最佳，找出了三个解。除o1外的其他模子只找出了两个解，而且，Kimi在推理经由中还开启了联网查询功能进行扶植推理，但仍然少了一个解。

诚然o1也找出了三个解，但耗时更长，用了4分17秒得出谜底，而DeepSeek-R1只浪费了2分18秒。

《无限大》将于明年1月正式开启面向玩家的技术性测试，而昨日公布的12月国产网游版号中就包含《无限大》，这也距离游戏正式上线更近一步。

尽管任天堂尚未公布新游戏机的官方规格。然而，Install Base 论坛上的一位开发商提供了一些新的消息。

DeepSeek

豆包

Gemini

Kimi

笼统各项测试来看，DeepSeek存在一个反学问的问题，即在难度不高的问题上弘扬不如其他模子好，以致可能会出现其他模子不会出现的演叨。关联词当难度提高到大众级别的进程上时，DeepSeek的弘扬反而造成了最佳的模子。

这便是说，关于需要专科知识携带的从业东说念主员或询查东说念主员来说，DeepSeek是一个好的遴选。

DeepSeek力压ChatGPT登顶苹果诈欺榜

1月27日，苹果App Store中国区免费榜炫耀，近一玉成球刷屏的DeepSeek一举登上首位。同期，DeepSeek在好意思国区苹果App Store免费榜从前一日的第六位飙升至第一位，超越ChatGPT、Meta旗下的外交媒体平台Threads、Google Gemini，以及Microsoft Copilot等AI家具。

很多科技界东说念主士皆在猖狂宣扬该公司所获取的建设过火对AI领域的真义。

举例，闻明投资公司A16z独创东说念主马克安德森27日走漏，DeepSeek-R1是AI的斯普特尼克时刻（注：这是指1957年10月4日苏联抢先好意思国生效放射斯普特尼克1号东说念主造卫星，令西方寰宇堕入一段畏俱和惊悸的时刻）。

DeepSeek-R1在一些AI基准测试上匹敌以致超越了OpenAI的o1模子。DeepSeek-R1在聊天机器东说念主竞技场笼统榜单上排名第三，与顶尖推理模子o1比肩。

在高难度教唆词、代码和数学等技能性极强的领域，DeepSeek-R1拔得头筹，位列第一。

在立场罢休方面，DeepSeek-R1与o1比肩第一，意味着模子在一语气和校服用户指示，并按照特定立场生成内容方面弘扬出色。

在高难度教唆词与立场罢休联接的测试中，DeepSeek-R1与o1也比肩第一，进一步解释了其在复杂任务和细巧化罢休方面的高大身手。

图片起原：聊天机器东说念主竞技场

Artificial-Analysis对DeepSeek-R1的运行基准测试扫尾也炫耀，DeepSeek-R1在AI分析质料指数中获取第二高分，价钱是o1的约三非凡之一。

图片起原:Artificial-Analysis

预老师时期将斥逐，推理正在崛起

DeepSeek旗下模子极低的老师本钱不详预示着AI大模子对算力过问的需求将大幅下跌。

“AI预老师时期无疑将斥逐。”2024年12月13日，在温哥华NeurIPS大会上，OpenAI聚会独创东说念主兼前首席科学家伊利亚•苏茨克维尔（Ilya Sutskever）直言。

在这场演讲中，Ilya Sutskever将数据比作化石燃料，而燃料终将耗尽。“算力在增长，但数据却莫得增长，因为咱们唯唯一个互联网……咱们一经达到了数据峰值，不会再有更多数据了，咱们必须处理好现存的数据。”现存数据仍可鼓吹AI进一步发展，业内也正在尽力挖掘新数据进行老师，这种情况最终将迫使行业更动现在的AI模子老师花样。他预测，下一代AI模子将是确切的AI Agent，且具备推理身手。

预老师是指使用遍及数据老师AI模子的经由，连续需要极高的筹算身手和存储资源。老师经由连续在数据中心完成，耗时较长，本钱腾贵。推理是指将老师好的模子诈欺于实质任务（如生成文本、识别图像、推选商品等），连续需要低延伸和高费解量。推理经由不错在云霄或边际开导（如手机、自动驾驶汽车）上进行。

推理模子其最杰出的方位在于，在给出回应之前，模子会念念考，通过产生一个很长的里面念念维链（CoT），渐渐推理，师法东说念主类念念考复杂问题的经由。

跟着各样大模子的老到，很多企业和开发者不错平直使用预老师模子，而不需要重新老师。关于特定任务，企业连续只需对预老师模子进行微调，而不需要大范围老师，这减少了对老师算力的需求。预老师时期不详即将完了，推理正在崛起。

近几日，多家券商研报皆指出，算力需求会加快从预老师向推理侧歪斜，推理有望极力老师，成为下一阶段算力需求的主要驱能源。

巴克莱12月的讲明预测，AI推理筹算需求将快速提高，预测其将占通用东说念主工智能算筹算需求的70%以上，推理筹算的需求以致不错超越老师筹算需求，达到后者的4.5倍。英伟达GPU现在在推理阛阓中市占率约80%，但跟着大型科技公司定制化ASIC芯片操纵清楚，这一比例有望在2028年下跌至50%傍边。

免责声明：本文内容与数据仅供参考，不组成投资提议，使用前请核实。据此操作，风险自担。

加拿大pc28官网规则 记者实测 | DeepSeek-R1对决四款主流推理模子：基础题不测“翻车”，高难度推理碾压ChatGPT o1

热点资讯

加拿大pc28官网规则记者实测 | DeepSeek-R1对决四款主流推理模子：基础题不测“翻车”，高难度推理碾压ChatGPT o1