当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-28少儿编程就是从小学习敲代码?如何看待越来越火的少儿编程?
- 2025-06-282025年,Gitea 和 GitLab 应当如何选择?
- 2025-06-28为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
- 2025-06-28Anthropic 推出的 Claude Code Agent 有哪些亮点值得关注?
- 2025-06-28有谁组装NAS时,尝试过的最低配置是什么?
- 2025-06-28Vue性能优于React,那为什么还不用Vue?
- 2025-06-28Chrome 浏览器设计的神细节有哪些?
- 2025-06-28猫的什么行为证明它把你当自己人?
- 2025-06-28为什么大多数评测对macbook的屏幕素质避而不谈?当真不怕被pwm频闪闪瞎眼吗?
- 2025-06-28为什么称唐朝为巨唐?
- 2025-06-28电影《赤道》为何没有第二季呢?
- 2025-06-28如何证明散片 CPU 比盒装 CPU 差?
- 2025-06-28《冰与火之歌》中龙妈扮演者艾米莉亚·克拉克如此惊艳,为啥在其他剧中都很普通?
- 2025-06-28如何看待M4单核性能吊打9950x?
- 2025-06-28Node.js是谁发明的?
- 2025-06-28月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?
推荐产品
-
我养的小乌龟一天不吃龟食会不会饿死呢?
买了一只白化巴西苗子,商家说都刚从蛋里出来,没下过水,也没开 -
求推荐程序开发笔记本!?
联想小新16pro锐龙版2025,国补后3600不到(正常价 -
为什么 electron 不做成独立的 runtime?
几个月前一个electron安全更新干废了vscode的剪贴 -
为什么大部分人都认为2560x1440是2K?
你说这个我就精神了,咱们来讨论一下USB1.0 ,USB2.
最新资讯