电话:13485538018
关闭
您当前的位置:首页 > 职场资讯 > HR资讯

AI跑分皆满分,评估难测其聪明程度,怀念往昔测试时光

来源:网络整理 时间:2025-11-01 作者:佚名 浏览量:

跑分都满分则跑分无意义。

人们早在AI刚出现时,就热衷于借助形形色色的题库,去测验AI究竟有多聪慧,不管是GPT,还是Gemini,亦或是Grok,又或者是DeepSeek,Kimi,文心一言,在它们发布之际,差不多都会附带呈献出一份跑分成绩 。

如今,事已至此,市面上流行的题库,几乎被AI做透,每一代新模型,都要在测试中“霸榜碾压”,“满分横扫”,在像MMLU这样热门的基准测试里,大部分模型准确率已超90%,也就是说,AI的聪明程度,人快无法评估出来了。

好想念往昔那些已逝去的美好日子,AI只要看上去仿佛是个人就能达成测试(如今图灵测试已经很长时间没人提及了)|x @PhysInHistory

“人工智能能力的评估是基于基准测试的,然而基准测试正在迅速地饱和,失去了作为的价值衡量工具效用……”这是人类最后的考试网站首页所写的内容,“在MMLU和GPQA这样的测试里表现良好,已不再是取得进步的有力信号,因为前沿模型在这些基准测试中的表现已经达到或者超过了人类的水平。”

于MMLU基准测试当中,前沿大模型所获分数难分高低。令人称奇的是,倘若AI已然比人类更加聪慧,那么我们有没有充足的才智去认识到这一丝呢?|bracai.eu

为了弄明白演变速率极高的人工智能究竟进展到何种具体程度,并且以该标准为依据,对它们进行排序比较,以区分出彼此差距,我们得设置一些困难程度更高的题目了 。

作为代表目前人类最高智慧,且是最先进文明成果的事物,“人类最后的考试”,也就是“Humanity's Last Exam”,简称为HLE,在这个背景下诞生了。

人类智识最后的堡垒,文科也在里面

“人类最后的考试”是个基准测试,它由Center for AI Safety与Scale AI共同创建,其测试内容历经多次调整,最终于2025年3月4日确定为一套含有2500个前沿学术难题的题库。

这些题目,分布在了100多个不一样的学科领域范围之内,能够大概地划分成为以下的几大类别: ,

具体何种题库分布,其中数学题目所占比例为41%,人文领域题目所占比例为18%,可恶呀,竟然输掉了|HLE

HLE最令人记忆深刻的在于其多模态,这些问题并非仅仅基于文本,还涵盖图表,包含古文字,有图像,有公式,这表明AI若要回答问题,就必须先理解问题 。

HLE的官网上公开了其中一部分问题。

比如说这里有一道处于古典学范畴之内的题目,它要求人工智能将一段于墓碑之上所发现的罗马铭文转译为帕米拉亚兰语,还给了音译,真心贴心呀。

问题由牛津大学墨顿学院博士Henry Tang提交|HLE

这里存在一道涉及考察AI了不了解那混乱至极的古希腊男女之间关系状况的民俗方面的小知识题目,题目内容为:于希腊神话里,伊阿宋的曾姥爷究竟是谁呢?

提交者是墨西哥国立理工学院医学部的Darling D,我没找到此人,不清楚为何医学院的人会出这种题,此处为HLE ,

有一道生物题,读起来跟GRE考试题差不多,每个词都模棱两可,读后面就忘掉前面了,这题大概是问蜂鸟的籽骨支撑着几对肌腱,明确规定要用数字作答。 ?

由麻省理工大学的博士Edward Vendrow提交,这位博士来自计算机系,真是一位学者,他很博学,又很会针对AI,至于为什么这道题针对了AI我们等下讲|HLE

还有这道考察图论+马尔可夫链的题:

由,伦敦玛丽女王大学,计算机系,讲师,Dr. Marc Roth,提交,|,HLE,

若你还存有做更多题目之想法,又或者对题库满怀好奇之情,再不然便是想凭借一己之力与AI一较高下,那么能够前往HLE官网去查看题库 。

虽然这些问题已公开发布以便开发者测试大模型,但是HLE称,为应对训练数据污染和基准测试黑客攻击问题,他们保留了一个private set,这一set用于定期测量模型与公共数据集的过拟合情况,且不对外公布,而这一部分才是真正用于AI模型排行榜和最终评分的核心数据。

题库里的题主要有两种形式,选择题和简答题。

选择题要从五个以上选项里做出选择,(题库里百分之二十四的题目是多选题),简答题则要模型输出与答案全然相同的字符串,不能够语义含混、不能够不准确,在题库之中,还有大约百分之十四的题目要求同时理解文字以及图像。

可以说是全选C战术和谁字多谁得分战术都没用了。

“为了全人类,提交你最难的问题”

不能不说,“人类最后的考试”这一名字起得着实很棒,倘若不是这个有着厉害之感却又透着中二气息的名字,我极有可能永远都不会对一个冷冰冰的大模型的基准测试究竟考些什么产生好奇, 。

然而,HLE的发起人丹 ? 亨德里克斯,也就是Dan Hendrycks,在一开始所设想的名字相对更为厉害,其名为“人类最后一战”,即Humanity’s Last Stand,不过后续众人都认为这个名字过度抓马,进而劝说他将其放弃了。

丹·亨德里克斯也是一个神人。

25岁之际,他联合着编写了当下最为热门的AI大模型基准测试MMLU,截止到2024年7月,MMLU的下载量已然超过1亿次。30岁之时,他发觉目前AI的能力已然溢出了基准测试,MMLU已经不好用了,于是他决定去做个新的测试,他还在一次采访里表明,他做HLE是由于马斯克认为现在的基准测试全都太简单了 。

当下,亨德里克斯于马斯克的人工智能公司xAI担当安全顾问,他亦是Scale AI的顾问,为防止潜藏的利益冲突,他每月仅象征性领取一美元薪资,并且不持有任何公司股权。

再说回HLE。

_人类目前难以解决的难题_难提交人类问题有哪些

2024年9月,处于HLE计划发起初期时,亨德里克斯公开发布文章,此文号召了全世界的学者,让他们“为人类最后的考试交出你最难的问题”,此说法相当有毒,因为人家并不知晓HLE就是题库的名字,人家单看题目仿佛觉得这事关人类存亡。

人工智能系统在未来最终会超越所有能够被创建出来的静态基准,从而突破基准以及评估的界限这件十分关键。为了去追踪人工智能系统与专家级能力之间的差距,我们正在组建有史以来规模最大且范围最广的专家联盟。“如果你觉得某个问题能够被AI解答会让你印象深刻,欢迎你提交。”他在文章里这样写道 。

为了全人类,提交你最难的问题|scale.com

所交的问题并非是白白缴纳的,亨德里克斯对外宣称,那些所出题目评分处于最高水平的研究者,能够去瓜分50万美元的奖金,其中排名在前50位的问题,每一道题目可以拿到5000美元的奖金,而在这之后的500个问题,每一道题目能够获得500美元的奖金。

关于问题本身,HLE则提出了更加严格的要求。

首先,问题的答案要在网上搜不到。其次,问题得是原创的新问题,不能在以往考试中出现过。再次,问题要有明确答案,且答案要被相关领域其他专家广泛接受,不包含个人偏好、歧义或主观性。最后,问题应有硕士级别以上难度,因为“根据经验,若随机选的本科生能理解题目内容,那么对大模型而言这个问题可能太简单”。

每当提交每一道题的时候,都肯定是必须要涵盖题目自身,题目对应的答案,也就是精确的回答,或者是选择题的正确选项,还有详细的解题思考推理过程,以及所属的学科,与此同时不能缺少贡献者的姓名以及机构信息。

对于所有提交上来的问题,HLE会开展两步筛选工作,首先会将问题提供给最为先进的AI去进行解答,要是AI没办法回答,或者在多选题当中的得分相较于随机猜测的情况还差时,那么该问题就会被交付给人工审阅者,再由人工审阅者对答案采取审阅以及验证的操作。

在《纽约时报》的一回采访当中,加州大学伯克利分校,理论粒子物理学,博士后研究员Kevin Zhou宣称,他递交了好些题目,当中有三道题目被选上了,而这些题目“皆达到了研究生考试的上限” 。

最终,HLE收到了回复,这些回复来自50多个国家,来自500多家研究机构和企业,来自1000多位学者,从中诞生了目前最难的AI基准测试HLE。

对AI来说,HLE难在哪?

费了这么大功夫,HLE真的难住AI了吗?

单看结果而言,是难住了。

迄今为止,主流前沿模型在纯文本模式里于HLE上的得分均尚为比较低,OpenAI最新的o3 - mini(high)模型,其准确率仅有13%,前阵子令美国震动的DeepSeek - R1的准确率方才9.4%,当前得分最高的是Grok4,正确率为26.9%。

直至今年一月论文发表之际的数据,黑色柱体态之形乃是HLE准确率呈现之状,此等数据源于HLE官网 。

这些题为什么这么难?

需要一定的推理深度它们存在一个原因,并且在网上无法找到答案,另外问题经过筛选存在一个原因,留下的全是现有前沿模型表现差的那些问题。

还有一个原因是在问题上给AI挖了坑。

比如,上文曾经提及的蜂鸟籽骨问题,看起来好像很简单,然而呢,有人去测试了GPT5,有人还测试了Gemini,它们都给出的是一篇论文那样的长篇大论,可是却忽略了问题当中最后说的一句话,“Answer with a number”,就是要用数字直接进行回答。

所以,一切并非“2”的答案均被判定为错误(即便某些模型在长篇阐述之后给予了正确答案),这大概是一个产品设计方面的问题,而非AI表现的问题。

Threads@raystormfang

另外,有些问题连人类自己都还没达成一致呢。

最后的考试,可能也撑不了多久

最后的那场考试,赏金极具诱惑,概念充满科幻色彩,目的极为崇高,然而,它所引发的争议已然开始显现出来 。

今年7月,有一个专注人工智能应用的非营利组织,它叫做FutureHouse,发布了一篇调查报告,报告称在HLE里,“化学生物领域的30%的答案可能是错的”。

他们组建了一个评审团,该评审团来自化学生物领域的专家,并且他们详细研究了HLE题库,最终他们得出结论,结论为“29±3.7%(95%置信区间)的纯文本化学和生物问题的答案与同行评审文献中的证据直接冲突” 。

以这个问题为例,在2002年以来,于地球物质总量里,所占比例最少的稀有气体,是哪一种呢,What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002 ?

答案是Oganesson,你不清楚,我不晓得,AI同样不明白。

Oganesson,也就是?,其化学符号为Og,原子序数是118,它属于人工合成的放射性超重元素,处于元素周期表第七周期,在稀有气体族(0族)的末端位置。2002年,?于俄罗斯的一座核反应堆中首次被合成,且存在了几毫秒,到目前为止,仅五个Oganesson原子被合成。并且它更倾向于是固体或者液体,而非气体,另外有一些学者觉得它并非惰性气体,原因是它的化学性质不稳定。

此外,有多篇论文,其中包含2002年的论文,列出了地球上稀有气体的比例,?没被算进去,总而言之,?可能不是气体,?可能不是惰性气体,而且大多数同行评议的论文觉得?也不是地球物质。

而AI答不答得出脑筋急转弯问题又能证明什么?

存在另外一个迷思,对于大多数前沿模型而言,HLE太难了,大家得分都很低,与大家得分都很高的状况一样,未拉开区分度,不清楚得分高的模型优势何在,并且HLE覆盖学术考试可测内容,它专注已知学术题目与闭合答案,对开放式创造力、生成类问题或非常新颖研究课题的思考仍难以评估。

虽然千辛万苦花大价钱出了这么一套题,看来也要很快被打穿了。

HLE自行做出预测,尽管当下AI于HLE上的准确率极低,然而到2025年年底时,模型于HLE上的准确率便有希望超过50%,实际上,尚未抵达年底,Grok4在运用工具的情形下(像是代码解释器)正确率已然提升到了41.0%。

2024年时各个AI模型的HLE得分,2025年时各个AI模型的HLE得分,依照这样的进步速度,HLE很快也会被打穿了|Reddit

亨德里克斯讲,HLE有可能是我们针对模型所要开展的最终一回学术检测,然而它绝对不是人工智能的最后的一项标准,等到HLE又被越过去之后,我们还能有什么题目能给到AI呀 ?

微信扫一扫分享资讯
客服服务热线
13485538018
24小时服务
微信公众号
手机浏览

CopyrightC 2009-2025 All Rights Reserved 版权所有 芜湖人才网 本站内容仅供参考,不承担因使用信息、外部链接或服务中断导致的任何直接或间接责任,风险自担。如有侵权,请联系删除,联系邮箱:ysznh@foxmail.com 鄂ICP备2025097818号-15

地址: EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫