
2 小时内开yun体育网,Claude 和 o1 就能寥落东说念主类众人平均科研水平。
致使 AI 还会偷摸儿"舞弊"(doge)。事情是这么的——
东说念主类 VS AI科研才能大比拼,也有新的评估基准了。
代号" RE-Bench ",由非渔利究诘机构 METR 推出,宗旨是搞清:面前 AI 智能体在自动化科研方面有多接近东说念主类众人水平。
耀眼看,一声令下之后,AI 和 50 多位东说念主类众人启动私下较劲:
前 2 小时,基于 Claude 3.5 Sonnet 和 o1-preview 构建的 Agent(智能体)阐扬远超东说念主类。
但拐点事后,AI 才能增速(在 8 小时内)却永恒追不上东说念主类。

时候拉得更长(至 32 小时)之后,究诘得出论断,当今 AI 智能体更符归并行处理多半寂寞短实验。

看完上述驱逐,知名预计师 Eli Lifland 以为这"显耀裁减"了他对于 AGI 的时候表(连气儿两年将 2027 年算作中位数),由此也在 Reddit 引起热议。

� � 上也有东说念主示意,AI 自动搞科研可能对激动爆炸性经济增长至关迫切。

致使有东说念主脑洞打开,启动好意思滋滋畅想躺着得益的生涯 ( doge ) :
以后 AI 智能体来作念科研,然后雇一群东说念主类写代码……

AI 更符合多半并行短时候任务,持久科研还得靠东说念主类
在 RE-Bench 上,究诘对比了基于谎言语模子构建的 Agent(当今主要公布了 Claude 3.5 Sonnet、o1-preview)和 50+ 东说念主类众人的科研才能。
值得耀眼的是,这些众人齐有弘大机器学习配景,其中许多东说念主在顶级行业实验室或机器学习博士容貌中责任。

一番 PK 后,究诘得出了以下主要论断:
2 小时内,Claude 和 o1 阐扬远超东说念主类众人。但跟着时候加多,东说念主类众人的才能升迁更显耀;
在提交新处置决策的速率上,AI 是东说念主类众人的十倍以上,且偶尔能找到绝顶凯旋的处置决策;
在编写高效 GPU 内核方面,AI 阐扬超越统共东说念主类;
AI 的运行资本远低于东说念主类众人;
……
总之一句话,不仅 AI 和东说念主类各有长处,且不同 AI 齐有我方最好的科研节拍。
东说念主类更适合更复杂、更永劫候的科研,AI 更适合多半并行短任务。

回到究诘最先,METR 之是以提议 RE-Bench 主如若发现:固然许多政府和公司齐在强调,AI 智能体能否自动研发是一项要道才能。但问题是:
现存的评估时时侧重于短期、狭小的任务,况兼费力与东说念主类众人的顺利相比。

因此,RE-Bench 想作念的事儿,即是全面评估 AI 科研所需的手段。本次究诘一共提议了7 项:
高效编程:绝顶是在优化算法和内核函数(如 GPU 内核)方面;
机器学习表面与执行:谨慎机器学习模子的检修、调优和评估,包括神经聚积架构、超参数选用和性能优化;
数据处理与分析;
蜕变念念维:无意在濒临复杂问题时提议新的设施和计策,以及跨边界念念考;
技巧联想:无意联想和完了复杂的系统和处置决策,包括软件架构和究诘进程;
问题处置;
自动化与器用诞生:无意诞生和使用自动化器用来加快究诘进程;
这些任务被联想在≤ 8 小时内,以便东说念主类众人不错使用合理的计较资源完成,从而完了东说念主类与 AI 的顺利相比。

而且主理方挑升辅导,要想获取高分,就必须最大化诓骗计较资源来完成这些复杂任务。

时时来说,RE-Bench 的运行机制如下:
首先,7 项任务齐是一个寂寞的评估环境,各自齐有一个了了的筹画,比如优化一个 GPU 内核或者调度一个机器学习模子的超参数。
为了确保任务的可比性,每个环境齐提供了一个参考处置决策,这个处置决策是有用的,但效力较低,为 Agent 和东说念主类众人提供了一个基准点。
AI 和东说念主类众人齐不错拜谒这些环境,况兼齐有权限使用所需的计较资源,如 GPU。
然后,AI 通过天然话语处理和编程才能来推论任务,而东说念主类众人则通过编码和实验来完成任务。
推论扫尾后,每个环境齐有一个评分函数,用于推测 Agent 或东说念主类众人提交的处置决策的后果。
天然,评分函数会字据处置决策的性能给出一个数值得分,这个得分随后会被归一化,以便于在不同环境之间进行相比。

需要耀眼,过程中还触实时候预算分拨(time budget)。实质情况是,东说念主类众人时时被分拨 8 小时来完成任务,而 AI 则字据实验联想在不同的时候限制下进行评估。
举个例子,对 AI 来说,8 小时的预算不错用于一次 8 小时的尝试,也不错分红 16 次、每次 30 分钟的尝试。
临了,由于在职务推论过程中,究诘会采集 AI 和东说念主类众人的处置决策日记,以及它们的得分记载。因此最终将字据这些记载来评估不同参与者的跨越和阐扬。

实验驱逐暴露,在 2 小时内,基于 Claude 3.5 Sonnet 和 o1-preview 构建的智能体阐扬远超东说念主类。

更具体来看,如果不取屡次运行中的最好驱逐(每个单独绘图 8 小时运行),AI 领先比东说念主类跨越更快,但提高分数的速率较慢。

扩大时候线来看,举座上东说念主类众人在较少的永劫候尝试中阐扬更佳,而 AI 则从多半并行、寂寞的短时候尝试中受益。

令东说念主印象长远的是,尽管大多数 AI 只可隐微校正参考处置决策,但一个 o1-preview 智能体在优化 Triton 内核运行时候的任务中超越了东说念主类众人的最刚正置决策。

与此同期,评估过程中致使发现了 AI 存在"舞弊"行径。举例,o1-preview 智能体在应该减少检修剧本运行时候的任务中,编写了仅仅复制最终输出的代码。

来自非渔利究诘机构 METR
以上这项新的基准出自 METR,算作一家非渔利究诘机构,他们主要通过实证测试评估可能对社会酿成倒霉性危害的 AI 系统。

当今,RE-Bench 只包含 7 项任务,基准的残障也很显着:

而且还伴跟着一个须生常谭的问题:
一朝 7 项任务公开,若何退避基准测试数据混浊问题?

对此,METR 绝顶提议了几项递次,来幸免将这些任务包含在 LLM 检修数据中,并退避过拟合。
用户应幸免发布未受保护的处置决策,以减少过拟合的风险;
用户不应将评估材料提供给可能用于检修的 API 或管事;
评估材料不应用于检修或提高前沿模子的才能,除非是为了诞生或实施危急才能评估;

更多细节宽容查阅原论文。
论文:
https://metr.org/AI_R_D_Evaluation_Report.pdf
博客:
https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/
GitHub:
https://github.com/METR/ai-rd-tasks/tree/main
实验详确记载:
https://transcripts.metr.org/
参考连合:
[ 1 ] https://twitter.com/METR_Evals/status/1860061711849652378
[ 2 ] https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/开yun体育网