OpenAI 推出 PaperBench 基准测试，用于评估 AI 复制研究能力

星期四

04 / 03

星期四 2025-04-03 13:22

快链头条消息，OpenAI 推出 PaperBench 基准测试，用于评估 AI 代理复制研究的能力。AI 需复制 ICML 2024 的 20 篇顶级论文，涉及理解论文、编写代码及执行实验。测试通过与原作者共同开发的细化评分标准进行，涵盖 8316 个具体要求，由 LLM 评判。结果显示，Claude 3.5 Sonnet (New) 结合开源框架表现最佳，平均复制得分 21.0%，但仍未超越人类基线。