OpenAI宣布推出AI Agent评测基准PaperBench

狐呼网 • 文章来源：界面 • 19小时前 • AI • 阅读 11

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。（界面）

原创文章，作者：狐呼网，如若转载，请注明出处：https://www.ihuho.com/6704.html

0 0

关于作者

狐呼网

1.1K 文章

1 评论

0 粉丝

狐呼网，由资深新媒体人梁志镅创建。是一个前沿的新媒体内容生态服务网站，致力为新媒体人打造的学习交流网站

Meta与终极格斗冠军赛达成多年期合作协议

上一篇 19小时前

“百亿减免”之后，拼多多宣布再推“千亿扶持”

下一篇 14小时前

AI

联想AI桌面助手接入豆包大模型

联想宣布与火山引擎达成合作，将豆包大模型整合进其AI桌面助手如意（AI Stick），推出AI搜索、AI写作、AI聊天三大新功能，标志着如意在个性化AI服务方面迈出了重要一步。 A…

狐呼网
2024年12月27日
00
AI

报道称阿里巴巴CEO吴泳铭主张在阿里现有业务中全面实现“AI化”

据报道，阿里巴巴CEO吴泳铭主张在阿里现有业务中全面实现“AI化”。阿里所有部门已被告知，他们2025年的绩效将通过如何利用AI促进增长来评估。淘宝和天猫在内的核心电子商务部门被鼓…

狐呼网
2025年3月18日
00
AI

微博接入DeepSeek正在内部测试

2月20日，微博智搜接入DeepSeek已在进行内部测试。微博CEO王高飞在微博上发布多条微博智搜内容，如#社保费用增加会影响骑手收入吗？##油罐车的前因后果#等内容，DeepSe…

狐呼网
2025年2月20日
00
AI

政策支持智慧农业发展，多家上市公司瞄准“AI+农业”方向

2月24日，农业板块开盘大涨，截至当日收盘，江苏农华智慧农业科技股份有限公司、星光农机股份有限公司等多只个股涨停。2025年中央一号文件提出，推动农机装备高质量发展，加快国产先进适…

狐呼网
2025年2月25日
00
AI

人形机器人生产节奏渐趋明确，多家公司布局丝杠产品

行星滚柱丝杠被视为人形机器人的“关节”与“肌腱”，用于实现旋转与直线运动的转换。其应用于人形机器人关节驱动和运动控制，如手臂、腿部以及灵巧手等，是实现精准移动和稳定支撑的重要部件。…

狐呼网
5天前
00
AI

联想推出混合式人工智能优势集框架

，联想集团香港创新科技大会举办。会上，联想推出混合式人工智能优势集框架，包括混合基础设施与设备可用于数据的采集、存储与处理，全面的AI服务以覆盖从设计到优化的全生命周期支持，以及联…

狐呼网
2025年3月6日
00
AI

谷歌Gemini或将新增AI视频生成功能

谷歌一直在为其人工智能产品Gemini添加功能，近期代码显示，谷歌正在开发一项视频生成功能，可能会在未来的更新中添加到Gemini中。谷歌应用v16.6.23包含的代码暗示谷歌将为…

狐呼网
2025年2月20日
00
AI

去除背景噪声阿里通义实验室开源语音处理技术ClearerVoice-Studio

阿里巴巴达摩院的通义实验室近期宣布开源一项名为ClearerVoice-Studio的语音处理技术，旨在提升语音质量和可懂度。随着语音技术的广泛应用，语音质量受到越来越多人的关注，…

狐呼网
2024年12月8日
00
AI

工信部：即将发布《医药工业数智化转型实施方案》

国新办于3月21日上午10时举行国务院政策例行吹风会，工业和信息化部消费品工业司司长何亚琼表示，随着信息技术的发展，随着人工智能加快迭代升级，为下一步中医药的快速发展提供了良好的基…

狐呼网
2025年3月21日
00
AI

超20亿元，深圳人工智能产业再获强援

据深圳发布，3月3日发布的《深圳市加快打造人工智能先锋城市行动计划（2025—2026年）》明确提出，聚焦企业融资需求，构建层次鲜明、高度协同、耐心陪伴的基金服务体系，为符合条件的…

狐呼网
2025年3月21日
00