OpenAI推出GDPval基准测试：GPT-5与Claude已接近人类专业水准

发布时间：2025-12-28 04:31:56

据悉

，OpenAI近来发布了一项名为GDPval的新式基准测验，用于评价其AI模型在各行各业与人类专业人士的作业表现间隔。这一测验被视为衡量AI间隔完成通用人工智能（AGI）——即能在经济上具有价值的作业中全面逾越人类——的重要一步。

GDPval聚集于对美国国内生产总值奉献最大的九大作业，包含医疗、金融、制造业及政府等范畴，涵盖了软件工程师、护理、记者等44种作业使命。测验要求实在从业者比照AI生成的陈述与专业人士编撰的版别，并挑选更优的一份。例如，某个使命中约请出资银行家编撰结尾配送作业的竞赛格式剖析，并与AI生成的陈述进行比照。OpenAI随后计算AI模型在这些使命中“打败”人类陈述的份额。

成果显现，增强版GPT-5（GPT-5-high）在40.6%的使命中被评为优于或适当于作业专家的水平；Anthropic的Claude Opus 4.1在49%的使命中到达这一规范。OpenAI以为，Claude的高分或许部分源于其生成图表的才能更易取得评定喜爱，而非肯定功能更强。

尽管如此，OpenAI也供认，GDPval现在仅覆盖了人类在实在作业中所执行使命的一小部分，间隔“替代人类”的阶段仍有适当间隔。但这一测验表现了公司在衡量AI迫临人类专业才能上的新测验，也为调查AI在经济价值作业中发展供给了参阅。

返回资讯列表

新闻详情

相关推荐

Motiv Power Systems 推出用于中型车队的下一代电动卡车

数据驱动，哈啰电动车拟携手经销商转型“智慧门店”

三星为美国冰箱用户推送广告

苹果 153 亿美元税款上诉案将在今年下半年审理

比亚迪持续发力，纯电SUV新车2022款唐EV上市

微软正式发布 Windows 和 macOS 版 Edge Chromium 浏览器