新闻详情

OpenAI推出GDPval基准测试:GPT-5与Claude已接近人类专业水准

据悉

,OpenAI近来发布了一项名为GDPval的新式基准测验,用于评价其AI模型在各行各业与人类专业人士的作业表现间隔。这一测验被视为衡量AI间隔完成通用人工智能(AGI)——即能在经济上具有价值的作业中全面逾越人类——的重要一步。

GDPval聚集于对美国国内生产总值奉献最大的九大作业,包含医疗、金融、制造业及政府等范畴,涵盖了软件工程师、护理、记者等44种作业使命。测验要求实在从业者比照AI生成的陈述与专业人士编撰的版别,并挑选更优的一份。例如,某个使命中约请出资银行家编撰结尾配送作业的竞赛格式剖析,并与AI生成的陈述进行比照。OpenAI随后计算AI模型在这些使命中“打败”人类陈述的份额。

成果显现,增强版GPT-5(GPT-5-high)在40.6%的使命中被评为优于或适当于作业专家的水平;Anthropic的Claude Opus 4.1在49%的使命中到达这一规范。OpenAI以为,Claude的高分或许部分源于其生成图表的才能更易取得评定喜爱,而非肯定功能更强。

尽管如此,OpenAI也供认,GDPval现在仅覆盖了人类在实在作业中所执行使命的一小部分,间隔“替代人类”的阶段仍有适当间隔。但这一测验表现了公司在衡量AI迫临人类专业才能上的新测验,也为调查AI在经济价值作业中发展供给了参阅。

返回资讯列表