Openai正在研究一个重要模型,以促进GDP。三个重要的行业取代了人类,并揭示了他们被克劳德击败

机器心脏的编辑:Zenan,Yang Wen ai颠覆附近,Ultraman并没有谈论胡说八道。直到今天,在评估方法中已经看到了太多的大型模型。例如,学术参考MMLU涵盖了基于数十个主题的测试的问题,以及更好的评估(修复软件工程错误的任务),MLE银行(自动学习工程任务,例如培训和模型分析),银行(科学推断和研究文档的科学推理和审查)以及基于评估的评估评估。最近,OpenAI推出了一种名为GDPVAL的新评估方法,以跟踪模型的性能,成为现实世界中经济上有价值的任务。文档:GDPVAL:文档链接中经济有价值的任务中AI模型性能的评估:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86-86-86-86dd4bcf12ce/gdppval.pdff gdpval命名为GDPVAL,被任命为GDPVAL,被任命从主占用中删除任务该行业对GDP的贡献更大。评估结果表明,当今最好的Avant -Garde模型接近行业中工作专家的质量。 Operai进行了盲目测试和行业专家,并手动比较了几种关键型号的可交付成果,即GPT-4O,O4-Mini,OpenAI O3,GPT-5,Claude Opus 4.1,Gemini 2.5 Pro和Grok 4。在不同生产部门的角色中,我们可以看到政府,零售和批发商的AI能力已经超过人类水平。有趣的是,Openai通常认可克劳德的领导。 Claudeopus 4.1是此数据集中的最佳性能模型,特别是以审美格式(文档格式,幻灯片设计等)。另一方面,GPT-5的精度非常出色(例如找到特定领域的知识)。但是,OP埃莱再次说,克劳德倾向于产生舒适的图形而不是纯表现,因此他获得了很高的分数。此外,随着时间的流逝,这些任务已迈出了一步。 GPT-5在2024年春季推出的GPT-4O夏季结构上的GPT-5性能远远超过重复,这表明线性趋势明显。从GPT-4O到GPT-5,GDPVAL任务性能在一年内的两倍多。 Frontier模型完成了GDPVAL的任务,其成本比行业专家快100倍,成本高100倍。这些数据仅考虑推理时间和模型的API成本,但是对于模型特别好的任务,首先使用AI来完成LTO任务并将其交付给人类进行测试,您可以节省大量时间和金钱。评估点使您可以自然地以提高性能的方式进行思考。随着时间的推移,Operai培训了GPT-5的内部实验版本,以评估它是否可以提高G的性能DPVAL的任务。此过程将改善性能和开放途径,以进行更多的潜在改进。其他受控实验也证实了这一点。增加模型大小,促进更多推理程序并提供更丰富的任务的背景,从而带来可衡量的收益。 Operai还推出了GDPVAL任务和公共标点符号的黄金子集,使其他研究人员可以根据此标准继续研究。如何选择这些职业? GDPVAL是评估的第一个版本,该评估涵盖了44个贡献Mosteron al Al USA的九个行业的职业。 UU。,包括软件开发人员,律师,注册护士和机械工程师。选择这些职业是因为它们的经济重要性,并代表了AI可以在日常工作中为专业人士大力支持的工作类型。 GDPVAL的完整评估包括1320个专业任务(220个开放金源资格),每个任务经验丰富的专业人员经过14年的经验,经过经验丰富的领域经验,经过精心设计和审查。我在这里。每个任务均基于实际工作结果,例如法律摘要,工程计划,客户服务对话或护理计划。每个任务至少收到了五轮评论,以确保其真实,可行和清晰。最终数据集包括每个专业的30个全面审核的任务(完整集)和5个开源金集,为评估模型在实际知识任务中的性能的基础。每个任务都是由专家根据实际工作结果设计的,专家解决方案被用作参考。 GDPVAL唯一的事情是其现实的性质和评估任务的多样性。与另一种针对特定领域(例如SWE Lancers)的经济评估不同,GDPVAL涵盖了广泛的任务和职业。同时,与以学术考试形式创建任务的参考点不同EST(例如对人类或MMLU的最终检查),GDPVAL专注于以类似方式构成的现有实际工作或结构化产品或产品的可交付成果。 GDPVAL的任务并不是一个简单的文本消息,而是与参考文件和上下文一起附上的,预期的工件涵盖文档,幻灯片演示文稿,图片,电子表格和多媒体,允许GDPV当更现实地尝试的模型支持专家。如何评估模型的性能? OpenAI通过数据集的相应专家得分手评估模型性能。得分手比较了盲人评级下的人工智能和人类的伪像,并提供了分类以确定AI的结果是否“更好”,“正义”或“坏”。任务作者还开发了详细的分数标准,以确保一致且透明的分数。此外,OpenAI还开发了一个“自动得分官”,可以快速预测人类专家评估作为辅助评估工具,但其可靠性不如专家得分官的可靠性可靠,因此不能取代专家的得分。增长的功能,劳动力市场可能会改变。 GDPVAL的第一个结果表明,该模型可以比专家更快地降低成本,明确定义的任务更快并降低成本。但是,大多数任务不仅仅是许多可以记录的任务。 GDPVAL强调了AI可以处理日常任务的领域,使人们可以花更多的时间在创意和试用工作中。如果AI补充这样的工人,它可能会成为经济增长的重大增长。歌剧的目标是允许任何人通过扩大使用这些工具的权利,建立支持工人,对变化做出反应并奖励更广泛贡献的系统来允许任何人提升人工智能的“楼梯”。最后,歌剧说GDPVAL仍处于他的早期阶段。它涵盖了44个职业和数百个任务,但不断在即兴这种方法。 Operai计划扩展您的GDPVAL,以添加任务,以解决跨越长期目标的歧义,以涵盖更多类型的职业,行业和任务,改善互动性并更好地衡量各种知识任务中的进步。参考内容:https://openai.com/index/gdpval/
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注