中国信息通信研究院人工智能研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 2024年6月 大模型基准测试体系研究报告 (2024年) 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。 转载、摘编或利用其它方式使用本报告文字或者观点的,应 注明 “来源:中国信息通信研究院 ”。违反上述声明者,本院 将追究其相关法律责任。 前 言 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器 智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全 面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。 大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。 全球主要学术机构和头部企业都十分重视大模型基准测试, 陆续发布了一系列评测数据集、 框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。 本研究报告首先回顾了大模型基准测试的发展现状, 对已发布的 主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战, 提出了一套系统化构建大模型基准测试的框架——“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况, 并对未来大模型基准测试的发展趋势进行展望。面向未来,大模型基准测试仍存在诸多开放性的问题,还需要产学研各界紧密合作,共同建设大模型基准测试标准,为大模型行业健康有序发展提供有力支撑(联系人:韩旭,[email protected] )。

.pdf文档 信通院 大模型基准测试体系研究报告 2024年

文档预览
中文文档 51 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
信通院 大模型基准测试体系研究报告 2024年 第 1 页 信通院 大模型基准测试体系研究报告 2024年 第 2 页 信通院 大模型基准测试体系研究报告 2024年 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-07-20 04:47:24上传分享
加微信群 有优惠
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。