大模型做高考卷猜猜它得了多少分？-新闻中心-中国宁波网

新闻

报料热线：81850000

您当前的位置：中国宁波网 > 新闻中心 > 社会

大模型做高考卷猜猜它得了多少分？

2024-06-19 22:30:00 稿源：潮新闻　

　　6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分。

　　上海人工智能实验室分析认为，高考覆盖各类学科及题型，这一综合性测试，目前普遍被研究者用于考察大模型的智能水平。2024年全国高考甫一结束，上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

　　本次评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目，也包括简答、阅读理解及作文等主观题，在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

　　评测结果显示，Qwen2-72B以语数外303分的总成绩，成为本次大模型高考“状元”，领先于GPT-4o（296分）及书生·浦语2.0文曲星（InternLM2-20B-WQX，295.5）。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家（MoE）模型Qwen2-57B-A14B，通义千问的MoE模型同样表现不俗，总分（254分）位列第四名。

　　上海人工智能实验室指出，大部分模型考生的语文、英语科目表现良好，但在数学方面还有很大的提升空间。InternLM2-20B-WQX取得了数学单科的最高分，但仍未达到及格水平，表明大模型的数学能力存在较大提升空间。据悉，本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续，研究团队将在评测中引入多模态大模型，以考察模型应对更多题型的能力，并陆续发布覆盖不同学科和地区的完整高考评测。

编辑： 陈晓怡纠错：171964650@qq.com

中国宁波网首页

新闻中心首页

24小时新闻点击榜

扫一扫，中国宁波网装进手机

中国宁波网手机版

微信公众号

明州论坛/甬城晨笔

中国宁波网（宁波甬派传媒股份有限公司）版权所有(C)

Copyright(C) 2001-2024 cnnb.com.cn All Rights Reserved

互联网新闻信息服务许可证：3312017004 信息网络传播视听节目许可证：1104076

违法和不良信息举报电话：0574-81850000　举报邮箱：nb81850@qq.com

大模型做高考卷猜猜它得了多少分？

稿源：潮新闻 2024-06-19 22:30:00

　　6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分。

　　上海人工智能实验室分析认为，高考覆盖各类学科及题型，这一综合性测试，目前普遍被研究者用于考察大模型的智能水平。2024年全国高考甫一结束，上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

　　本次评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目，也包括简答、阅读理解及作文等主观题，在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

　　评测结果显示，Qwen2-72B以语数外303分的总成绩，成为本次大模型高考“状元”，领先于GPT-4o（296分）及书生·浦语2.0文曲星（InternLM2-20B-WQX，295.5）。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家（MoE）模型Qwen2-57B-A14B，通义千问的MoE模型同样表现不俗，总分（254分）位列第四名。

　　上海人工智能实验室指出，大部分模型考生的语文、英语科目表现良好，但在数学方面还有很大的提升空间。InternLM2-20B-WQX取得了数学单科的最高分，但仍未达到及格水平，表明大模型的数学能力存在较大提升空间。据悉，本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续，研究团队将在评测中引入多模态大模型，以考察模型应对更多题型的能力，并陆续发布覆盖不同学科和地区的完整高考评测。

编辑：陈晓怡

纠错：171964650@qq.com

回首页回顶部