据新浪科技报道,上海人工智能实验室旗下的司南评测体系OpenCompass对七个大型语言模型进行了高考“语数外”全卷能力测试,并发布了首个大模型高考全卷评测结果。
此次测试的语文、数学和英语三科总分为420分。测试结果显示,阿里巴巴的通义千问2-72B以303分的成绩排名第一,OpenAI的GPT-4以296分紧随其后,位居第二。上海人工智能实验室的书生浦语2.0排名第三。这三个大模型的得分率均超过70%。法国初创公司Mistral的大模型排名末尾。
从测试结果来看,大模型在语文和英语考试中的表现普遍较好,但在数学科目上表现欠佳,最高分仅为75分,全部未能及格。