语言模型
越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对
语言模型
的智能水平进行评测。
语言模型
挑战高考卷的成绩如何?是否能够赶超 ChatGPT ?让我们来看看一位「考生」的答题表现。
综合 “大考”:“书生・浦语” 多项成绩领先于 ChatGPT
商汤科技
、上海 AI 实验室联合香港中文大学、
复旦大学
及上海交通大学发布千亿级
参数
大
语言模型
“书生・浦语”(InternLM)。
1040 亿
参数
,是在包含
1.6 万亿 toke
n
的多语种高质量数据集上训练而成。
四个综合性考试评测集
:
-
由伯克利加州大学等高校构建的多任务考试评测集 MMLU;
-
微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);
-
由上海交通大学、
清华大学
和爱丁堡大学合作构建的面向中文
语言模型
的综合性考试评测集 C-Eval;
-
以及由
复旦大学
研究团队构建的高考题目评测集 Gaokao;
综合性考试的成绩反映出 “书生・浦语” 扎实的知识掌握程度和优秀的综合能力
。
语言模型
仍然存在不少能力局限性。“书生・浦语” 受限于 2K 的语境窗口长度(GPT-4 的语境窗口长度为 32K),在长文理解、复杂推理、撰写代码以及数理
逻辑
演绎等方面还存在明显局限。另外,在实际对话中,大
语言模型
还普遍存在幻觉、概念混淆等问题。这些局限使得大
语言模型
在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
图中粗体表示结果最佳,下划线表示结果第二
AGIEval
是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估
语言模型
的能力,从而实现模型智能和人类智能的对比。
图中粗体表示结果最佳,下划线表示结果第二
C-Eval
是由上海交通大学、
清华大学
和爱丁堡大学合作构建的面向中文
语言模型
的综合性考试评测集。
https://cevalbenchmark.com/static/leaderboard.html
Gaokao
是由
复旦大学
研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
分项评测:阅读理解、推理能力表现出色
语言模型
的分项能力进行了评测对比。
“书生・浦语” 不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩
。
知识问答
方面,“书生・浦语” 在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6,均超越 LLaMA-65B(得分为 68.2 和 23.8)。
阅读理解(英语)
方面,“书生・浦语” 明显领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅读理解中得分为 92.7 和 88.9,ChatGPT 得分为 85.6 和 81.2,LLaMA-65B 则更低。
中文理解
方面,“书生・浦语” 成绩全面超越主要的两个中文
语言模型
ERNIE-260B 和 GLM-130B。
多语翻译
方面,“书生・浦语” 在多语种互译中的平均得分为 33.9,显著超越 LLaMA (平均得分 15.1)。
数学推理
方面,“书生・浦语” 在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中,分别取得 62.9 和 14.9 的得分,明显领先于 Google 的 PaLM-540B(得分为 56.5 和 8.8)与 LLaMA-65B(得分为 50.9 和 10.9)。
编程能力
方面,“书生・浦语” 在 HumanEval 和 MBPP 这两项最具代表性的考评中,分别取得 28.1 和 41.4 的得分 (其中经过在代码领域的微调后,在 HumanEval 上的得分可以提升至 45.7),明显领先于 PaLM-540B(得分为 26.2 和 36.8)与 LLaMA-65B(得分为 23.7 和 37.7)。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...