🎯 LLM评测
1. Open LLM Leaderboard(英文)
Open LLM Leaderboard中包含有下列Benchmark:
所有能力
- 通用&数学&code——MT-Bench,由80个高质量的多轮对话问题组成的基准,旨在测试多轮对话和指令遵循能力,共包含8个常见的用户提示类别:writing 写作、roleplay 角色扮演、extraction 提取、reasoning 推理、math 数学、coding 编程、知识I(stem)和 知识II(humanities 人文/社会科学)。对于每个类别,手动设计了10个多轮的问题,每一轮有2个问题。
通用能力
-
通用&指令遵循——IFEval (Instruction-Following Evaluation) 是一个用于评估大型语言模型 (LLMs) 在遵循自然语言指令方面能力的基准测试。它通过一系列模拟真实世界应用的任务来测试模型的能力,包括回答问题、执行操作或根据特定指南生成内容。数据集包含 500 多个提示,每个提示包含一个或多个可验证的指令,例如“写一篇超过 800 字的文章”或“在响应中至少提到 3 次 AI 关键词”。
-
通用&推理——BBH (BIG-Bench Hard) 是 BIG-Bench 的一个子集,包含 23 个具有挑战性的任务,这些任务通常需要多步骤推理,因此CoT或者PoT对它很有效。Big-Bench 目前包括 204 项任务,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。
-
通用&推理——MuSR (Multistep Soft Reasoning) 是一个新的数据集,专门设计用于评估 LLMs 在需要多步骤、常识推理的任务上的能力,如谋杀悬疑案件。目的:测试 chain-of-thought 等技术在复杂推理场景中的极限表现。
-
通用——GPQA 该数据集包含由生物学、物理学和化学领域的专家撰写的448道多项选择题。这些问题的难度非常高,即使是对应领域的专家解答正确率也只有65%,而在允许使用互联网的情况下,非专家验证者的平均正确率仅为34%。使用 GPT-4 作为基准的 AI 系统的正确率有39%。
-
通用——MMLU (Massive Multitask Language Understanding,大规模多任务语言理解,选择题)零样本/少样本。该基准涵盖了57个科目,包括STEM(科学、技术、工程、数学)、人文科学、社会科学等领域。它的难度从初级水平到高级专业水平不等,测试的内容既涵盖世界知识,又涉及问题解决能力。科目涵盖传统领域(如数学和历史)以及更专业的领域,如法律和伦理学。
数学能力
- 数学——MATH 数据集是一个包含12,500个具有挑战性的数学竞赛问题的数据集。每个问题都附有详细的逐步解决方案,这些解决方案可以用于训练模型生成答案推导和解释。
2. 其他英文Benchmark
通用能力
- 通用——TruthfulQA 包含817个问题,涵盖38个类别,包括健康、法律、金融和政治等领域。目的是测试语言模型的真实性,问题设计使得一些人可能会因错误信念或误解而给出虚假答案。任务类型包括生成任务:要求模型生成1-2句话的回答。和多项选择任务:包括单一正确答案(MC1)和多个正确答案(MC2)两种形式。
数学能力
- 数学——GSM8K 是一个高质量的英文小学数学问题数据集,包含 7.5K 训练数据和 1K 测试数据。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。这些问题通常需要2-8步才能解决,有效评估了数学与逻辑能力。
Code能力
- HumanEval 是openai提出的用于评估模型根据给定提示(通常是文档字符串)生成功能正确代码的能力。它包含164个人工设计的Python编程挑战,每个挑战包括函数签名 function signature、文档字符串 docstring、函数体、和几个单元测试(平均每个问题7.7个测试)。该基准使用pass@k指标,即生成k个不同的解决方案,如果任何解决方案通过所有单元测试,则认为模型解决了该问题。因此HumanEval并不能捕捉代码模型潜在应用的所有方面,如代码解释、文档字符串生成、代码填充和编写测试等。
RAG 能力
- MultiHop-RAG 评估RAG系统在跨文档检索和推理方面的能力。共有2556个query,每个query需要2~4个文档。
指令遵循能力
开头介绍的 IFEval,和这里的 AlpacaEval,MixEval。这3个基准衡量遵循指令的能力,并与 LMSYS 聊天机器人竞技场的相关性较高。
- AlpacaEval:由 OpenAI 提出,对模型的输出与GPT4等比较展示胜率。关心以下3方面:
- 多样性(Diversity):模型生成文本的多样性,避免单一或刻板的输出。
- 一致性(Consistency):评估模型在处理相似输入时生成的输出是否一致。
- 相关性(Relevance): 衡量生成文本与输入之间的语义相关性。
- MixEval:由NUS大学提出。query来源于真实用户查询。会动态更新以避免污染。
3. 中文 Benchmark
-
通用&数学&code——OpenCompass 司南,会分中文榜单和英文榜单。是多个数据集的结合,划分了LLM的语言、知识、推理、数学、Code、Agent几类能力。
-
通用——CMMLU 包含11,528个问题,涵盖67个主题,从基础学科到高级专业水平
主题包括自然科学、人文科学、社会科学和生活常识等,多为中国特定的问题和答案,体现中国文化和语言特色;也包括需要计算和推理的自然科学题目。每个问题是一个多项选择题,有4个选项,只有一个正确答案。 -
通用——C-Eval (Chinese Evaluation Suite) 是一个综合性的中文评估基准数据集,反映中国特定的知识和文化背景,包含13,948个多项选择题,涵盖中国语言文学、计算机网络、法律等52个不同学科,分为4个难度级别。每个学科包含开发集(dev)、验证集(val)和测试集(test)。开发集每个学科包含5个带解释的示例,用于少样本评估;验证集用于超参数调优;测试集用于模型评估,标签未公开。提供了chain-of-thought 提示模板。
4. 分析示例
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。
但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。