MMBench官网 MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分…
OpenCompass官网 OpenCompass是由上海人工智能实验室(上海AI实验室、于2023年8月正式…
LLMEval3官网 LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦…
FlagEval官网 FlagEval(天秤、由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标…
CMMLU官网 CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了…
SuperCLUE官网 SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力…
HELM官网 HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测…
MMLU官网 MMLU 全称 Massive Multitask Language Understanding…
Open LLM Leaderboard官网 Open LLM Leaderboard 是最大的大模型和数据集…
H2O EvalGPT官网 H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具…