AI模型评测 - 微草网络

微草AIGC录 MMBench

MMBench官网 MMBench是一个多模态基准测试，该体系开发了一个综合评估流程，从感知到认知能力逐级细分…

OpenCompass官网 OpenCompass是由上海人工智能实验室（上海AI实验室、于2023年8月正式…

LLMEval3官网 LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦…

FlagEval官网 FlagEval（天秤、由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标…

CMMLU官网 CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了…

SuperCLUE官网 SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力…

HELM官网 HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测…

MMLU官网 MMLU 全称 Massive Multitask Language Understanding…

Open LLM Leaderboard官网 Open LLM Leaderboard 是最大的大模型和数据集…

H2O EvalGPT官网 H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具…