+
78
-

回答

当前大模型评测领域主要分为人类主观评估自动化客观测试两大流派,以下是目前业内公认最权威的几个排行榜:

LMSYS Chatbot Arena(竞技场): 目前含金量最高的榜单。采用盲测机制,用户对两个匿名模型的回答进行投票,通过 Elo 积分系统排名。它最能反映模型在真实对话场景下的逻辑与体验,是闭源(GPT-4, Claude 3)与开源模型正面硬刚的战场。

Hugging Face Open LLM Leaderboard: 开源模型的风向标。它使用 MMLU(多学科知识)、GSM8K(数学)等标准化数据集进行自动化测试。最近更新了 v2 版本以应对“刷榜”问题,增加了测试难度,是开发者挑选 Llama 3、Qwen 等开源基座的首选参考。

C-Eval / CMMLU: 针对中文能力的权威测试。它们包含大量中国文化、数理化及专业资格考试题目,能精准评估模型对中文语境、逻辑及本土知识的掌握程度。

Stanford HELM: 斯坦福大学推出的整体性评估,不仅看准确率,还关注公平性、偏见和毒性,学术严谨度极高。

建议: 选型时,应用侧重体验看 Arena,研发侧重能力看 Hugging Face,中文业务必看 C-Eval

网友回复

我知道答案,我要回答