OpenBench：大模型测试工具-开源项目-王牌分享导航-程序员必备，一站式技术学习与交流平台

开源项目

OpenBench：大模型测试工具

链接直达手机查看

OpenBench是一款大模型测试工具，开源免费，能够为各种大语言模型提供标准化和可重复的基准测试。该工具支持20多种评估套件，包括知识、推理、编程和数学等多个领域，是研究人员和开发者进行模型评估必备工具。

主要特点：

多种基准测试：提供了超过20个基准测试，包括MMLU、GPQA、HumanEval和简单问答等。这些测试可以帮助用户全面评估模型在不同任务上的表现。

简单的命令行界面：用户可以通过简单的命令行操作，如bench list、bench describe和bench eval，快速访问和运行评估程序。

快速评估：用户可以在60秒内完成模型的评估，极大地提高了工作效率。只需安装uv并设置API密钥，即可轻松运行评估。

扩展性强：允许用户轻松添加新的基准测试和评估指标，便于根据特定需求进行定制。

支持多种模型提供商：与15个以上的模型提供商兼容，包括Groq、OpenAI、Anthropic、Cohere等，用户可以根据需要选择不同的模型进行评估。