智源研究院联合多个高校团队，共同打造了一款名为“FlagEval（天秤）”的AI评测平台，该平台致力于为AI研究者和开发者提供全面、细致的评测结果。FlagEval采用了独特的“能力—任务—指标”三维评测框架，不仅对AI模型的任务执行能力进行评估，同时还对其具体的执行任务和达成目标的效率进行衡量。

智源研究院联合多高校打造AI评测平台—FlagEval

「FlagEval」- 智源研究院联合高校打造的AI评测平台

在人工智能的发展过程中，评测一直是一个重要的环节，可以帮助我们了解模型的性能和应用能力。近日，智源研究院联合多个高校团队，共同打造了一款名为“FlagEval（天秤）”的AI评测平台，该平台致力于为AI研究者和开发者提供全面、细致的评测结果。

FlagEval的三维评测框架

FlagEval采用了独特的“能力—任务—指标”三维评测框架，意味着它不仅对AI模型的任务执行能力进行评估，同时还对其具体的执行任务和达成目标的效率进行衡量。

在能力维度上，FlagEval已经提供了30多种能力的评测，这些能力涵盖了AI模型的基本技能，如知识理解、逻辑推理等，可以帮助用户全面了解AI模型的能力水平。

在任务维度上，FlagEval包括了22个主客观评测数据集和超过8万道题目，这些丰富的题目可以帮助用户了解AI模型在处理不同类型任务时的表现。

在指标维度上，FlagEval包括了4大类指标，这些指标可以帮助用户了解AI模型在执行任务过程中的效率和准确性。

FlagEval不仅提供了全面的评测维度，而且提供了细致的评测结果，让用户能够从多个角度了解AI模型的性能。这样的评测方式，不仅可以帮助AI研究者和开发者更好地理解和改进自己的模型，也可以帮助用户更好地选择和使用AI产品。

总的来说，FlagEval是一个具有广泛应用价值的AI评测平台，它的出现将为AI的发展提供更多的可能性。