「MMBench」- 一种全新的人工智能模型评估工具

这篇文章主要介绍了由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出的多模态基准测试MMBench。MMBench的开发团队独创了一种综合评估流程,覆盖了20项细粒度能力。MMBench的特性和优势主要体现在细粒度评估、鲁棒性评估和可靠的输出提取三个方面。

AI产品分析:MMBench多模态基准测试

「MMBench」- 一种全新的人工智能模型评估工具

近年来,人工智能技术在各个领域都取得了显著的进展,其中,多模态基准测试是其中的一个重要领域。MMBench,作为一个由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出的多模态基准测试,为我们提供了一个全新的评估视角。

MMBench的开发团队独创了一种综合评估流程,从感知到认知能力逐级细分,覆盖了20项细粒度能力。相比于传统的一问一答式评估,MMBench采用了循环打乱选项、基于ChatGPT精准匹配模型回复至选项等一系列创新评估方式,为我们提供了更为全面、准确的评估结果。

MMBench的特性和优势

MMBench的特性和优势主要体现在以下三个方面:

  1. 细粒度评估:MMBench基于感知与推理,将评估维度逐级细分,通过约3000道单项选择题,覆盖了目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。这种细粒度的评估方式,可以帮助我们更为准确地了解模型在各个方面的表现。
  2. 鲁棒性评估:MMBench采用了一种循环选项提问的方式进行评估。在同一问题中,只有当模型的输出结果全部指向同一答案时,才认定为通过。这种方式相比于传统的一次性通过评估,top-1准确率平均下降了10%~20%,最大程度地减少了各种噪声因素对评测结果的影响,保证了结果的可复现性。
  3. 可靠的输出提取:MMBench采用了基于ChatGPT匹配模型的输出提取方法,即使模型未按照指令输出,也能够准确地匹配至最合理的选项,保证了评测结果的准确性。

MMBench的应用前景

MMBench的出现,为我们提供了一个全新的、更为准确的AI模型评估方式。在未来,我们有理由相信,MMBench将在人工智能评估领域发挥更大的作用,推动AI技术的进一步发展。

给TA打赏
共{{data.count}}人
人已打赏
AI模型评测

「H2O EvalGPT」- 专业的大语言模型评估工具

2024-4-2 17:36:52

AI模型评测

「HELM」- 斯坦福大学推出的全新语言模型评测体系

2024-4-2 17:40:24

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索