「MMBench」- 一种全新的人工智能模型评估工具

隔壁老傅

这篇文章主要介绍了由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出的多模态基准测试MMBench。MMBench的开发团队独创了一种综合评估流程，覆盖了20项细粒度能力。MMBench的特性和优势主要体现在细粒度评估、鲁棒性评估和可靠的输出提取三个方面。

AI产品分析：MMBench多模态基准测试

「MMBench」- 一种全新的人工智能模型评估工具

近年来，人工智能技术在各个领域都取得了显著的进展，其中，多模态基准测试是其中的一个重要领域。MMBench，作为一个由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出的多模态基准测试，为我们提供了一个全新的评估视角。

MMBench的开发团队独创了一种综合评估流程，从感知到认知能力逐级细分，覆盖了20项细粒度能力。相比于传统的一问一答式评估，MMBench采用了循环打乱选项、基于ChatGPT精准匹配模型回复至选项等一系列创新评估方式，为我们提供了更为全面、准确的评估结果。

MMBench的特性和优势

MMBench的特性和优势主要体现在以下三个方面：

细粒度评估：MMBench基于感知与推理，将评估维度逐级细分，通过约3000道单项选择题，覆盖了目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。这种细粒度的评估方式，可以帮助我们更为准确地了解模型在各个方面的表现。
鲁棒性评估：MMBench采用了一种循环选项提问的方式进行评估。在同一问题中，只有当模型的输出结果全部指向同一答案时，才认定为通过。这种方式相比于传统的一次性通过评估，top-1准确率平均下降了10%~20%，最大程度地减少了各种噪声因素对评测结果的影响，保证了结果的可复现性。
可靠的输出提取：MMBench采用了基于ChatGPT匹配模型的输出提取方法，即使模型未按照指令输出，也能够准确地匹配至最合理的选项，保证了评测结果的准确性。

MMBench的应用前景

MMBench的出现，为我们提供了一个全新的、更为准确的AI模型评估方式。在未来，我们有理由相信，MMBench将在人工智能评估领域发挥更大的作用，推动AI技术的进一步发展。

给TA打赏

共{{data.count}}人

人已打赏

「H2O EvalGPT」- 专业的大语言模型评估工具

2024-4-2 17:36:52

「HELM」- 斯坦福大学推出的全新语言模型评测体系

2024-4-2 17:40:24

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部