AI测评
MMBench
MMBench 是一个多模态基准测试平台,旨在评估和比较不同多模态模型在语言理解、视觉理解和联合理解任务上的性能。它由上海人工智能实验室、南洋理工大学、中国香港中文大学、新加坡国立大学和浙江大学的研究人员共同开发,提供了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖了20项细粒度能力。 MMBench的评测数据集包含约3000道单项选择题,这些题目从互联网公开信息与权威基准数据集中精心挑选而来,涵盖了目标检测、文字识别、动作识别、图像理解、关系推理等多个维度。此外,MMBench还引入了一种新颖的CircularEval策略,并结合了多种评估指标和基准数据集,帮助用户全面了解和比较不同模型的性能。 MMBench不仅适用于多模态模型的研究和开发领域,还为研究人员提供了丰富的评估工具和数据资源,以促进多模态大模型的发展。
MMBench 是一个多模态基准测试平台,旨在评估和比较不同多模态模型在语言理解、视觉理解和联合理解任务上的性能。它由上海人工智能实验室、南洋理工大学、中国香港中文大学、新加坡国立大学和浙江大学的研究人员共同开发,提供了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖了20项细粒度能力。 MMBench的评测数据集包含约3000道单项选择题,这些题目从互联网公开信息与权威基准数据集中精心挑选而来,涵盖了目标检测、文字识别、动作识别、图像理解、关系推理等多个维度。此外,MMBench还引入了一种新颖的CircularEval策略,并结合了多种评估指标和基准数据集,帮助用户全面了解和比较不同模型的性能。 MMBench不仅适用于多模态模型的研究和开发领域,还为研究人员提供了丰富的评估工具和数据资源,以促进多模态大模型的发展。
OpenCompass 是一个由上海人工智能实验室发布的开源大模型评测平台,旨在提供公平、公开和可复现的大模型评测方案。它构建了一个包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,能够全面评估大模型的能力。此外,OpenCompass还支持多模态模型的评测,并定期公布评测结果。 OpenCompass不仅支持多种先进的自然语言处理模型,如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等,还整合了丰富的数据集和问题库,提供了70多个数据集和约40万个问题的模型评估方案。它的评测系统设计灵活,用户可以根据需要增加新模型或数据集,甚至自定义更高级的任务分割策略。 OpenCompass已经成为目前权威的大型模型评估平台,广泛应用于大语言模型和多模态模型的评测中。