聚合AI导航网精选海量AI网站，为用户提供国内、国外知名AI网站、精品AI网站、宝藏AI网站的展现与查询，节约用户寻找AI站点的时间成本，降低认知成本，帮助用户快速查找心仪的AI目标网站。

C-Eval 是一个全面的中文基础模型评估套件，由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月份联合推出。它旨在评估大规模语言模型（LLM）的知识和推理能力，包含13948个多项选择题，涵盖了52个不同的学科和四个难度级别：初中、高中、大学和专业。 C-Eval的核心特点在于其多层次多学科的设计，能够全面评估大模型的语言理解、生成能力和逻辑推理等多维度性能。此外，C-Eval不仅用于评测模型的性能，还旨在辅助模型开发，帮助开发者科学地使用该评测工具进行模型迭代。 C-Eval是一个权威的中文AI大模型评测数据集，适用于考察大模型的知识和推理能力，并且在全球范围内具有较高的影响力。

Chatbot Arena

Chatbot Arena是由伯克利大学主导团队LMSYS Org发布的一个基准平台，用于大型语言模型（LLM）的对抗评测。该平台采用匿名和随机的方式，让不同的大型模型进行对抗评测，并通过众包方式收集用户反馈和评分。Chatbot Arena使用Elo评分系统，这是一种在国际象棋等竞技游戏中广泛使用的评分方法，以确保评测的客观性和公正性。 Chatbot Arena不仅是一个评测平台，还提供了一个开放的社区驱动的环境，用户可以通过投票来评估不同模型的表现。此外，该平台还支持多模态评测，允许用户与视觉-语言模型进行交互并进行比较。总的来说，Chatbot Arena已成为全球业界公认的基准标杆，广泛应用于大型语言模型的开发和评估。

MMBench

MMBench 是一个多模态基准测试平台，旨在评估和比较不同多模态模型在语言理解、视觉理解和联合理解任务上的性能。它由上海人工智能实验室、南洋理工大学、中国香港中文大学、新加坡国立大学和浙江大学的研究人员共同开发，提供了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖了20项细粒度能力。 MMBench的评测数据集包含约3000道单项选择题，这些题目从互联网公开信息与权威基准数据集中精心挑选而来，涵盖了目标检测、文字识别、动作识别、图像理解、关系推理等多个维度。此外，MMBench还引入了一种新颖的CircularEval策略，并结合了多种评估指标和基准数据集，帮助用户全面了解和比较不同模型的性能。 MMBench不仅适用于多模态模型的研究和开发领域，还为研究人员提供了丰富的评估工具和数据资源，以促进多模态大模型的发展。

MMLU Benchmark

MMLU Benchmark （Massive Multitask Language Understanding）是一个用于评估多任务语言理解模型性能的基准测试。它通过提供多个语言理解任务和模型对比，适用于各种需要进行多任务语言理解的场景。该基准测试覆盖了57个主题，包括STEM、人文学科、社会科学等领域。MMLU Benchmark旨在衡量模型在零样本（zero-shot）和少样本（few-shot）设置下的多任务能力，并通过统一的评估框架来全面评估语言模型的整体性能。此外，MMLU Benchmark包含一个包含15908个问题的数据集，分为几组开发集、验证集和测试集，以测量文本模型在不同任务中的多任务准确率。这个基准测试不仅用于评估模型的知识水平，还强调模型在理解和生成语言方面的能力，涵盖机器翻译、文本摘要和情感分析等多种任务。

SuperCLUE

SuperCLUE（中文通用大模型综合性测评基准），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。

相关导航