聚合AI导航网精选海量AI网站，为用户提供国内、国外知名AI网站、精品AI网站、宝藏AI网站的展现与查询，节约用户寻找AI站点的时间成本，降低认知成本，帮助用户快速查找心仪的AI目标网站。

AI测评

Open LLM Leaderboard

Open LLM Leaderboard 是由Hugging Face推出的一个平台，用于追踪和排名开源大型语言模型（LLMs）和聊天机器人。该排行榜基于多个基准测试，包括ARC、HellaSwag和MMLU等，并允许用户根据模型类型、精度、架构等选项进行过滤。此外，Open LLM Leaderboard还引入了开放式问题评估方法，以消除传统选择题中的固有偏见和随机猜测。该排行榜不仅提供了一个清晰、客观的模型性能评估标准，还通过严格的基准测试和公平的评分系统，反映了不同LLMs的真实能力。用户可以在Hugging Face平台上访问和使用这个排行榜，以便更好地了解当前大模型的发展状况并进行优化。

链接直达手机查看

相关导航

SuperCLUE

SuperCLUE（中文通用大模型综合性测评基准），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。

FlagEval

FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用 AI 方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）创新构建了“能力 - 任务 - 指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具，并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调 / 压缩算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频须（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。 FlagEval 是智源 FlagOpen 大模型开源技术体系的重要组成部分。FlagOpen 旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的“Linux”开源开放生态。

chinese-llm-benchmark

中文大模型能力评测榜单：目前已囊括115个大模型，覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型，以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型，多维度能力评测。不仅提供能力评分排行榜，也提供所有模型的原始输出结果！

CMMLU

CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

PubMedQA

PubMedQA 是一个生物医学研究问答（QA）数据集，旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来，包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题，例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。此外，PubMedQA是第一个需要对生物医学研究文本进行推理，特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出，并在2019年的会议论文集中发表。

MMBench

MMBench 是一个多模态基准测试平台，旨在评估和比较不同多模态模型在语言理解、视觉理解和联合理解任务上的性能。它由上海人工智能实验室、南洋理工大学、中国香港中文大学、新加坡国立大学和浙江大学的研究人员共同开发，提供了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖了20项细粒度能力。 MMBench的评测数据集包含约3000道单项选择题，这些题目从互联网公开信息与权威基准数据集中精心挑选而来，涵盖了目标检测、文字识别、动作识别、图像理解、关系推理等多个维度。此外，MMBench还引入了一种新颖的CircularEval策略，并结合了多种评估指标和基准数据集，帮助用户全面了解和比较不同模型的性能。 MMBench不仅适用于多模态模型的研究和开发领域，还为研究人员提供了丰富的评估工具和数据资源，以促进多模态大模型的发展。