聚合AI导航网精选海量AI网站，为用户提供国内、国外知名AI网站、精品AI网站、宝藏AI网站的展现与查询，节约用户寻找AI站点的时间成本，降低认知成本，帮助用户快速查找心仪的AI目标网站。

AI测评

PubMedQA

PubMedQA 是一个生物医学研究问答（QA）数据集，旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来，包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题，例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。此外，PubMedQA是第一个需要对生物医学研究文本进行推理，特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出，并在2019年的会议论文集中发表。

链接直达手机查看

相关导航

SuperGLUE

SuperGLUE 是一个用于评估自然语言处理（NLP）模型性能的基准任务集合。它包含了多个任务，每个任务都有不同的输入和输出要求。SuperGLUE的目标是提供一个更全面和挑战性的测试集，以便更好地评估NLP模型的能力。该基准数据集旨在对语言理解进行比GLUE更严格的测试，提供一个简单的、难以玩游戏的方法来衡量英语通用语言理解技术的进步。

CMMLU

CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

HELM

Holistic Evaluation of Language Models (HELM) 是由斯坦福大学推出的一个综合评估语言模型的平台，旨在提高语言模型的透明度和全面性。HELM 通过多维度的评估方法，涵盖多个不同的自然语言处理任务，如文本分类、命名实体识别和关系抽取等。该评测体系包括场景、适配和指标三个模块，能够为大型语言模型提供全面的质量评估。 HELM 的主要目标是通过标准化评估方法和广泛的覆盖范围，帮助用户了解和选择适合自己需求的语言模型。它采用多指标测量方法，并实现标准化，从而对众多语言模型进行评估。此外，HELM 还提供了一个统一的 API，使得研究人员可以方便地访问和测试不同的语言模型。总之，HELM 是一个先进的语言模型评估框架，通过多维度的评估方法和广泛的覆盖范围，全面了解和提升语言模型的性能和透明度。

Chatbot Arena

Chatbot Arena是由伯克利大学主导团队LMSYS Org发布的一个基准平台，用于大型语言模型（LLM）的对抗评测。该平台采用匿名和随机的方式，让不同的大型模型进行对抗评测，并通过众包方式收集用户反馈和评分。Chatbot Arena使用Elo评分系统，这是一种在国际象棋等竞技游戏中广泛使用的评分方法，以确保评测的客观性和公正性。 Chatbot Arena不仅是一个评测平台，还提供了一个开放的社区驱动的环境，用户可以通过投票来评估不同模型的表现。此外，该平台还支持多模态评测，允许用户与视觉-语言模型进行交互并进行比较。总的来说，Chatbot Arena已成为全球业界公认的基准标杆，广泛应用于大型语言模型的开发和评估。