AI测评 PubMedQA
PubMedQA 是一个生物医学研究问答(QA)数据集,旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来,包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题,例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。 此外,PubMedQA是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出,并在2019年的会议论文集中发表。
PubMedQA 是一个生物医学研究问答(QA)数据集,旨在通过相应的摘要以是/否/可能的方式回答研究问题。该数据集从PubMed摘要中收集而来,包含了1K个专家标注的问题、61.2K个未标注的问题和211.3K个人工生成的QA实例。PubMedQA的任务是使用这些摘要来回答研究问题,例如术前他汀类药物是否能减少冠状动脉旁路移植术后的心房颤动。 此外,PubMedQA是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。该数据集由匹兹堡大学和卡内基梅隆大学等机构提出,并在2019年的会议论文集中发表。
SuperGLUE 是一个用于评估自然语言处理(NLP)模型性能的基准任务集合。它包含了多个任务,每个任务都有不同的输入和输出要求。SuperGLUE的目标是提供一个更全面和挑战性的测试集,以便更好地评估NLP模型的能力。该基准数据集旨在对语言理解进行比GLUE更严格的测试,提供一个简单的、难以玩游戏的方法来衡量英语通用语言理解技术的进步。