LifeSciBench 发布：评估 AI 真实生命科学研究能力的新基准

LifeSciBench 的引入背景

随着代理 AI 系统在执行科学任务方面能力的不断增强，它们对生命科学研究者的实际价值取决于能否应对真实研究的复杂性。这种工作很少像单个事实回忆问题或干净的预测问题那样简单。研究者需要解释不完整的证据、调和矛盾的结果、设计困难的实验、故障排除分析、评估转化风险，并在不确定性下决定下一步行动。然而，当前的基准往往无法全面捕捉这些能力。许多生命科学评估专注于狭窄领域或孤立技能，导致问题结构化、参考答案干净。虽然有价值，但它们常常未能真正评估模型能否在更广泛的研究工作中做出贡献。

为了解决这一缺口，OpenAI 设计了 LifeSciBench。这个基准由具有博士级训练和生物技术或制药行业直接经验的生命科学专家编写和评审，旨在评估 AI 系统是否能够支持现实的研究任务，而不仅仅是回答生物学问题。

LifeSciBench 的构成与统计

LifeSciBench 包括 750 个专家编写的任务，覆盖七个工作流程和七个生物领域。以下是关键统计数据：

1,062 个任务工件
173 位科学家贡献者
19,020 个评分标准
453 位专家评审员

这些数据体现了基准的广泛性和专家参与的深度，确保了评估的科学严谨性。

评估内容与类别

LifeSciBench 定义了七个核心评估类别，反映了应用研究环境中最常用的工作流程。这些类别包括：

证据处理：从论文、图表、表格和实验记录中提取、调和和审计科学证据。
分析：进行数据解读和推理。
设计和优化：设计实验或流程。
科学推理：基于领域知识做出判断。
验证和运营：执行验证和操作任务。
翻译：将研究成果转化为应用。
科学沟通：撰写报告或沟通结论。

每个任务都模拟了科学家可能向知识渊博的合作者提出的请求，包括科学提示、相关上下文或工件，以及自由回答的答案。

任务结构与设计

LifeSciBench 的任务旨在反映生命科学工作的复杂性。总体而言，79% 的任务需要多个推理或决策步骤，平均每任务有四个步骤。基准包括 1,062 个附带工件，如图表、PDF、表格、序列文件、结构或化学文件以及网络参考。超过一半的任务（53%）要求模型解释或综合至少一个工件的信息。

任务由 173 位来自不同生命科学学科的专家科学家创建，每位科学家都具有博士级训练和行业经验。任务在被接受前可能经历多轮修订，平均有六轮自动审查和至少两轮专家审查。审查基于可验证的正确答案或强专家共识，相关领域评审员同意率至少为 90%。这确保了任务科学基础扎实、清晰可评，并代表应用研究。

评分与标准

LifeSciBench 任务使用详细、任务特定的评分标准进行评分，将预期响应分解为具体的科学主张、计算、决策和理由。整个基准中，专家开发的评分标准包括 19,020 个标准，平均每任务 25 个，以评估科学正确性和对研究决策的实用性。

这种设计反映了科学工作的实际评估方式：许多生命科学任务不能仅通过检查最终答案来评分。响应可能得出正确的高级结论，但如果忽略了关键分析限制或未能主动提出重要生物细微差别，仍会被视为不完整。相反，部分响应可能包含高质量推理，即使未完全解决问题。细粒度的评分标准捕捉了这种细微差别，评估模型是否以科学有效和操作有用的方式得出答案。

评估示例简介

基准中包含评估示例，例如一个关于 AAV9 基因治疗药物的 FDA 会议评估案例。示例要求模型对给定数据包进行压力测试，指出证据不足之处，并提出所需额外数据。这展示了基准如何评估模型处理真实研究决策的能力，包括科学推理和不确定性管理。示例涉及临床数据解读、统计方法评估和机制研究需求，体现了任务的实际应用性。

来源与更多信息

本文基于 OpenAI 的官方资料编写。如需了解更多详情，请访问原文链接：https://openai.com/index/introducing-life-sci-bench。