OpenAI HealthBench:革新AI医疗大模型评估标准
OpenAI HealthBench:革新AI医疗大模型评估标准
未知变量AI 赋能医疗新篇章:OpenAI HealthBench 引领大模型评估革新
人工智能(AI)在提升人类福祉方面肩负着重要使命,其中,改善医疗健康是其核心目标之一。大型语言模型(LLM)若能得到审慎的开发与有效的部署,无疑将为医疗健康领域带来革命性的变化:它们不仅能拓宽健康信息的传播路径,让更多人受益,还能辅助临床医生提升诊疗服务质量,并赋能个体与社区更好地进行健康管理。
然而,要将这一美好愿景变为现实,科学家们必须确保这些AI模型在实际应用中既高效实用,又绝对安全。因此,建立科学的评估测试体系,用以衡量模型在真实医疗场景下的表现,就显得至关重要。尽管学术界和产业界已在此方向投入巨量心血,但现行的多数评估基准,在模拟真实医疗环境的复杂性方面仍显不足,尤其在采纳和验证资深医学专家的意见方面存在短板,这无疑限制了模型进一步优化的空间和潜力。
HealthBench:专为医疗场景打造的评估利器
针对这一挑战,OpenAI 的 Health AI 团队最近推出了一项名为 HealthBench 的开源基准测试项目。该项目致力于精准评估大型语言模型在医疗健康领域的综合性能与安全性。值得一提的是,HealthBench 的构建过程汇聚了全球智慧:它是由来自 60个国家和地区的262位执业医师 深度参与合作完成的。其核心数据集包含了 5,000段真实的健康相关对话,并且每一段对话都配备了由医生亲自制定的个性化评分标准,用以细致评估模型生成的回应质量。
图示:参与HealthBench项目的医生遍布全球多个国家与地区。(来源:官网)
相较于以往常见的基于多项选择题或简短问答的基准测试,HealthBench 采用了更为贴近真实诊疗情境的开放式评估方法。它依托高达 48,562个独特的评分标准,全面考察模型在多样化的健康场景中的表现,这些场景包括但不限于紧急状况应对、临床数据解读与转换、以及全球健康议题等。同时,评估也覆盖了多个关键的行为维度,如信息的准确性、对指令的遵循程度以及沟通质量等。
图示:HealthBench 评估样例,包含一段模拟对话及医生为此对话量身定制的评分细则。基于模型的评分器将依据这些细则对AI的回答进行打分。(来源:论文)
关于 HealthBench 的详细技术论文预印本已公开发布,可供查阅:
论文链接: https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
模型表现洞察:持续进步与关键突破
研究团队运用 HealthBench 对 OpenAI 历史上发布的多款模型进行了评估。结果揭示:
- 早期模型(如GPT-3.5 Turbo)的性能增长相对平缓,其得分为16%。
- GPT-4o 的得分则提升至32%。
- 近期模型(如o3)则展现出更为迅猛的性能飞跃,达到了60%的得分。
尤其值得关注的是,小型模型也展现出惊人的潜力:其中 GPT-4.1 nano 在性能上甚至超越了2024年8月发布的GPT-4o模型,而其运行成本却大幅降低了25倍之多,这为经济高效的医疗AI应用开辟了新的可能性。
图示:不同模型系列在HealthBench上的得分与其对应的成本比较。(来源:论文)
研究人员还比较了 o3、o4-mini 和 o1 这三款模型在低、中、高不同推理能力设定下的测试计算性能。结果显示,这三款模型在测试时的计算效率均有显著提升。这一发现预示着,推理模型在未来数月内,其性能有望获得进一步的增强。
图示:在 k 个样本测试中,模型在HealthBench上的最差表现得分情况。(来源:官网)
可靠性:医疗AI的生命线
OpenAI团队还着重展示了如何利用HealthBench来评估模型的可靠性。
“在医疗健康领域,可靠性是压倒一切的关键因素——一次糟糕的、不准确的回应,其负面影响足以抵消多次良好表现带来的益处。我们在HealthBench上专门测量了模型在k个样本中的最差表现(worst-case performance)。结果发现,o3模型在16个样本测试中的最差得分,是GPT-4o模型的两倍以上。” 研究人员在其官方博客中强调。
HealthBench细分版本:应对不同评估需求
为了更精细化地评估和推动模型发展,团队特别发布了 HealthBench 的两个特定版本:
HealthBench Consensus:
- 包含 3,671个 HealthBench 样本。
- 其评分标准经过了更为严格的筛选和多重医生共识验证——只有当绝大多数参与评估的医生都认同某项标准适用于特定样本时,该标准才会被采纳。
- 此版本的设计目标是将模型的错误率降至近乎为零的水平,追求极致的准确性与安全性。
HealthBench Hard:
- 精选了HealthBench中 1,000个 对当前最先进模型而言也极具挑战性的样本。
- 目前,即便是顶尖模型在此子集上的最高得分也仅为 32%。
- 研究人员希望通过这个“高难度”版本的基准测试,收集宝贵的反馈,从而在后续研究中针对性地提升模型处理复杂和疑难问题的能力。
图示:当前模型在 HealthBench Hard 子集上的得分情况。(来源:官网)
评估体系的可信度验证
为了验证其基于模型的自动化评分系统是否能有效、客观地评估各项评分标准,OpenAI团队进行了一项特殊的“元评估”(meta-evaluation)。他们邀请了一组医生,对HealthBench Consensus中的模型回应进行人工审查,判断这些回应是否符合预设的评分标准。
随后,研究人员将基于模型的评分结果与医生的判断进行了对比。评估的核心在于两个方面:
- 自动化评分系统与医生意见的一致性频率。
- 不同医生之间意见的一致性频率(作为参照基线)。
结果令人鼓舞:模型与医生之间的成对一致性,与医生个体之间(即人与人之间)的成对一致性水平相当接近。
图示:在HealthBench Consensus上,模型-医生间以及医生-医生间的评估一致性对比。(来源:论文)
该研究的主要负责人 Karan Singhal 在社交媒体上表示:
“我们坚信,健康领域的评估体系必须是值得信赖的。通过测量基于模型的评分系统与医生在HealthBench Consensus上的评分之间的一致性,我们发现,在7个评估领域中的6个,模型的评分结果与医生评分的中位数保持一致。这充分表明HealthBench的评分机制与医生的专业判断是高度吻合的。”
展望未来:道阻且长,行则将至
OpenAI团队在其博文中总结道:
“像HealthBench这样的基准测试,是我们持续探索模型在高风险、高影响领域行为表现,并确保科研进展能够真正惠及现实世界的关键一环。我们的研究结果清晰地表明,大型语言模型在过去一段时间里已经取得了显著的进步,并且在我们基准测试的许多案例中,其回应质量已经超越了人类专家。然而,即便如此,即使是目前最先进的系统,也仍有广阔的改进空间,特别是在理解和处理信息不充分的模糊查询,以及在最坏情况下的可靠性保障方面。我们热切期待在未来分享更多新模型的评估成果。”
目前,HealthBench 完整的评估套件及其相关的底层数据集,均已在 GitHub 代码库中完全开源,供全球的研究者和开发者使用。
开源链接: https://github.com/openai/simple-evals
相关资源:
- OpenAI官方博客文章: https://openai.com/index/healthbench/
- Karan Singhal的推文: https://x.com/thekaransinghal/status/1921996747947311587








