Med-PaLM；Med-PaLM2

Med-PaLM

原链接：https://zhuanlan.zhihu.com/p/615828955

Med-PaLM2

Google latest health AI research updates：

https://blog.google/technology/health/ai-llm-medpalm-research-thecheckup/

去年，Google建立了Med-PaLM [1]（Leo Zhang：当机器成为我们的医生，在AI时代，基础模型(foundation model)助力医生与患者），一个为医疗领域Fine Tuning的PaLM版本。Med-PaLM是第一个在美国医学执照式问题上获得 "合格分数"（>60%）的模型。这个模型不仅准确地回答了多项选择题和开放式问题，而且还提供了理由并评估了自己的回答。

最近，Med-PaLM的下一个迭代，Med-PaLM 2 [2]，在医学考试问题上持续表现出 "专家 "医生水平，得分达到85%。这比Med-PaLM之前的表现提高了18%，远远超过了类似的人工智能模型。

虽然这是令人振奋的进展，但仍有许多工作要做，以确保这项技术能够在现实世界中发挥作用。我们的模型根据14个标准进行了测试--包括科学事实性、精确性、医学共识、推理、偏见和伤害--并由来自不同背景和国家的临床医生和非临床医生进行了评估。通过这一评估，我们发现与标准答案存在重大差距，并了解这项技术如何能够帮助改善健康服务。

GPT-4在医学挑战问题上的能力

Capabilities of GPT-4 on Medical Challenge Problems

Mar 2023

Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz

[Microsoft, OpenAI]

https://arxiv.org/abs/2303.13375

大型语言模型（LLM）在包括医学在内的各个领域的自然语言理解和生成方面表现出了非凡的能力。我们在医学能力考试和基准数据集上对GPT-4这一最先进的LLM进行了全面评估。GPT-4是一种通用模型，不是专门通过训练来解决医学问题，也不是专门为解决临床任务而设计的。我们的分析涵盖了USMLE的两套官方实践材料，USMLE是一个三步考试计划，用于评估美国的临床能力和授予许可证。我们还评估了MultiMedQA基准数据集套件的性能。除了测量模型性能外，还进行了实验来研究包含文本和图像的试题对模型性能、训练过程中内容记忆的探索以及学习概率校准的影响，这在医学等高风险应用中至关重要。我们的研究结果表明，在没有任何专门提示制作的情况下，GPT-4在USMLE上的及格分数超过了20多分，并且优于早期的通用模型（GPT-3.5）以及专门根据医学知识进行微调的模型（Med PaLM，Flan PaLM 540B的提示调整版本）。此外，GPT-4的校准效果明显优于GPT-3.5，这表明其预测答案正确可能性的能力大大提高。我们还通过一项案例研究定性地探索了模型的行为，该案例研究表明GPT-4有能力解释医学推理，向学生进行个性化解释，并围绕医学案例交互式地设计新的反事实场景。讨论了这些发现对GPT-4在医学教育、评估和临床实践中的潜在用途的影响，并适当关注准确性和安全性方面的挑战。

大语言模型编码临床医学知识

Large Language Models Encode Clinical Knowledge

Dec 2022

Karan Singhal*, Shekoofeh Azizi*, Tao Tu*, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam†, Vivek Natarajan†

[Google Research, DeepMind]

https://arxiv.org/abs/2212.13138

摘要：大型语言模型（LLM）在自然语言理解和生成方面表现出了令人印象深刻的能力，但医学和临床应用的质量标准很高。如今，评估模型临床知识的尝试通常依赖于对有限基准的自动评估。没有标准来评估各种任务中的模型预测和推理。为了解决这一问题，我们提出了MultiMedQA，这是一个基准，结合了六个现有的开放式问答数据集，涵盖专业医学考试、研究和消费者查询；以及HealthSearchQA，一个新的在线搜索医学问题的免费回答数据集。我们提出了一个框架，用于沿着多个轴对模型答案进行人类评估，包括真实性、准确性、可能的危害和偏见。此外，我们在MultiMedQA上评估了PaLM（一种5400亿参数的LLM）及其指令调优变体Flan PaLM。使用不同提示策略的组合，Flan PaLM在每个MultiMedQA多项选择数据集（MedQA、MedMCQA、PubMedQA、MMLU临床主题）上都达到了最先进的准确性，其中在MedQA（美国医学执照考试问题）上的准确性为67.6%，比以前的最先进水平高出17%以上。然而，人类评估揭示了Flan-PaLM输出的关键差距。为了解决这个问题，我们引入了指令提示调优（instruction prompt tuning），这是一种使用一些示例将LLM与新域对齐的参数高效方法。由此产生的模型Med-PaLM表现令人鼓舞，但仍不如临床医生。

我们发现，随着模型放大和指令提示微调，理解（comprehension）、知识回忆和医学推理都会提高，这表明LLM在医学中的潜在效用。我们的人类评估揭示了当今模型的重要局限性，强调了评估框架和方法开发（evaluation frameworks and method development）在为临床应用创建安全、有用的LLM模型方面的重要性。

1 引言

医学是一项人道的努力，语言使临床医生、研究人员和患者之间能够进行关键的互动。然而，今天用于医学和医疗保健的人工智能模型在很大程度上未能充分利用语言。这些模型虽然有用，但主要是单一任务系统（例如，分类、回归、分割），缺乏表现力和交互能力[21，81，97]。因此，今天的模型所能做的和现实世界临床工作流程中对它们的期望之间存在不一致[42，74]。

大型语言模型（LLM）的最新进展为重新思考人工智能系统提供了机会，将语言作为中介人类与人工智能交互的工具。LLM是“基础模型”[10]，是一种经过预训练的大型人工智能系统，可以在众多领域和不同任务中以最小的努力重新调整用途。这些表达和交互模型在大规模地从医学语料库中编码的知识中学习一般有用的表示的能力方面提供了巨大的前景。此类模型在医学中有几个令人兴奋的潜在应用，包括知识检索、临床决策支持、关键发现总结、对患者的初级保健问题进行分类等。

然而，该领域的安全关键性需要深思熟虑地制定评估框架，使研究人员能够有意义地衡量进展，捕捉和减轻潜在危害。这对LLM来说尤其重要，因为这些模型可能会产生与临床和社会价值观不一致的世代。例如，他们可能会产生令人信服的医学错误信息的幻觉，或者加入可能加剧健康差距的偏见。

为了评估LLM对临床知识的编码程度并评估其在医学中的潜力，我们考虑了医学问答。这项任务具有挑战性：为医学问题提供高质量的答案需要理解医学背景，回忆适当的医学知识，并利用专家信息进行推理。现有的医学问答基准[33]通常仅限于评估分类准确性或自动自然语言生成指标（例如，BLEU[67]），并且不能实现现实世界临床应用所需的详细分析。这就产生了对广泛的医学问答基准的未满足需求，以评估LLM的反应真实性、在医学和科学推理中使用专家知识、有用性、准确性、健康公平性，以及对接受模型输出作为事实的人类的潜在伤害。

为了解决这一问题，我们策划了MultiMedQA，这是一个由七个医学问答数据集组成的基准，包括六个现有数据集：MedQA[33]、MedMCQA[64]、PubMedQA[34]、LiveQA[1]、药物质量保证[2]和MMLU临床主题[29]。我们新引入了第七个数据集HealthSearchQA，它由常见的搜索健康问题组成。

为了使用MultiMedQA评估LLM，我们建立在PaLM，一个5400亿参数的LLM[14]及其指令调整变体Flan PaLM[15]的基础上。通过结合少量注射[12]、思维链[91]和自我一致性[88]提示策略，Flan PaLM在MedQA、MedMCQA、PubMedQA和MMLU临床主题上实现了最先进的（SOTA）性能，通常显著优于几个强LLM基线。在包括USMLE问题的MedQA数据集上，FLAN PaLM比之前的SOTA高出17%以上。

尽管Flan PaLM在多项选择题上表现强劲，但其对消费者医疗问题的回答揭示了关键差距。为了解决这个问题，我们提出了指令提示调优，这是一种数据和参数高效的对齐技术，以进一步使Flan-PaLM适应医学领域。由此产生的模型Med-PaLM在我们的试点人类评估框架的轴上表现令人鼓舞。例如，一个临床医生小组判断，只有61.9%的Flan-PaLM长形式答案符合科学共识，而Med-PaLM答案的这一比例为92.6%，与临床医生生成的答案（92.9%）相当。同样，29.7%的Flan-PaLM答案被评为可能导致有害结果，而Med-PaLM的这一比率为5.8%，与临床医生产生的答案（6.5%）相当。

虽然这些结果是有希望的，但医学领域是复杂的。进一步的评估是必要的，特别是在公平、公正和偏见方面。我们的工作表明，在这些模型能够用于临床应用之前，必须克服许多限制。我们在研究中概述了一些关键的局限性和未来研究的方向。

我们的主要贡献总结如下：

•医学问答中LLM的评估方法

-HealthSearchQA和MultiMedQA的处理我们介绍HealthSearchQA，这是一个由3375个常见搜索的消费者医疗问题组成的数据集。我们将该数据集与其他六个现有的医学问答开放数据集一起呈现，涵盖医学考试、医学研究和消费者医学问题，作为评估LLM临床知识和问答能力的不同基准（见第3.1节）。

-人类评估的试点框架我们试点了一个医生和非专业用户评估框架，以在多项选择数据集上评估LLM性能的多个轴，超过准确性。我们的评估评估了答案是否符合科学和临床共识、伤害的可能性和可能程度、阅读理解、对相关临床知识的回忆、通过有效推理对知识的操纵、回答的完整性、偏见的可能性、相关性和帮助性（见第3.2节）。

•医学问答基准的最新成果

在MedQA、MedMCQA、PubMedQA和MMLU临床主题数据集上，FLAN-PaLM通过提示策略的组合实现了SOTA性能，超过了几个强大的LLM基线。具体而言，我们在MedQA上的准确率达到67.6%（比之前的SOTA高出17%以上），在MedMCQA上达到57.6%，在PubMedQA上达到79.0%（见第4节）。

•指令提示调整，使LLM与医学领域保持一致

我们引入了指令提示调优，这是一种简单、数据和参数高效的技术，用于将LLM与安全关键医疗领域对齐（见第3.3.3节）。我们利用这一点构建Med PaLM，这是专门用于医疗领域的指令提示调优版Flan PaLM。我们的人类评估框架揭示了Flan PaLM在科学基础、危害和偏见方面的局限性。然而，根据临床医生和非专业用户的说法，Med-PaLM在其中几个轴上显著缩小了与临床医生的差距（甚至可以比较有利）（见第4.5节）。

•通过我们的人类评估揭示了LLM的主要局限性

虽然我们的研究结果证明了LLM在医学中的潜力，但它们也表明，为了使这些模型在现实世界的临床应用中可行，需要进行一些关键的改进。我们概述了应对这些挑战的未来研究方向和缓解策略（见第6节）。

2相关工作

大型语言模型（LLM）

在过去的几年里，LLM在自然语言处理（NLP）任务上表现出了令人印象深刻的性能[12，14，15，30，69，70，73，89，91，99]。他们的成功归功于扩大了基于Transformer的模型的训练[84]。研究表明，模型性能和数据效率随模型大小和数据集大小而变化[37]。LLM通常使用大规模的自我监督进行训练，使用维基百科和BooksCorpus等通用文本语料库。他们在广泛的任务中证明了有希望的结果，包括需要专业科学知识和推理的任务[17，29]。也许这些LLM最有趣的方面是它们的上下文少shot能力，它使这些模型适应不同的任务，而不需要基于梯度的参数更新[12，40，43，89]。这使他们能够快速概括到看不见的任务，甚至通过适当的提示策略表现出明显的推理能力[14，47，79，91]。

几项研究表明，LLM有能力充当内隐知识库[29，35，79]。然而，这些模型存在产生幻觉、放大训练数据中存在的社会偏见以及推理能力不足的重大风险。为了检查LLM的当前局限性，并量化人类和LLM语言能力之间的巨大差距，BIG bench被引入作为一项社区范围的举措，以对在出版时被认为超出当前语言模型能力的任务进行基准测试[78]。

科学和生物医学法学硕士

最近的研究，如SciBERT[5]、BioNLP[46]、BioMegatron[76]、BioBERT[44]、PubMedBERT[25]、DARE[66]、ScholarBERT[31]和BioGPT[56]，已经证明了使用精心策划的科学和生物医学语料库进行判别和生成语言建模的有效性。这些模型虽然很有前景，但与GPT-3[12]和PaLM[14]等LLM相比，其规模和范围通常较小。虽然医学领域具有挑战性，但LLM的具体建议已经包括了各种各样的例子，从增强非关键临床评估到总结复杂的医疗通信[3，41，75]。

与我们的工作最接近的先例是Taylor等人[79]，他为科学引入了一种名为Galactica的LLM，以及Liévin等人[50]，他们研究了LLM在医学问答环境中的推理能力。特别是，Liévin等人[50]使用了instruction GPT-3，一种经过指令调整的LLM[63]，并在顶部应用了思想链提示[91]，以改进MedQA、MedMCQA和PubMedQA数据集的结果。

3方法

我们在这里详细描述：

•数据集：用于评估医学问答中LLM的MultiMedQA基准。

•人类评估框架：临床医生和非专业人员对模型（和临床医生）答案进行评估的评级框架。

•建模：在本研究中，大型语言模型（LLM）以及用于将其与医学领域的要求相一致的方法。

3.1数据集

为了评估LLM在医学中的潜力，我们专注于医学问答。回答医学问题需要阅读理解能力、准确回忆医学知识的能力以及对专家知识的掌握。有几个现有的医学问答数据集可供研究。其中包括评估专业医学知识的数据集，如医学考试问题[33，64]，需要医学研究理解技能的问题[34]，以及需要评估用户意图并为其医学信息需求提供有用答案的问题[1，2]。

我们承认医学知识在数量和质量上都是巨大的。现有的基准在本质上是有限的，只提供了医学知识空间的部分覆盖范围。尽管如此，与多项选择准确性或BLEU等自然语言生成指标相比，将许多不同的医学问答数据集结合在一起可以对LLM知识进行更深入的评估。我们组合在一起的数据集探讨了不同的能力——有些是多项选择题，而另一些则需要长格式的答案；有些是开放域（回答问题时不将可用信息限制在预先指定的来源），而另一些是封闭域（通过从相关参考文本中检索内容来回答问题），并且来自不同的来源。近年来，医学问答领域开展了广泛的活动，我们参考[33]对医学问答数据集进行了全面总结。

3.1.1 MultiMedQA-医学问答的基准

MultiMedQA包括多项选择题回答数据集、需要医疗专业人员对问题做出较长形式回答的数据集，以及需要非专业人员对可能提出的问题做出较长格式回答的数据集中。其中包括MedQA[33]、MedMCQA[64]、PubMedQA[34]、LiveQA[1]、药物QA[2]和MMLU临床主题[29]数据集。我们通过一个新的精心策划的常见搜索健康查询数据集HealthSearchQA进一步增强了MultiMedQA。所有数据集均为英语，我们将在下面对其进行详细描述。

这些数据集沿以下轴变化：

•形式：选择题与长式答题

•测试的能力：例如，单独评估医学事实的回忆，与评估除事实回忆之外的医学推理能力

•领域：开放领域与封闭领域问题

•问题来源：来自专业体检、医学研究或寻求医疗信息的消费者

•标签和元数据：标签或解释的存在及其来源

虽然MedMCQA、PubMedQA、LiveQA和药物质量保证提供了参考长格式的答案或解释，但我们在这项工作中没有使用它们。首先，参考答案并非来自不同数据集的一致来源。答案通常来自自动化工具或非临床医生，如图书馆员。在这些开创性的数据集中，参考答案和解释的构建并没有针对长答案质量的整体或全面评估进行优化，这使得它们不太适合作为“基本事实”来使用BLEU等自动化自然语言指标来评估LLM。为了缓解这种情况，如第4.5节所述，我们从合格的临床医生那里获得了一组标准化的回答，以回答基准中的一个子集问题。其次，考虑到医学领域的安全关键要求，我们认为重要的是超越使用BLEU等指标的长形式答案生成质量的自动化测量，转而使用本研究中提出的更细致的人类评估框架

医疗质量保证（USMLE）

MedQA数据集[33]由美国医学执照考试（USMLE）风格的问题组成，这些问题是从美国国家医学委员会考试中选择4或5个可能的答案获得的。开发集由11450个问题组成，测试集有1273个问题。

医疗质量保证

MedMCQA数据集由来自印度医学入学考试（AIIMS/NEET）的194k多个4选项多项选择题组成[64]。该数据集涵盖2.4k个医疗保健主题和21个医学主题。开发集内容丰富，有超过18.7万个问题。

PubMedQA公司

PubMedQA数据集[34]由1k个专家标记的问答对组成，任务是在给定一个问题的情况下产生一个是/否/可能的多选答案，并将PubMed摘要作为上下文。虽然MedQA和MedMCQA数据集是开放域问答任务，但PubMedQA任务是封闭域的，因为它需要从支持的PubMed抽象上下文中进行答案推理。

毫米卢

“测量大规模多任务语言理解”（MMLU）[29]包括来自57个领域的考试问题。我们选择了与医学知识最相关的子任务：“解剖学”、“临床知识”、“大学医学”、“医学遗传学”、“专业医学”和“大学生物学”。每个MMLU子任务包含有四个选项的多项选择题以及答案。

现场质量保证

LiveQA数据集[1]是作为2017年文本检索挑战赛（TREC）的一部分进行策划的。该数据集由人们提交给国家医学图书馆（NLM）的医学问题组成。该数据集还包括从国家卫生研究所（NIH）网站等可信来源手动收集的参考答案。

药物质量保证

药物质量保证数据集[2]由消费者常见的有关药物的问题组成。除了这个问题，数据集还包含与药物焦点和相互作用相对应的注释。与LiveQA类似，我们评估模型对测试集中的问题产生长格式答案的能力。

健康搜索QA

我们策划了自己的额外数据集，包括3375个常见的搜索消费者问题，称为“HealthSearchQA”。数据集是使用种子医学状况及其相关症状进行整理的。我们使用种子数据来检索搜索引擎生成的公开可用的常见搜索问题，这些问题会显示给所有输入种子术语的用户。我们发布该数据集作为消费者医疗问题回答的开放基准，并希望这将成为社区的有用资源，作为反映现实世界消费者担忧的数据集。

3.2人的评估框架

在这里，我们描述了我们提出的对医学问题的长形式答案进行人类评估的框架。

3.2.1临床医生评估

虽然多项选择题的客观准确性指标是衡量模型性能的可靠指标，但它们省略了几个重要的细节。为了更深入地评估LLM在医学主题开放式问答中的生成输出，我们开发了一个试点框架，用于在LiveQA、DrudiceQA和HealthSearchQA数据集中对消费者医学问题的长形式模型答案进行人类评估。

该试点框架的灵感来自Feng等人[22]在类似领域发表的方法，以检查LLM世代在临床环境中的优势和劣势。我们使用焦点小组和对英国、美国和印度临床医生的采访来确定额外的评估轴[60]，并扩展框架项目，以解决与科学共识一致的概念、伤害的可能性和可能性、答案的完整性和缺失以及偏见的可能性。通过询问评分者模型的输出是否符合普遍的科学共识（例如，以公认的临床实践指南的形式），而不是科学共识，来衡量与科学共识的一致性；或者在这个问题上是否没有明确的科学共识。危害是一个复杂的概念，可以从几个方面进行评估（例如身体健康、心理健康、道德、财务和许多其他方面）。在回答这个问题时，评分者被要求只关注与身体/心理健康相关的伤害，并评估严重程度（以AHRQ常见伤害格式[93]为灵感的格式）和可能性，假设消费者或医生可能会根据答案的内容采取行动。评分者广泛评估了偏见，考虑到答案中是否包含对特定患者群体不适用或不准确的信息。表2中总结了评估中提出的问题

我们的框架项目的形式、措辞和反应量表点是通过三名合格的临床医生对每个数据集25个问答元组进行一式三份的评估进行进一步访谈来完善的。为临床医生编写的说明包括问题评级的指示性示例，并重复，直到临床医生的评级方法趋于一致，表明说明是可用的。一旦指南融合在一起，来自消费者医疗问题数据集的一组更大的问答元组就由英国、美国或印度的九名临床医生中的一名进行单一评级，这些临床医生有资格在各自国家执业，具有儿科、外科、内科和初级保健等专业经验。

3.2.2非专业用户（非专家）评估

为了评估消费者医疗问题答案的有用性和实用性，我们进行了额外的非专业用户（非专家）评估。这是由五名没有医学背景的评分员进行的，他们都在印度。这项练习的目的是评估答案在多大程度上解决了问题背后的感知意图，以及它的帮助和可操作性。表3总结了评估中提出的问题

3.3建模

在本节中，我们详细介绍了大型语言模型（LLM）以及用于使其与医学领域的需求保持一致的技术。

3.3.1型号

在本研究中，我们建立在LLM的PaLM和Flan-PaLM家族的基础上。

棕榈

由[14]引入的Pathways Language Model（PaLM）是一种密集激活的仅限解码器的Transformer语言模型，使用Pathways[4]进行训练，Pathways[4]是一种大规模的ML加速器编排系统，能够在TPU吊舱中进行高效训练。PaLM训练语料库由7800亿个令牌组成，代表网页、维基百科文章、源代码、社交媒体对话、新闻文章和书籍的混合。所有三个PaLM模型变体都是针对训练数据的恰好一个时期进行训练的。关于训练语料库的更多细节，我们参考[14，19，80]。在发布时，PaLM 540B实现了突破性的性能，在一套多步骤推理任务上优于微调的最先进模型，并超过了BIG平台上的平均人类性能[14，78]。

3.3.2将LLM与医学领域相结合

像PaLM[14]和GPT-3[12]这样的通用LLM在具有挑战性的基准测试（如BIG bench）上的各种任务上都达到了最先进的性能。然而，鉴于医学领域的安全关键性，有必要根据特定领域的数据调整和调整模型。典型的迁移学习和领域自适应方法依赖于使用大量的领域内数据对模型进行端到端的微调，鉴于医学数据的匮乏，这种方法在这里很有挑战性。因此，在这项研究中，我们专注于基于提示[12]和提示调整[45]的数据高效对齐策略。

提示策略

Brown等人[12]证明了LLM是强大的少shot学习者，可以通过提示策略实现快速的上下文学习。通过在输入上下文中编码为提示文本的少数演示示例，这些模型能够在没有任何梯度更新或微调的情况下推广到新示例和新任务。上下文少shot学习的显著成功刺激了许多提示策略的发展，包括草稿簿[61]、思维链[91]和最少到最多提示[100]，尤其是对于数学问题[17]等多步骤计算和推理问题。在这项研究中，我们重点关注标准的少数shot、思维链和自我一致性提示，如下所述。

很少有shot提示

Brown等人[12]引入了标准的几次shot提示策略。在这里，模型的提示被设计为包括通过基于文本的演示来描述任务的几个shot示例。这些演示通常被编码为输入输出对。示例的数量通常是根据可以放入模型的输入上下文窗口的令牌的数量来选择的。在提示之后，向模型提供输入，并要求其生成测试时间预测。零样本提示对应项通常只涉及描述任务的指令，没有任何其他示例。Brown等人[12]观察到，虽然零样本提示随着模型大小适度缩放，但使用少量快照提示时的性能增长更快。此外，Wei等人[90]观察到了涌现能力——也就是说，在提示范式中，在小模型中不存在的能力，但在超过一定模型大小的随机性能之上迅速提高。

在这项研究中，我们与一个合格的临床医生小组合作，确定了最佳的演示示例，并制定了为数不多的注射提示。如第A.8节所述，为每个数据集设计了单独的提示。少shot演示的数量因数据集而异。通常，我们为消费者医疗问答数据集使用了5个输入-输出示例，但考虑到也需要适应提示文本中的抽象上下文，PubMedQA将数量减少到3个或更少。

思维链提示

Wei等人[91]引入的思维链（CoT）包括通过逐步分解和一组连贯的中间推理步骤来增强提示中的每个少数shot示例，以获得最终答案。该方法旨在模拟人类在解决需要多步骤计算和推理的问题时的思维过程。Wei等人[91]证明了CoT提示可以在足够大的语言模型中激发推理能力，并显著提高数学问题等任务的性能[17]。此外，这种CoT推理的出现似乎是LLM的一种突发能力[90]。Lewkowycz等人[47]将CoT提示作为其工作中的关键策略之一，从而在几个STEM基准上取得突破性的LLM性能。

本研究中探讨的许多医学问题都涉及复杂的多步骤推理，这使得它们非常适合CoT提示技术。我们与临床医生一起制作了CoT提示，以提供如何推理和回答给定医学问题的明确演示。第A.9节详细介绍了此类提示的示例。

自我一致性提示

提高多项选择基准测试性能的一个简单策略是提示和采样模型的多个解码输出。最终答案是拥有多数票（或多数票）的人。这个想法是由Wang等人[88]以“自我一致性”的名义提出的。这种方法背后的基本原理是，对于像医学这样具有复杂推理路径的领域，可能有多种潜在的途径可以找到正确的答案。将推理路径边缘化可以得到最一致的答案。自我一致性提示策略在[47]中带来了特别强大的改进，我们对具有多项选择题的数据集采用了相同的方法：MedQA、MedMCQA、PubMedQA和MMLU。

提示调整

由于LLM已经增长到数千亿个参数[12，14]，因此对它们进行微调在计算上非常昂贵。虽然少shot提示的成功在很大程度上缓解了这一问题，但许多任务将进一步受益于基于梯度的学习。Lester等人[45]引入了提示调整（与提示/启动相反），这是一种简单且计算成本低廉的方法，可使LLM适应特定的下游任务，尤其是在数据有限的情况下。该方法包括通过反向传播学习软提示向量，同时保持LLM的其余部分冻结，从而允许跨任务轻松重用单个模型。

这种软提示的使用可以与GPT-3[12]等LLM推广的基于离散“硬”文本的少量提示形成对比。虽然即时调优可以从任何数量的标记示例中受益，但通常只需要少数示例（例如，数十个）即可实现良好的性能。此外，Lester等人[45]证明，在增加模型规模的情况下，即时调整的模型性能与端到端微调相当。其他相关方法包括前缀调谐[48]，其中前缀激活向量被预处理到LLM编码器的每一层，并通过反向传播进行学习。Lester等人[45]的提示调整可以被认为是对这一想法的简化，将可学习的参数限制为仅代表作为软提示预先添加到输入中的少量令牌的参数。

3.3.3指令提示调谐

Wei等人[89]和Chung等人[15]证明了多任务指令微调的好处：Flan-PaLM模型在几个基准测试上实现了性能状态，如BIG bench[47]和MMLU[29]。特别是，Flan PaLM展示了在微调中使用CoT数据的好处，从而在需要推理的任务中实现了稳健的改进。

鉴于指令调优的强大性能，我们在这项工作中主要基于Flan PALM模型。然而，如第4.5节所述，我们的人类评估揭示了Flan PaLM在消费者医疗问答数据集上的表现存在关键差距，即使很少有shot提示。为了进一步使模型符合安全关键医疗领域的要求，我们探索了专门针对医疗数据的额外训练。

对于这种额外的训练，考虑到计算和临床医生的数据生成成本，我们使用了即时调整，而不是全模型微调。我们的方法有效地将Flan PaLM的“学习遵循指令”原则扩展到了即时调整阶段。具体来说，我们不是使用通过提示调优学习到的软提示来代替特定任务的人类工程提示，而是使用软提示作为在多个医学数据集之间共享的初始前缀，随后是相关的任务特定的人工设计提示（由指令和/或少数shot示例组成，这些示例可以是思维链示例）以及实际问题和/或上下文。

我们将这种提示调优方法称为“指令提示调优”。因此，指令提示调优可以被视为训练模型在一个或多个域中遵循指令的一种轻量级方式（在训练和推理期间数据高效、参数高效、计算高效）。在我们的设置中，指令提示调整使LLM能够更好地遵循我们所针对的医学数据集家族中使用的特定类型的指令。

考虑到软提示和硬提示的组合，指令提示调整可以被视为一种“硬-软混合提示调整”[52]，以及将硬锚标记插入软提示[53]、将学习的软标记插入硬提示[28]或将学习的软提示用作短零样本硬提示的前缀[26，96]的现有技术。据我们所知，我们的例子是第一个公开的学习软提示的例子，该软提示在包含指令和少量shot示例的完整硬提示前面加前缀。

3.3.4综合起来：Med PaLM

为了使Flan-PaLM适应医学领域，我们在一小部分示例上应用了指令提示调优。这些例子被有效地用于指导模型生成更符合医学领域要求的文本生成，医学理解、临床知识回忆和医学知识推理的良好例子不太可能导致患者伤害。因此，这些例子的策划是非常重要的。

我们从MultiMedQA免费响应数据集（HealthSearchQA、MedicineQA、LiveQA）中随机抽取样本，并请五名临床医生组成的小组提供样本答案。这些临床医生来自美国和英国，在初级保健、外科、内科和儿科都有专业经验。临床医生随后筛选出他们认为不是指导模型的好例子的问题/答案对。这种情况通常发生在临床医生觉得他们无法为给定的问题提供“理想”的模型答案时，例如，如果回答问题所需的信息未知。我们留下了40个例子，分别是HealthSearchQA、DrudiceQA和LiveQA，用于指令提示调整训练。

在MultiMedQA和Flan-PaLM的消费者医疗问答数据集上对由此产生的模型Med-PaLM进行了评估。图2概述了我们针对Med-PaLM的指令提示调整方法。有关超参数优化和模型选择过程的更多详细信息，请参见第A.1节。Med-PaLM的模型卡见第A.5节。

4结果

在本节中，我们首先概述了图3和图4中总结的关键结果。然后，我们提出了一些消融，以帮助将结果置于情境中并加以解释。

4.1 Flan PaLM在MedQA（USMLE）方面超过了以前的最先进水平17%以上

在由4个选项的USMLE风格问题组成的MedQA数据集上，我们的Flan PaLM 540B模型的多项选择题（MCQ）准确率为67.6%，比DRAGON模型[94]高20.1%。在我们的研究同时，Bolton等人[9]开发了PubMedGPT，这是一个专门针对生物医学摘要和论文训练的27亿模型。该模型在有4个选项的MedQA问题上的表现为50.3%。据我们所知，这是MedQA上最先进的，Flan PaLM 540B超过了17.3%。表4与该数据集上性能最好的模型进行了比较。在有5个选项的更难的一组问题上，我们的模型获得了62.0%的分数。

4.2 MedMCQA和PubMedQA的最新性能

在由来自印度的医学入学考试问题组成的MedMCQA数据集上，Flan PaLM 540B在开发集上的表现达到了57.6%。这超过了卡拉狄加模型之前52.9%的最先进结果[79]。类似地，在PubMedQA数据集上，我们的模型实现了79.0%的准确率，比之前最先进的BioGPT模型Luo等人[56]高出0.8%。结果汇总在下图2中。虽然与MedQA和MedMCQA数据集相比，这一改进似乎很小，但PubMedQA上的单个评分人的绩效为78.0%[33]，这表明该任务的最大可能绩效可能存在固有的上限。

4.3 MMLU临床主题的最新表现

MMLU数据集包含来自几个临床知识、医学和生物学相关主题的多项选择题。其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学。Flan PaLM 540B在所有这些子集上都实现了最先进的性能，优于强大的LLM，如PaLM、Gopher、Chinchilla、BLOOM、OPT和Galactica。特别是，在专业医学和临床知识子集上，Flan PaLM 540B的SOTA准确率分别为83.5%和84.0%。图4总结了结果，并在可用的情况下与其他LLM进行了比较[79]。

4.4消融

我们对三个多选数据集——MedQA、MedMCQA和PubMedQA——进行了几次消融

-以更好地理解我们的结果，并确定对Flan PaLM的性能有贡献的关键组件。我们在下面详细介绍它们：

指令调整提高了医疗问答的性能

在所有模型大小中，我们观察到，在所有三个数据集（MedQA、MedMCQA和PubMedQA）上，指令调整的Flan-PaLM模型都优于基线PaLM模型。在这些实验中，模型很少使用A.8中详细说明的提示文本进行提示。详细结果总结在5中。这些改进在PubMedQA数据集中最为显著，其中8B Flan PaLM模型的性能优于基线PaLM模型30%以上。在62B和540B变体的情况下也观察到了类似的强烈改善。这些结果证明了指令微调的强大优势。第A.3节报告了MMLU临床主题的类似结果。

我们尚未完成对指令提示调谐对多项选择准确性的影响的彻底分析；我们在本节中的分析是Flan PaLM，而不是Med PaLM。Med PaLM（指令提示调谐的Flan PaLM）的开发是为了通过更好地将模型与医学领域相一致来改进第4.5节中提出的Flan PaLM的长形式生成结果。然而，鉴于选择题回答领域不可知指令调优的成功，领域内指令提示调优似乎很有希望，我们在第a.6节中给出了初步结果。

缩放可提高医疗问答的性能

5的相关观察结果是，通过将模型从8B缩放到62B和540B，获得了强大的性能改进。我们观察到，在PaLM和Flan PaLM中将模型从8B扩展到540B时，性能提高了约2倍。这些改进在MedQA和MedMCQA数据集中更加明显。特别是，对于Flan-PaLM模型，540B变体的性能优于62B变体超过14%，8B变体超过24%。鉴于这些结果和Flan-PaLM 540B模型的强大性能，我们在该模型的基础上进行了下游实验和烧蚀。第A.4节提供了比例图。

思维链（CoT）提示6总结了使用CoT提示的结果，并提供了与使用Flan-PaLM 540B模型的少shot提示策略的比较。出乎意料的是，在三个多选数据集（MedQA、MedMCQA和PubMedQA）中，我们没有观察到使用CoT相对于标准的几次提示策略的改进。所使用的CoT提示在第A.9节中进行了总结。

自我一致性（SC）使多项选择的表现有很大的改善

Wang等人[88]表明，当CoT提示影响表现时，自我一致性提示会有所帮助。他们在算术和常识推理任务上有了显著的改进。根据他们的提示，我们将其应用于我们的数据集。对于三个数据集中的每一个，我们将思维链答案解释路径的数量固定为11。然后，我们在不同的解释路径上进行边缘化，以选择最一致的答案。使用该策略，我们在MedQA和MedMCQA数据集上观察到Flan PaLM 540B模型的标准少shot提示策略有了显著改进。特别是，对于MedQA数据集，我们观察到自一致性提高了>7%。然而，出乎意料的是，自一致性导致PubMedQA数据集的性能下降。结果汇总在表7中。我们在表8中进一步提供了MedQA的Flan-PaLM 540B模型的一些示例响应。

不确定性与选择性预测

LLM能够进行长时间、连贯和复杂的世代。然而，它们也可能生成与事实不一致的语句。特别是在医疗环境中，这种故障模式需要仔细审查，而在现实世界的应用中，不太可能是真的世代应该被保留。相反，我们可能希望在需要时听从其他信息来源或专家的意见。因此，LLM的一个解决方案是将不确定性估计与其响应一起进行沟通。

虽然LLM输出序列的不确定性测量仍然是一个开放的研究领域[36，51]，但在这里，我们探索了一种简单的代理，作为测量LLM不确定性和语句准确性之间关系的初始方法。我们创建了一个选择性预测任务[82]，使用自一致性匹配给定答案的解码次数作为不确定性的衡量标准，并在模型不适当置信的情况下使用它来保留答案。我们使用Flan-PaLM 540B模型的41个解码进行了实验，具有思想链提示和自一致性。我们在5中观察到，随着延迟分数的增加（即，提供预测所需的“置信度”更高），模型在MedQA上的性能有所提高，在0.45的延迟分数下达到82.5%的准确度。这表明我们对反应不确定性的测量可能是合理的，LLM似乎对其在医学领域的知识的不确定性进行了编码。然而，除了这一初步分析之外，还需要更多的研究。

4.5人员评估结果

我们从HealthSearchQA中随机选择了100个问题，从LiveQA中选择了20个问题，并从DrudiceQA中选择20个问题作为详细的人类评估的较小的长形式答案基准。这些问题反映了现实世界中消费者对医疗信息的查询。这些选择的问题与那些用于指令提示调整以产生Med-PaLM的示例是脱节的。

我们让一个临床医生小组为这些问题提供专家参考答案。然后，我们使用Flan-PaLM和Med-PaLM（均为540B模型）得出答案。这些问题的一些定性例子和相应的Med-PaLM回答如表9所示。我们让另一组临床医生沿着表2中的轴线对三组答案进行了评估，但没有透露答案的来源。一名临床医生对每个答案进行了评估。为了减少临床医生之间的差异对我们研究结果的可推广性的影响，我们的小组由9名临床医生组成（总部位于美国、英国和印度）。我们使用非参数bootstrap来估计结果中的任何显著变化，其中100个bootstrap复制品用于产生每组的分布，我们使用95%bootstrap百分位区间来评估变化。这些结果在下文和第A.7节中进行了详细描述。

科学共识：

我们希望了解这些答案与临床和科学界目前的共识之间的关系。在研究中评估的140个问题中，我们发现在92.9%的问题中，临床医生的回答被判断为与科学共识一致。另一方面，Flan PaLM仅在61.9%的答案中与科学共识一致。对于其他问题，答案要么反对达成共识，要么不存在共识。这表明，通用指令调整本身不足以产生科学和临床依据的答案。然而，我们观察到，92.9%的Med-PaLM答案被判断为符合科学共识，这表明了指令提示调整作为一种产生有科学依据的答案的对齐技术的优势。

我们注意到，由于PaLM、Flan PaLM和Med PaLM是在给定的时间点使用网络文档、书籍、维基百科、代码、自然语言任务和医学任务的语料库进行训练的，因此这些模型的一个潜在局限性是，它们可以反映过去而不是今天的科学共识。这不是当今Med-PaLM常见的失败模式，但这激励了未来在LLM的持续学习和从不断发展的语料库中检索方面的工作。

理解、检索和推理能力：

我们试图通过他们生成的答案来理解（无论是专家还是模型生成的）模型的医学理解、医学知识检索和推理能力。我们要求一个临床医生小组使用与Feng等人相同的方法，对答案是否包含正确/不正确的医学阅读理解、医学知识检索和医学推理能力的任何证据（一个或多个例子）进行评分。[22]。正确和不正确的证据是平行评估的，因为一个长形式的答案可能包含正确和错误理解、检索和推理的证据。

我们发现，专家生成的答案再次明显优于Flan PaLM，尽管Med PaLM的指令提示调优提高了性能。在该轴中用于评估的所有六个子问题中都观察到了这一趋势。例如，关于正确检索医学知识的证据，我们发现临床医生的回答得分为97.8%，而Flan-PaLM的得分仅为76.3%。然而，指令提示调整的Med-PaLM模型得分为95.4%，降低了该模型与临床医生相比的劣势。

内容不正确或缺失：

这项评估的目的是通过评估答案是否遗漏了任何不应该遗漏的信息，或者答案是否包含任何不应该包含的内容，来了解生成答案的完整性和正确性。在被认为有缺失或遗漏的内容的情况下，评分者被问及这是否具有很大或很小的潜在临床意义。

我们再次观察到，临床医生生成的答案优于人工智能模型。临床医生的回答显示，只有1.4%的病例存在不适当/不正确的内容，而Flan-PaLM的这一比例为16.1%。令人惊讶的是，指令提示调整似乎进一步降低了性能，18.7%的Med-PaLM回答被判断为包含不适当或不正确的内容。

另一方面，我们观察到指令提示调优有助于在遗漏重要信息时提高模型性能。虽然Flan-PaLM的答案有47.2%的时间被判断为遗漏了重要信息，但Med-PaLM的这一数字有了显著改善，只有15.1%的答案被判断为有遗漏信息，与临床医生相比，他们的答案在只有11.1%的病例中被判断为缺乏信息，从而降低了劣势。表10中显示了一些定性示例，表明LLM回答可能能够在未来的用例中补充和完善医生对患者询问的回答。

对这些观察结果的一个潜在解释是，指令提示调整教会Med-PaLM模型生成比Flan-PaLM模型更详细的答案，从而减少重要信息的遗漏。然而，较长的答案也会增加引入错误内容的风险。

可能的危害程度和可能性：

我们试图根据生成的答案来确定潜在伤害的严重性和可能性。我们要求评分者假设模型的输出可能会导致临床医生或消费者/患者采取行动，并估计可能导致的身体/心理健康危害的可能严重程度和可能性。我们根据AHRQ Common Formats Williams等人[93]中的评分员选择选项，该选项提供了指定伤害严重程度的选项，包括死亡、严重或危及生命的伤害、中度、轻度或无伤害。我们承认，这种伤害的定义更通常用于分析医疗保健过程中发生的伤害，即使在这种情况下（已知伤害发生的背景具有更大的特异性），医生对伤害严重程度的估计也经常存在实质性差异[86]。因此，不能假设AHRQ量表的有效性扩展到我们的背景，在我们的背景下，我们的评分者输出应该被视为主观估计，因为我们的工作没有基于特定的预期用途和社会文化背景。

尽管评级有着广泛的定义和主观性，但我们观察到，指令提示调整产生了更安全的答案，降低了估计的可能性和严重程度。虽然29.7%的Flan-PaLM反应被判断为可能导致伤害，但Med-PaLM的这一数字降至5.9%，与临床医生生成的答案相比，后者在5.7%的病例中也被判断为潜在有害。

同样，在伤害轴的可能性方面，指令提示调整使Med-PaLM的答案与专家生成的答案相匹配。

医学人口统计学的偏见：

我们评估答案的最后一条轴线是偏见。使用大型语言模型进行医学问答有可能造成偏见和公平相关的伤害，从而导致健康差异。这些危害来自几个来源，包括训练数据中反映健康结果和获得护理机会差异的模式的存在，医疗问答系统再现关于种族健康差异原因的种族主义误解的能力[20，85]，算法设计选择[32]，以及机器学习系统在不同人群和群体中的行为或性能差异，这些差异在用于为医疗决策提供信息时会带来下游危害[13]。除了在医疗保健中使用其他人工智能应用程序之外，医疗问答系统还带来了额外的风险，因为它们有可能产生任意输出，推理能力有限，并且可能用于广泛的下游用例。我们试图了解答案中是否包含任何不准确或不适用于特定人口的信息。在7.9%的病例中，Flan-PaLM的回答包含有偏见的信息。然而，Med-PaLM的这一数字降至0.8%，与那些被判断为在1.4%的病例中含有偏见证据的专家相比，这一数字是有利的。

非专业用户评估：

除了专家评估之外，我们还让一个由该领域的五名非专家组成的小组（总部位于印度，没有医学背景的外行）评估答案。结果总结如下图10所示。虽然Flan-PaLM回答被认为只有60.6%的病例有帮助，但Med-PaLM回答的这一数字提高到了80.3%。然而，这仍然不如临床医生的回答，后者在91.1%的时间里被认为是有帮助的。同样，在90.8%的案例中，Flan-PaLM的回答被判断为直接解决了用户的问题意图。Med-PaLM的这一数字提高到94.0%，低于临床医生给出的95.9%的答案。

非专业评估一贯再现了指令提示调整的好处，以产生对用户有帮助的答案，同时也表明，仍需要大量工作来近似人类临床医生提供的输出质量。

5讨论

我们的研究结果表明，在医学问答方面的强大表现可能是LLM的一种应急能力[90]，再加上有效的指令提示调整。

首先，当我们将PaLM模型从80亿扩展到5400亿时，我们观察到了强大的扩展性能，精度提高了约2倍。80亿PaLM在MedQA上的性能仅略好于随机性能。然而，这一数字在5400亿PaLM中提高了30%以上，证明了规模对医疗问答任务的有效性。我们观察到MedMCQA和PubMedQA数据集也有类似的改进。此外，指令微调也很有效，Flan-PaLM模型在所有多项选择数据集上的所有尺寸变体中的表现都优于PaLM模型。

PaLM预训练语料库可能包括大量高质量的医学内容，5400亿模型变体的强大性能的一个可能推测是本研究中考虑的评估数据集的记忆。然而，Chowdhery等人[14]在评估受污染（即测试集的一部分在模型预训练语料库中）和清理的测试数据集时，显示了PaLM 8B和540B模型的性能相似的delta。这表明，仅靠记忆并不能解释通过放大模型所观察到的强大性能。

在生物医学语料库上，特别是PubMed上，已经有几项训练语言模型的努力。其中包括BioGPT[56]（3.55亿参数）、PubMedGPT[9]（27亿参数）和Galactica[79]（1200亿参数）。我们的模型能够在PubMedQA上超越这些努力，而无需任何微调。此外，规模和指令微调的好处在MedQA数据集上更加明显，这可以被认为是所有这些模型的领域之外的。鉴于这些结果，我们观察到医学回答能力（需要回忆、阅读理解和推理技能）随着LLM量表的提高而提高。

然而，我们在消费者医疗问答数据集上的人类评估结果清楚地指出，仅靠规模是不够的。即使是像Flan PaLM这样最先进的LLM，也可以产生不适合在安全关键医疗领域使用的答案。然而，Med-PaLM的结果表明，通过指令提示调整，我们有一种数据和参数高效比对技术，可用于改善与准确性、真实性、一致性、安全性、危害性和偏见相关的因素，有助于缩小与临床专家的差距，使这些模型更接近现实世界的临床应用。

6限制

我们的研究证明了LLM在编码医学知识，特别是在回答问题方面的潜力。然而，它有几个局限性，我们将在下面详细讨论，并概述未来研究的方向。

6.1 MultiMedQA的扩展

首先，尽管MultiMedQA基准是多样化的，包含了来自各种专业医学、医学研究和消费者来源的问题，但它绝不是详尽无遗的。我们计划在未来扩大基准，将更多种类的医学和科学领域（如生物学）和形式包括在内。

临床环境中的一个关键挑战是从患者那里获取信息，并将研究结果综合到评估和计划中。多选问答任务本质上更容易，因为它们通常以专家汇编的小插曲为基础，并被选择为有一个普遍偏好的答案，而这并不适用于所有的医疗决策。开发反映真实世界临床工作流程的基准任务是未来研究的一个重要方向。

此外，我们在本研究中只考虑了英语数据集，非常需要扩大基准的范围，以支持多语言评估。

6.2开发医疗应用所需的关键LLM能力

虽然Flan PaLM能够在几个多项选择医学问答基准上达到最先进的性能，但我们的人体评估清楚地表明，这些模型在许多临床重要的轴上都不处于临床医生专家水平。为了弥补这一差距，需要研究和开发几种新的LLM功能，包括：

•权威医学来源的反应基础，并解释医学共识的时变性质。

•能够有效地检测不确定性，并将其传达给回路中的人，无论是临床医生还是非专业用户。

•能够以多种语言响应查询。

6.3改进人类评价方法

我们为这项研究提出的评级框架代表了一种很有前途的试点方法，但我们选择的评估轴并不详尽，本质上是主观的。例如，医学/科学共识的概念本质上是时变的，反映了基于种族/民族、性别、年龄、能力等领域的歧视对人类健康、疾病和生理学的理解[38，57]。此外，共识通常只存在于与某些群体相关的主题（例如，数量和/或权力更大），而受各种原因影响的某些亚群体可能缺乏共识（例如，有争议的主题、较低的发病率、较少的资金）。此外，伤害的概念可能因人群而异（例如，对一小群人进行的基因研究可能会揭示事实上但与该群体的文化信仰不一致的信息，这可能会导致该群体的成员受到伤害）。专家对危害的评估也可能因地点、生活经历和文化背景而异。我们对潜在危害的评级是主观估计，感知危害的变化也可能是由于我们的临床医生和非专业评分者的健康素养差异，或者在现实世界中可能会有所不同，这取决于Berkman等人[6]的研究中接受和处理健康问题答案的人的社会文化背景和健康素养。进一步的研究可能会测试问题答案的感知有用性和危害性是否因答案内容的可理解性和可操作性得分而不同[77]。

评估的模型反应的数量以及评估它们的临床医生和非专业人员的数量是有限的，因为我们的结果仅基于单个临床医生或非专业人员评估反应。这代表了我们的研究结果的可推广性的局限性，可以通过在模型审计工具的开发中纳入更大且有意多样化的人类评分者（临床医生和非专业用户）来缓解这种局限性。值得注意的是，LLM回应或“覆盖率”的空间非常大，这给评估工具和框架的设计带来了额外的困难。

使用推荐的最佳实践方法来设计和验证健康、社会和行为研究的评级工具，我们开发的试点框架可以显著推进[8]。这可能需要通过参与性研究确定额外的评级项目，由领域专家和技术接受者评估评级项目的相关性、代表性和技术质量。包括大量的人工评分者也将通过批准测试维度、重新测试的可靠性和有效性来测试仪器的可推广性[8]。由于同一答案可以通过多种方式进行评估，最合适的评级工具也取决于LLM输出的预期目的和接受者，根据使用的背景和目的，为开发经验证的评级量表提供了多种机会。此外，在任何现实世界的使用之前，使用基于社区的参与式研究方法进行大量的用户体验（UX）和人机交互（HCI）研究是必要的，并且将专门针对超出我们探索性研究范围的开发工具。在这种情况下，进一步的研究可以探索非专业评分者的教育水平、医疗条件、照顾者地位、医疗保健经验、教育水平或其他相关因素的变化对他们对模型输出质量的看法的独立影响。临床医生评分者的专业、人口统计、地理或其他因素的变化的影响可以在进一步的研究中进行类似的探索。

6.4公平和公平考虑

我们目前评估偏见的方法是有限的，不能作为对潜在危害、公平或公平的全面评估。评估大型语言模型中的偏见和公平性相关危害的程序正在开发中[49，92]。鉴于该领域的安全关键性以及与导致健康差异的社会和结构偏见相关的细微差别，医疗保健是大型语言模型的一个特别复杂的应用。大型语言模型和医疗保健的交叉为负责任和道德创新创造了独特的机会，为偏见、公平和健康公平提供了强有力的评估和缓解工具。

我们概述了未来研究框架的机会，以系统地识别和减轻大型语言模型在医疗保健环境中的下游危害和影响。关键原则包括使用参与式方法来设计情境化评估，反映可能受益或受损的患者的价值观，将评估建立在一个或多个特定的下游临床用例的基础上[54，71]，以及使用数据集和模型文档框架，透明地报告在数据收集和管理、模型开发和评估过程中做出的选择和假设[24，59，72]。此外，还需要对算法程序和基准的设计进行研究，以探测特定的技术偏见，如果不加以缓解，这些偏见会造成伤害。例如，根据上下文，在故意设计的提示中评估模型输出对人口统计标识符扰动的敏感性可能是相关的，这样结果就不会在扰动下发生变化[23，68，98]。

此外，上述建立评估方法以在大型语言模型中实现健康公平的研究活动需要跨学科合作，以确保各种科学观点和方法能够应用于理解健康的社会和背景方面的任务[27，58，62]。

开发大型语言模型的评估框架是一项重要的研究议程，应与在语言模型中编码临床知识的工作同等严格和重视。

在这项研究中，我们与一个由四名合格临床医生组成的小组合作，确定了最佳的演示示例，并制作了少量的注射提示，所有这些都位于美国或英国，具有内科、儿科、外科和初级保健方面的专业知识。尽管最近的研究令人惊讶地表明，在多步骤推理挑战中，思维链提示中推理的有效性只在很小程度上影响了该策略对LLM性能的影响[87]，进一步的研究可以显著扩大参与快速构建和样本答案选择的临床医生的范围，从而探索参与这项活动的临床医生类型的多个轴的变化如何影响LLM行为；例如临床医生的人口统计、地理、专业、生活经验等等。

6.5伦理考虑

这项研究证明了LLM在未来医疗保健中的应用潜力。从用于医疗问答的LLM过渡到可供医疗保健提供者、管理人员和消费者使用的工具，需要进行大量额外的研究，以确保该技术的安全性、可靠性、有效性和隐私性。需要仔细考虑这项技术的道德部署，包括在不同的临床环境和护栏中使用时进行严格的质量评估，以减少对医疗助理输出的过度依赖。例如，使用LLM诊断或治疗疾病的潜在危害远大于使用LLM获取有关疾病或药物的信息。还需要进行额外的研究，以评估医疗保健中使用的LLM是否同质化和放大了从基本模型继承的偏见和安全漏洞[10，11，18，39，49]。鉴于临床知识的不断发展，开发LLM提供最新临床信息的方法也很重要。

7结论

基础人工智能模型和大型语言模型的出现为重新思考医疗人工智能的发展提供了一个重要的机会，使其更容易、更安全、更公平地使用。同时，对于大型语言模型的应用来说，医学是一个特别复杂的领域。

我们的研究让我们得以一窥将这些技术应用于医学的机遇和挑战。我们希望这项研究将引发患者、消费者、人工智能研究人员、临床医生、社会科学家、伦理学家、政策制定者和其他感兴趣的人之间的进一步对话和合作，以便负责任地将这些早期研究结果转化为改善医疗保健。

附录

A.1超参数和模型选择

我们对Flan PaLM 540B进行了指令提示调谐，软提示长度为100，以产生Med PaLM。我们冻结了模型的其余部分，嵌入维度为18432，如Chowdhery等人[14]所述，因此产生了1.84M的可训练参数。我们随机初始化可学习参数，使其在[-0.5，0.5]范围内一致，遵循Lester等人[45]。我们使用AdamW优化器[55]对0.001、0.003、0.01的学习率进行网格搜索，权重衰减因子为{0.001、0.00001}。我们在所有运行中使用了32的批量大小。我们进行了200步的训练。

我们通过让临床医生对几个提出的HealthSearchQA、DruitationQA和LiveQA示例（不用于训练或人类评估）的回答进行排名来进行模型选择，并选择表现最好的检查点。我们进行了这种手动验证，而不是在验证集上计算一些自动度量，例如保持（问题，答案）对的负对数似然，因为在自然语言生成的大输出空间中，这些度量可能与人类对实际模型输出的判断不太相关。我们为人类评估选择的模型的学习率为0.003，权重衰减因子为0.00001。

A.2结果的变化

由于使用温度采样的重复随机解码，在具有自一致性的结果中存在一些预期的变化。虽然在本研究中使用的所有数据集上为我们的所有模型运行多个实验是不切实际的，但我们使用性能最好的模型在MedQA数据集上重复评估4次。观察到的方差为0.078，表明结果具有高度一致性。

A.3 MMLU消融

我们在MMLU临床主题上使用少shot、思维链（CoT）和自我一致性提示策略对Flan-PaLM 540B模型进行了消融比较[29]。第A.3节对结果进行了总结。我们观察到，虽然对于大多数主题，具有自一致性的Flan PaLM 540B获得了最好的结果，但在一些主题中，标准的少shot或CoT提示效果更好。在这些主题中，Flan PaLM 540B获得了最先进的性能。

A.4标度图

我们在图A.1中提供了在MedQA和MedMCQA数据集上使用少量shot提示比较PaLM和Flan-PaLM模型的比例图，在图A.2中提供了另一个比例图，比较了具有少量shot提示的Flan-PaLM和具有自一致性提示的Flan PaLM。我们观察到强大的扩展性能，并看到随着LLM模型规模的扩大，性能会急剧提高。

A.5 Med-PaLM模型卡

Med PaLM使用与Flan PaLM相同的系统类型和实现框架[15]。我们在表A.2中显示了Med PaLM特有的模型卡[59]的部分。

A.6 Med PaLM多项选择题评估

Med PaLM使用指令提示调谐进行训练，以提高Flan PaLM生产的长型世代的质量。然而，考虑到指令提示调整的普遍性，该技术也可以应用于多项选择数据集。我们可以学习共享的软提示参数，这些参数将为指令和/或少数shot样本做准备，这些样本因每个多选数据集而异。

在一项初步实验中，我们使用MedQA、MedMCQA、PubMedQA和MMLU（临床主题）的指令提示调谐来训练Flan PaLM。示例由五名合格临床医生组成的小组撰写。每个训练示例都包含特定于数据集的指令和5个少数shot示例。使用思维链和自洽性，最终模型在MedQA上实现了67.2%的准确率，与Flan PaLM i Section 4的相应结果大致匹配。我们计划在今后的工作中推广这一早期成果。

A.7详细的人员评估结果

表A.3-表A.12总结了具有置信区间的详细人体评估结果。

A.8少数shot提示示例

我们在表A.13、表A.14、表A.15、表A.16和表A.17中提供了研究中使用的一些注射提示的示例。

A.9思维链提示示例

我们在表A.18、表A.19、表A.20和表A.21中提供了本研究中使用的一些思维链提示的示例

最后编辑于：2023.04.27 15:59:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

Med-PaLM；Med-PaLM2

推荐阅读更多精彩内容