Google 白皮书:提示词工程的艺术与科学
Google 发布了一份关于提示词工程的综合白皮书,作者是 Lee Boonstra(2024 年 9 月)。本文提炼了这份 65 页文档的核心见解——一份从大语言模型获得更好结果的实用指南。 1. 引言 谈到大语言模型的输入和输出,文本提示词(有时伴随图像等其他模态)是模型用来预测特定输出的输入。 你不需要成为数据科学家或机器学习工程师——每个人都可以写提示词。 然而,撰写最有效的提示词可能很复杂。许多因素会影响其效果:你使用的模型、模型的训练数据、模型配置、用词选择、风格、语气、结构和上下文。 因此,提示词工程是一个迭代过程。不充分的提示词可能导致模糊、不准确的回复,阻碍模型提供有意义输出的能力。 2. 什么是提示词工程? 记住大语言模型是如何工作的:它是一个预测引擎。模型接收顺序文本作为输入,并根据训练数据预测下一个 token 应该是什么。大语言模型反复执行此操作,将每个预测的 token 添加到序列中以预测下一个。 当你写提示词时,你正在尝试让大语言模型预测正确的 token 序列。 提示词工程是设计高质量提示词以引导大语言模型产生准确输出的过程。这包括反复调整以找到最佳提示词、优化提示词长度,以及评估写作风格和结构与任务的关系。 提示词可用于各种任务:文本摘要、信息提取、问答、文本分类、语言或代码翻译、代码生成,以及代码文档和推理。 3. 大语言模型输出配置 选择模型后,你需要确定模型配置。大多数大语言模型都有各种控制输出的配置选项。有效的提示词工程需要为你的任务进行最优设置。 3.1 输出长度 一个重要设置是生成的 token 数量。生成更多 token 需要更多计算,导致更高的能耗、可能更慢的响应时间和更高的成本。 重要提示:减少输出长度不会让大语言模型在风格上更简洁——它只是让大语言模型在达到限制后停止预测。如果你需要简短输出,你还需要相应地设计你的提示词。 3.2 采样控制 大语言模型并不是正式预测单个 token。相反,它们预测下一个 token 可能是什么的概率。然后对这些概率进行采样以确定输出 token。 Temperature、top-K 和 top-P 是决定如何处理预测 token 概率的最常见设置。 3.2.1 Temperature(温度) Temperature 控制 token 选择的随机程度: Temperature 0(贪婪解码):确定性——总是选择最高概率的 token 低 Temperature(0.1-0.3):更确定性、更事实性的回复 高 Temperature(0.7-1.0):更多样、更有创意、更意外的结果 非常高(>1.0):所有 token 变得同等可能 3.2.2 Top-K 和 Top-P 这些采样设置限制预测的下一个 token 来自具有最高预测概率的 token。 ...