Pretraining 预训练
Supervised Finetuning 监督微调
Reward Modeling 奖励建模
Reinforcement Learning 强化学习
将GPT助手模型应用于问题
首先,目前最好的性能来自 GPT4 模型。它是迄今为止功能最强大的模型。
然后, 让提示里包含详细的任务内容、相关信息和说明。想想如果它们不能给你回邮件你会告诉它们什么。要记住任务承包商是人,他们有内心独白,他们非常聪明;而LLM不具备这些品质。因此,请务必仔细考虑LLM的心理,并迎合这一点。甚至向这些提示添加任何相关的上下文和信息。
多参考很多提示工程技术。我在上面的幻灯片中突出显示了其中一些,但这是一个非常大的空间,我只建议您在线寻找快速的Prompt工程技术。那里有很多内容。
尝试使用少样本few-shots示例提示。这指的是你不只是想问,你还想尽可能地展示(你想要的),给它举例子,如果可以的话,帮助它真正理解你的意思。
尝试使用工具和插件来分担 LLM 本身难以完成的任务。
然后不仅要考虑单个提示和答案,还要考虑潜在的链条和反射,以及如何将它们粘合在一起,以及如何制作多个样本等。
最后,如果你认为你已经最大化了提示工程的效果,我认为你应该坚持一段时间,看看一些可能对你的应用程序的模型微调,但预计这会更慢并且涉及更多。
然后这里有一个脆弱的专家研究区,我想说的是 RLHF,如果你能让它工作的话。它目前确实比 SFT 好一点,但是,我想说的是,这非常复杂。
为了优化您的成本,请尝试探索容量较低的模型或更短的提示等。