像GPT3、ChatGPT和BARD这样的大型语言模型(LLM)如今风靡一时。每个人都对这些工具对社会的好坏以及它们对AI的未来意味着什么有自己的看法。谷歌因其新模型BARD错了一个复杂的问题(轻微)而受到了很多批评。当被问到“我可以告诉我9岁的孩子关于詹姆斯·韦伯太空望远镜的哪些新发现?”–聊天机器人提供了三个答案,其中2个正确,1个错误。错误的是第一张“系外行星”照片是由JWST拍摄的,这是不正确的。所以基本上,该模型在其知识库中存储了一个不正确的事实。为了使大型语言模型有效,我们需要一种方法来更新这些事实或用新知识扩充事实。
让我们首先看看事实是如何存储在大型语言模型(LLM)中的。大型语言模型不像数据库或文件那样存储传统意义上的信息和事实。相反,他们接受了大量文本数据的训练,并学习了这些数据中的模式和关系。这使他们能够对问题生成类似人类的回答,但他们没有特定的存储位置来存储他们学到的信息。在回答问题时,模型会使用其训练来根据收到的输入生成响应。语言模型所拥有的信息和知识是它在其训练数据中学习到的模式的结果,而不是它被显式存储在模型内存中的结果。
因此,如果LLM内存中的事实是错误的或陈旧的,则需要通过提示提供新信息。提示是发送给LLM的文本,其中包含查询和支持证据,这些证据可以是一些新的或更正的事实。这里有3种方法来解决这个问题。
1.纠正LLM编码事实的一种方法是使用外部知识库提供与上下文相关的新事实。该知识库可能是用于获取相关信息的API调用或对SQL、No-SQL或Vector数据库的查找。可以从存储数据实体及其之间关系的知识图谱中提取更高级的知识。根据用户查询的信息,可以检索相关上下文信息并将其作为附加事实提供给LLM。这些事实也可以格式化为看起来像训练示例以改进学习过程。例如,您可能会为模型传递一堆问答对,以学习如何提供答案。
2.一种更创新(也更昂贵)的增强LLM的方法是使用训练数据进行实际微调。因此,我们不是查询知识库以添加特定事实,而是通过对知识库进行采样来构建训练数据集。使用诸如微调之类的监督学习技术,我们可以创建一个新版本的LLM,该版本是根据这些额外知识进行训练的。这个过程通常很昂贵,在OpenAI中构建和维护一个微调模型可能要花费几千美元。当然,随着时间的推移,成本预计会变得更便宜。
3.另一种选择是使用强化学习(RL)等方法通过人类反馈来训练代理并学习如何回答问题的策略。这种方法在构建擅长特定任务的较小足迹模型方面非常有效。例如,OpenAI发布的著名ChatGPT是在监督学习和RL与人类反馈相结合的基础上进行训练的。
总之,这是一个高度发展的空间,每家大公司都希望进入并展示他们的差异化。我们很快就会在零售、医疗保健和银行业等大多数领域看到主要的LLM工具,它们可以像人类一样理解语言的细微差别。这些与企业数据集成的LLM支持的工具可以简化访问并在正确的时间向正确的人提供正确的数据。