三只松鼠网络营销方案_又顺又旺的公司名字_百度竞价产品_管理人员课程培训

深度神经网络模型，包括 LLM，无法直接处理原始文本。由于文本是分类的，它与用于实现和训练神经网络的数学操作不兼容。因此，我们需要一种方法来将词语表示为连续值向量。

注意：如果读者对向量和张量不太了解，请参阅《机器学习数学基础》（电子工业出版社）

将数据转换为向量格式的概念通常被称为嵌入（embedding）。通过使用特定的神经网络层或另一个预训练的神经网络模型，我们可以嵌入不同类型的数据——例如视频、音频和文本，如图 2.2 所示。然而，需要注意的是，不同的数据格式需要不同的嵌入模型。例如，为文本设计的嵌入模型不适合用于嵌入音频或视频数据。

在这里插入图片描述

图 2.2 深度学习模型无法直接处理视频、音频和文本等原始数据格式。因此，我们使用嵌入模型将这些原始数据转换成密集的向量表示，以便深度学习架构能够容易地理解并处理。具体来说，此图展示了将原始数据转换为三维数值向量的过程。

在原理上讲，嵌入是从诸如词语、图像甚至是整个文档等离散对象到连续向量空间点的映射——嵌入的主要目的是将非数值数据转换成神经网络可以处理的格式。

虽然词嵌入是最常见的文本嵌入形式，但也存在针对句子、段落或整个文档的嵌入。句子或段落嵌入是增强检索生成（retrieval-augmented generation，RAG）的通常选择。RAG 结合了生成（如产生文本）与检索（如搜索外部知识库），以在生成文本时提取相关信息。但现在，我们的目标是训练类似 GPT 的 LLM，这些模型学习一次生成一个词的文本，所以还是要专注于词嵌入。

为了生成词嵌入，已经开发了多种算法和框架。一个较早且非常流行的是 Word2Vec 方法。Word2Vec 通过给定目标词预测其上下文或者相反的方式来训练神经网络架构以生成词嵌入。Word2Vec 背后的主要思想是出现在相似上下文中的词语往往具有相似的意义。因此，当为了可视化目的被投影到二维词嵌入时，相似的术语会被聚集在一起，如图 2.3 所示。

在这里插入图片描述

图 2.3 如果词嵌入是二维的，我们可以将它们绘制在一个二维散点图中以便于可视化，如这里所示。当使用词嵌入技术（例如Word2Vec）时，表示相似概念的词语在嵌入空间中往往彼此靠近。例如，在嵌入空间中，不同类型的鸟类相互之间的距离比国家和城市的距离要近。

词嵌入可以有不同的维度，从一维到数千维不等。更高的维度可能捕捉到更细致的关系，但会牺牲计算效率。

虽然我们可以使用预训练的模型如 Word2Vec 为机器学习模型生成嵌入，但 LLM 通常会生成作为输入层一部分并在训练过程中更新的自有嵌入。将嵌入作为 LLM 训练的一部分进行优化而非使用 Word2Vec 的优势在于，这些嵌入是针对特定任务和数据进行优化的。在后续内容中将实现这样的嵌入层。

不幸的是，高维嵌入对可视化提出了挑战，因为我们的感官感知和常用的图形表示本质上被限制在三维或更低维度，这就是为什么图 2.3 展示了二维嵌入在一个二维散点图中的原因。然而，在使用 LLM 时，通常使用的嵌入具有更高的维度。对于 GPT-2 和 GPT-3 来说，嵌入大小（通常称为模型隐藏状态的维度）根据具体的模型变体和大小而变化，这是性能与效率之间的权衡。最小的 GPT-2 模型（具有1.17亿和1.25亿参数）使用 768 维度的嵌入大小以提供具体的例子。最大的 GPT-3 模型（拥有1750亿参数）则使用 12,288 维度的嵌入大小。

原文：Sebastian Raschka. Build a Large Language Model(From Scratch)，此处为原文的中文翻译，为了阅读方便，有适当修改。

三只松鼠网络营销方案_又顺又旺的公司名字_百度竞价产品_管理人员课程培训

最新新闻

热搜词