01 Llama 2简介
为了更深入了解Llama 2,我们从Meta官网探寻了一些基本信息:
· Llama 2,作为Llama的下一代版本,推出了三种尺寸供选择:7B、13B和70B。其中,7B和13B沿用了Llama 1的经典架构,而70B模型则采用了创新的分组查询注意力(GQA)架构。
· 在预训练数据方面,Llama 2的表现颇为出色。相较于Llama 1,Llama 2的预训练语料增加了40%,这使得模型能够在更丰富的语境中学习。更令人惊艳的是,预训练模型在2万亿个标记上进行了训练,且上下文长度是Llama 1的两倍。而经过微调的模型,也在超过100万条人工标注的数据上进行了精进训练。
进一步观察了Llama 2模型的评估性能,发现它在许多外部基准测试中都优于其他开源语言模型。这些测试涵盖了推理、编码、熟练度和知识等多个方面。
优化后的Llama 2展现出的卓越表现让人对其架构产生了浓厚兴趣。下面,我们将深入探索Llama 2模型的架构,以揭示其强大的能力背后的秘密。
02 Llama 2模型的整体结构
在深入探讨Llama 2的架构之前,我们先来对比一下传统的Transformer架构和Llama 2的架构,以便更好地理解其创新之处。
与传统的Transformer架构相比,Llama 2架构具有以下独特的特点:
1、取消Encoder,仅保留Decoder:这一设计使得模型结构更为简洁,专注于生成和解码任务。
2、采用RMSNorm并将Norm前置