一、选择模型结构
1、模型架构的选择
1. RNN (Recurrent Neural Network): • 用于处理序列数据。 • 有记忆功能,可以处理任意长度的序列。 • 存在长期依赖问题。 2. LSTM (Long Short-Term Memory): • RNN的一种变体,设计用于解决长期依赖问题。 • 通过“门”结构来控制信息流。 3. GRU (Gated Recurrent Unit): • LSTM的简化版本,具有相似的性能。 • 有两个门结构:重置门和更新门。 4. Transformer: • 采用自注意力机制处理序列数据。 • 能够并行处理序列中的所有元素,速度快。 • 架构非常灵活,已成为NLP领域的主流。 5. BERT (Bidirectional Encoder Representations from Transformers): • 基于Transformer的预训练模型,考虑了文本的双向上下文。 • 可以进行微调,以应对各种NLP任务。 6. GPT (Generative Pre-trained Transformer): • 使用Transformer架构的生成式预训练模型。 • 在自回归任务上进行预训练,然后可以应用于各种任务。 7. T5 (Text-to-Text Transfer Transformer): • 所有NLP任务都被视为文本到文本的转换。 • 使用Transformer架构。 8. XLNet: • 与BERT和GPT相结合的架构。 • 使用双向和自回归方法。 9. RoBERTa: • BERT的变种,通过调整预训练策略和参数来优化。 10. ALBERT (A Lite BERT): • BERT的轻量级版本。 • 减少了模型的大小,但保持了相似的性能。
当下主流大预言模型选用架构: 1、ChatGPT 4 ChatGPT是基于GPT模型的AI聊天产品,后文均简称为GPT。 从技术上看,GPT是一种基于Transformer架构的大语言模型(LLM)。GPT这个名字,实际上是”Generative Pre-trained Transformer”的缩写,中文意为“生成式预训练变换器”。
2、文心一言 ERNIE(Enhanced Representation through kNowledge IntEgration)是百度提出的一种预训练语言模型,ERNIE 模型基于 Transformer 结构,与 BERT 模型类似。然而,ERNIE 引入了一种全新的预训练任务设计,对各种类型的知识进行建模,从而改善自然语言理解任务的性能。ERNIE 在多个自然语言处理任务(如阅读理解、命名实体识别和情感分类等)上取得了显著的性能提升。
3、通义千问 QWen-7B是基于Transformer的预训练语言模型。 与标准transformer的主要区别如下:1)使用untied embedding嵌入;2)使用旋转位置嵌入-即RoPE相对位置编码;3)normalization实现–即RMSNorm代替LayerNorm;4)FFN激活函数-即SwiGLU代替 ReLU;5)attention中除QKV外无bias–采用flash attention加速训练….. 4、LLaMA LLaMA 是一个基于 Transformer 架构的基础的大型语言模型。 与 GPT 系列和其他基于 Transformer 的 LLM 类似,LLaMA 由嵌入层、多个 Transformer 块和语言模型头组成。 LLaMA 还结合了不同模型中使用的改进,例如预先标准化、SwiGLU 激活和旋转位置嵌入。 LLaMA 有四种不同的型号尺寸:7B、13B、33B 和 65B。 2.1 LLAMA LLaMA (Touvron et al., 2023) is a foundational, decoder-only large language model built upon the transformer architecture (Vaswani et al., 2017). Similar to the GPT series and other transformerbased LLMs, LLaMA consists of an embedding layer, multiple transformer blocks, and a language model head. LLaMA also incorporates improvements utilized in different models, such as prenormalization (Zhang & Sennrich, 2019), SwiGLU activation (Shazeer, 2020), and rotary embeddings (Su et al., 2021). LLaMA is available in four different model sizes: 7B, 13B, 33B, and 65B. –LLaMA技术报告
特性 |
Transformer |
RNN |
---|---|---|
工作原理 | 自注意力机制:Transformer 使用了一种称为“自注意力”(self-attention)的机制,它允许模型在处理一个词时,关注输入序列中的其他词。这种机制使模型能够捕捉长距离依赖关系。 | 序列处理:RNN通过逐步处理输入序列的方式来工作,每个时间步的输出依赖于前一个状态和当前的输入,这使得它天然适合处理序列数据,但也限制了其捕捉长距离依赖的能力。 |
并行化 | 高(得益于自注意力机制) | 有限(顺序性质) |
远距离依赖 | 优秀(有效捕捉依赖关系) | 较差(难以处理长距离依赖) |
在NLP任务中的表现 | 大多数复杂任务表现更优 | 适合更简单/早期的任务 |
训练难度 | 较易(不太容易梯度消失/爆炸) | 较难(容易梯度消失/爆炸) |
计算资源需求 | 较高(参数更多) | 较低(参数较少) |
数据需求 | 较高(数据越多表现越好) | 较低(可以用较少的数据训练) |
适用于简单任务 | 可能过度设计 | 非常适合 |
Nice share!