ChatGPT 的出现引发了大量 AI 概念的讨论,这些概念既有联系又有区别,容易让人感到困惑。本文将对这些 GPT 相关的核心概念进行梳理和解析,帮助你快速了解它们的本质和区别。


核心概念一览

  1. Transformer
  2. GPT
  3. InstructGPT
  4. ChatGPT(GPT-3.5/GPT-4.0)
  5. 大模型
  6. AIGC(人工智能生成内容)
  7. AGI(通用人工智能)
  8. LLM(大型语言模型)
  9. 羊驼(Alpaca)
  10. Fine-tuning(微调)
  11. 自监督学习(Self-Supervised Learning)
  12. 自注意力机制(Self-Attention Mechanism)
  13. 零样本学习(Zero-Shot Learning)
  14. AI Alignment(AI 对齐)
  15. 词嵌入(Word Embeddings)
  16. 位置编码(Positional Encoding)
  17. 中文 LangChain

Transformer

Transformer 是一种基于自注意力机制的深度学习模型,最初用于序列到序列任务(如机器翻译)。它的核心特点是能够并行处理序列中的所有单词,捕获长距离依赖关系。Transformer 的架构包括以下关键组件:

  • 自注意力机制:捕获序列中单词间的依赖关系。
  • 位置编码:提供序列中单词的位置信息。
  • 多头注意力:在不同表示空间中学习序列表示。
  • 残差连接与层归一化:缓解梯度消失问题。

GPT

GPT(Generative Pre-training Transformer)是 OpenAI 开发的基于 Transformer 的大规模自然语言生成模型。其训练分为两阶段:

  1. 预训练:在无标签文本上学习语言模式。
  2. 微调:在特定任务数据上优化模型。

GPT 的演进历程:

  • GPT-1:1 亿参数,需针对每个任务单独微调。
  • GPT-2:15 亿参数,具备无监督学习能力。
  • GPT-3:1750 亿参数,支持零样本和少样本学习。

InstructGPT

InstructGPT 是 OpenAI 为解决 GPT-3 在实际应用中不符合人类偏好的问题而推出的改进版本。其核心技术是 RLHF(基于人类反馈的强化学习),通过人类反馈微调模型,使其输出更符合用户意图。


ChatGPT(GPT-3.5/GPT-4.0)

ChatGPT 是基于 GPT-3.5 和 GPT-4 的对话模型,支持用户通过客户端进行交互。GPT-4 是多模态模型,能够处理文本和图像输入,参数量达到 1 万亿,性能显著优于 GPT-3.5。

👉 WildCard | 一分钟注册,轻松订阅海外线上服务


大模型

大模型(如 GPT-3、BERT)通过在大规模无标注数据上预训练,学习通用特征和规则。相比传统小模型,大模型具备更强的泛化能力,能够适应多种任务。


AIGC(人工智能生成内容)

AIGC 是利用 AI 自动生成内容的技术,涵盖文本、图像、音乐、视频等多种形式。其核心技术包括 Transformer、Diffusion、CLIP 和 Stable Diffusion。


AGI(通用人工智能)

AGI 指具备全面理解、学习和应用知识能力的人工智能,与当前的窄人工智能(如 GPT)不同。实现 AGI 仍需解决语义理解、推理、自我意识等重大挑战。


LLM(大型语言模型)

LLM 是一种在大规模文本数据上训练的 AI 模型,能够执行文本生成、翻译、情感分析等任务。典型模型包括 GPT-3、BERT、T5 等。


羊驼(Alpaca)

Alpaca 是斯坦福基于 LLaMA 微调的开源模型,参数量为 70 亿。其性能接近 GPT-3.5,训练成本低廉,为开源社区提供了高性价比的替代方案。


Fine-tuning(微调)

微调是对预训练模型进行额外训练以适应特定任务的技术。它能够在小数据集上快速优化模型性能。


自监督学习(Self-Supervised Learning)

自监督学习通过从数据本身生成标签进行训练,广泛应用于语言模型(如 GPT)。其优势在于能够利用大量未标记数据。


自注意力机制(Self-Attention Mechanism)

自注意力机制是 Transformer 的核心,能够捕获序列中不同位置的依赖关系。它通过查询、键和值向量计算权重,生成新的表示。


零样本学习(Zero-Shot Learning)

零样本学习允许模型在未见过的类别上进行分类。GPT-3 的零样本能力使其能够在没有训练数据的情况下完成新任务。


AI Alignment(AI 对齐)

AI 对齐旨在让 AI 的输出符合人类价值观和需求。InstructGPT 通过人类反馈微调模型,显著提升了对齐效果。


词嵌入(Word Embeddings)

词嵌入将词语映射为向量,捕捉语义和语法特征。GPT 使用子词级别的嵌入方法,能够处理罕见词汇和词形变化。


位置编码(Positional Encoding)

位置编码为序列数据提供位置信息,帮助模型理解单词的顺序。GPT 使用正弦和余弦函数生成位置编码。


中文 LangChain

LangChain 是一个工具包,帮助将 LLM 与本地知识库结合,实现智能问答。其核心流程包括:

  1. 将领域内容分块并生成向量索引。
  2. 基于查询进行语义检索。
  3. 使用相关内容生成回答。

👉 WildCard | 一分钟注册,轻松订阅海外线上服务