ChatGPT 的出现引发了大量 AI 概念的讨论,这些概念既有联系又有区别,容易让人感到困惑。本文将对这些 GPT 相关的核心概念进行梳理和解析,帮助你快速了解它们的本质和区别。
核心概念一览
- Transformer
- GPT
- InstructGPT
- ChatGPT(GPT-3.5/GPT-4.0)
- 大模型
- AIGC(人工智能生成内容)
- AGI(通用人工智能)
- LLM(大型语言模型)
- 羊驼(Alpaca)
- Fine-tuning(微调)
- 自监督学习(Self-Supervised Learning)
- 自注意力机制(Self-Attention Mechanism)
- 零样本学习(Zero-Shot Learning)
- AI Alignment(AI 对齐)
- 词嵌入(Word Embeddings)
- 位置编码(Positional Encoding)
- 中文 LangChain
Transformer
Transformer 是一种基于自注意力机制的深度学习模型,最初用于序列到序列任务(如机器翻译)。它的核心特点是能够并行处理序列中的所有单词,捕获长距离依赖关系。Transformer 的架构包括以下关键组件:
- 自注意力机制:捕获序列中单词间的依赖关系。
- 位置编码:提供序列中单词的位置信息。
- 多头注意力:在不同表示空间中学习序列表示。
- 残差连接与层归一化:缓解梯度消失问题。
GPT
GPT(Generative Pre-training Transformer)是 OpenAI 开发的基于 Transformer 的大规模自然语言生成模型。其训练分为两阶段:
- 预训练:在无标签文本上学习语言模式。
- 微调:在特定任务数据上优化模型。
GPT 的演进历程:
- GPT-1:1 亿参数,需针对每个任务单独微调。
- GPT-2:15 亿参数,具备无监督学习能力。
- GPT-3:1750 亿参数,支持零样本和少样本学习。
InstructGPT
InstructGPT 是 OpenAI 为解决 GPT-3 在实际应用中不符合人类偏好的问题而推出的改进版本。其核心技术是 RLHF(基于人类反馈的强化学习),通过人类反馈微调模型,使其输出更符合用户意图。
ChatGPT(GPT-3.5/GPT-4.0)
ChatGPT 是基于 GPT-3.5 和 GPT-4 的对话模型,支持用户通过客户端进行交互。GPT-4 是多模态模型,能够处理文本和图像输入,参数量达到 1 万亿,性能显著优于 GPT-3.5。
大模型
大模型(如 GPT-3、BERT)通过在大规模无标注数据上预训练,学习通用特征和规则。相比传统小模型,大模型具备更强的泛化能力,能够适应多种任务。
AIGC(人工智能生成内容)
AIGC 是利用 AI 自动生成内容的技术,涵盖文本、图像、音乐、视频等多种形式。其核心技术包括 Transformer、Diffusion、CLIP 和 Stable Diffusion。
AGI(通用人工智能)
AGI 指具备全面理解、学习和应用知识能力的人工智能,与当前的窄人工智能(如 GPT)不同。实现 AGI 仍需解决语义理解、推理、自我意识等重大挑战。
LLM(大型语言模型)
LLM 是一种在大规模文本数据上训练的 AI 模型,能够执行文本生成、翻译、情感分析等任务。典型模型包括 GPT-3、BERT、T5 等。
羊驼(Alpaca)
Alpaca 是斯坦福基于 LLaMA 微调的开源模型,参数量为 70 亿。其性能接近 GPT-3.5,训练成本低廉,为开源社区提供了高性价比的替代方案。
Fine-tuning(微调)
微调是对预训练模型进行额外训练以适应特定任务的技术。它能够在小数据集上快速优化模型性能。
自监督学习(Self-Supervised Learning)
自监督学习通过从数据本身生成标签进行训练,广泛应用于语言模型(如 GPT)。其优势在于能够利用大量未标记数据。
自注意力机制(Self-Attention Mechanism)
自注意力机制是 Transformer 的核心,能够捕获序列中不同位置的依赖关系。它通过查询、键和值向量计算权重,生成新的表示。
零样本学习(Zero-Shot Learning)
零样本学习允许模型在未见过的类别上进行分类。GPT-3 的零样本能力使其能够在没有训练数据的情况下完成新任务。
AI Alignment(AI 对齐)
AI 对齐旨在让 AI 的输出符合人类价值观和需求。InstructGPT 通过人类反馈微调模型,显著提升了对齐效果。
词嵌入(Word Embeddings)
词嵌入将词语映射为向量,捕捉语义和语法特征。GPT 使用子词级别的嵌入方法,能够处理罕见词汇和词形变化。
位置编码(Positional Encoding)
位置编码为序列数据提供位置信息,帮助模型理解单词的顺序。GPT 使用正弦和余弦函数生成位置编码。
中文 LangChain
LangChain 是一个工具包,帮助将 LLM 与本地知识库结合,实现智能问答。其核心流程包括:
- 将领域内容分块并生成向量索引。
- 基于查询进行语义检索。
- 使用相关内容生成回答。