AI概念介绍
这些概念都是个人理解,如有错误可以指出。
LLM (Large Language Model)
-
本质:LLM(大语言模型)是一个参数量巨大的数学模型(统计概率模型);本质上是词语接龙不断去预测下一个字
-
涌现: 当参数达到一定规模时,AI 会突然获得原本不具备的复杂逻辑推理、代码理解等高级能力。
token(词元)
- 定义:是LLM(大语言模型)的最小语义单元
- 本质:token是什么?其实就是代表单词的的编号
tokenizer(分词器)
- 作用:将prompt转换成token Ids一串数字编号
既然token是代表单词的的编号,而token又是LLM的基本单位,那么我们输入的prompt肯定是需要转换成token的。
因此需要一个转换器,这个转换器就是tokenizer(分词器)
embedding(嵌入)
注意embedding模型属于LLM模型中的一部分
- 作用:为token(数字编号)增加语义;将孤立的数字编号,转换成包含语义信息的高维数字向量。
为什么要引入高维数据向量?主要是为了从更多的维度描述单词。
例如:维度1表示颜色;维度2表示形状等等
而且如苹果和西瓜在向量坐标中虽然编号不同;但是空间位置很相近。让AI能够理解意思而不仅仅是字面
因此引入高维数字向量能从更多的维度去描述单词达到更加准确的描述。
流程
- 输入层:
Prompt$\rightarrow$ Tokenizer $\rightarrow$Token IDs。 - 语义转换:
Token IDs$\rightarrow$ Embedding 层 $\rightarrow$语义向量。 - 核心计算:
语义向量$\rightarrow$ Transformer 层 $\rightarrow$输出向量。- 这一步是在“猜”下一个 Token 对应的概率分布。
- 预测层:
输出向量$\rightarrow$ 概率计算 $\rightarrow$概率最高的 Token ID。 - 输出层:
Token ID$\rightarrow$ Tokenizer $\rightarrow$人类文字。