Embedding

嵌入,就是将数据(文本、视频等)转换为向量,嵌入到向量空间。一般用于机器学习的语义表示。

基本原理

ref: 嵌入 (数学) - 维基百科,自由的百科全书

嵌入概念来自于数学,本质上是映射,理解为将任何类型的数据映射到一个向量空间,使其支持比较与计算。

数学上,“嵌入”的含义为:“保持结构的单射“。

基本理解

ref: 什么是嵌入? | IBM

嵌入有以下好处:

  • 表示语义,嵌入的目标是向量空间,实际上就是将数据转换为向量,利用向量表示语义
  • 降维:提供降低数据维度的手段。例如从 1000 维的数据映射到 100 维,便于数据处理
  • 支持泛化:语义的向量空间有很强的普适性,一旦嵌入后可以直接在向量空间中做语义的比较与计算。