Machine Learning
机器学习,即为模拟人类的学习方法,使用机器,利用统计学在大量的数据中找规律,并利用得到的规律解决现实问题。
主要词条
- AR 自回归模型:自己预测自己的方法
- BC 贝叶斯分类器:使用贝叶斯定理,训练过程计算先验和似然,预测过程最终输出后验
- CNN 卷积神经网络:处理图片(二维)数据,在二维表上利用滑动窗口求卷积,压缩输入数据的的方法
- DBN 深层信念网络:核心为 RBM 的网络,RBM 负责编码,sigmoid 网络负责解码
- VAE 变分自编码器:编码过程将数据压缩,解码过程将数据展开,在编码和解码过程中数据表示会产生一定变化。
- GAN 对抗生成网络:模型的二阶结构,使用“生成器”和“判别器”生成可以假乱真的内容。
- GBM
- HMM
- kNN
- K-Means
- LSTM
- RL
- RNN
- SFT
- SVM
概述
机器学习是一整套关于算法的方法论,是人工智能的一部分。机器学习能使用大量的数据,进而能够呈现不错的缩放定律效应,保证其能在数据量越大的情况下,获得更好的表现,有“不断进化”的事实效果。
机器学习有以下几个特征:
- 数据驱动:良好的机器学习效果,往往要有大量的数据作为支撑。
- 自动化:机器学习方法是自动化的,出了需要利用人工对数据标注之外,在学习过程中一般不需要人工干预。
- 模型参数:机器学习训练完成之后的结果是一个“模型”,模型由众多参数组成,能够直接反映训练数据中呈现的规律。
分类
机器学习分为三类,分别是:
- 任务驱动的监督学习:以任务驱动的学习。数据中的每个任务包含了正确答案。机器学习模型根据答案去寻找原始数据中的规律。
- 数据驱动的无监督学习:数据没有标记,机器根据模型的内在规律建模,一般对应的是聚类算法。
- 错误驱动的RL:机器在试错过程中,不断地调整与优化策略。最终保证机器的行为符合预期。
以上三类机器学习方法,分别有不同的应用领域。而一般应用最多的,是监督学习。
利用统计学找规律
大量的机器学习算法是建立在统计学基础上的,而简单的机器学习中的模式识别算法更是直接使用了诸如回归分析这样的基础算法。
而机器学习的本质就是“找规律”。这和托勒密发现行星轨道模型没什么区别。只不过机器学习是在海量的数据中自动化地找规律,而托勒密则是利用数学,用人工计算的方法计算模型。