机器学习概念初步

三月 14, 2023 机器学习本文总阅读量次

最近在学关于机器学习的东西，感觉有点难消化，但还是坚持啃一啃，做一点笔记

非显著式编程：让计算机自己总结事物的规律，通过已知的数据学习经验来获取算法最好性能指标的过程，来预测未知的样本。

打标签label：告诉机器数据是什么，对数据进行标记。

收益函数reward function：机器在特定环境下的行为所带来的收益。

监督学习supervised learning：从所有带标签的数据训练集中推出一个功能规律的机器学习

无监督学习unsupervised learning：从没有标签的的数据集中分析特征，推断出数据的关系的机器学习(聚类clustering；em算法expectation maximization；主成分分析法principle component analysis）

半监督学习semi-supervised learning：从带有少量标签的数据样本中推出经验规律的学习。

强化学习reinforement learning：计算机通过与环境的互动逐渐强化自己的行为模式

监督学习根据数据标签是否存在的分类，传统的监督学习：监督学习，无监督学习，半监督学习(支持向量机SVM，人工神经网络artificial neural network，深度神经网络deep neural network)。基于标签的固有属性，监督学习分为分类classification(标签是离散值)和回归regression(标签是连续值)，如识别某张人脸，人脸对比和预测股票，房价。

线性可分linear separable：一条直线可以分割两类数据集

线性不可分nonlinear separable：一条直线不可以区分两类数据集

特征空间：n个特征组成的n维平面，在特征空间上距离接近的样本，他们属于同一个类别的概率会更高

简单的神经元MP模型，基于神经元的生理结构建立起单个神经元的数学模型，多个加权输入偏置求和，经过激活函数非线性变换。

卷积神经网络convolution neural network：专门用来处理类似网络结构的数据的神经网络。卷积网格是指那些只至少在网络的一层中使用卷积计算来代替一般的矩阵计算的神经网络。卷积神经网络基本结构由输入层、卷积层、池化层、激活函数层和全连接层，输入层代表一张图片的像素矩阵；卷积层对图像和滤波矩阵filter做内积操作，每计算玩一个窗口(卷积核)，窗口平移直到计算完所有图像数据；池化层保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力；激活函数进行非线性变换；全连接层则起到将学到的特征映射到样本标记空间。

depth深度：神经元个数，代表了滤波器的个数；stride步长：决定滑动多少步到边缘.

神经网络后向传播算法Background Propogation：核心是梯度下降法求局部极值。

自编码器auto-encoder：是一种无监督领域的神经网络模型，它可以表征到输入数据的隐含特征，这称为编码，同时用学习到的新特征可以重构出原始输入数据，称之为解码。比主成分分析法更强一些，能表征非线性变换。自动编码器还可以用于特征降维，将学习到的新特征送入有监督学习模型中，所以可以作为特征提取器。在引入语音识别系统后，EA代替了隐含马尔科夫模型Morkov和高斯混合模型。