（一）概论

发布时间：2023-06-17 09:30

统计学习的定义：计算机通过运用数据及统计方法提高系统性能的学习
统计学习的对象：数据
统计学习的目标在于：从假设空间中选取最优模型
训练集用来训练模型，验证集用来选择模型，测试集用于对学习方法的评估。
统计学习的方法：基于数据构建概率统计模型从而对数据进行预测与分析
实现方法的步骤：
①得到一个有限的训练数据集合
②确定包含所有可能模型的假设空间（学习模型的集合）
③确定模型选择的准则（学习的策略）
④实现求解最优模型的算法（学习的算法）
⑤利用学习的最优模型对新数据进行预测和分析
机器学习的分类：主要包括监督学习、无监督学习、强化学习

1、监督学习：从标注数据中学习预测模型

输入变量和输出变量均为连续变量的预测问题称为回归问题，输出变量均为有限个离散变量的预测问题称为分类问题，输入变量和输出变量均为变量序列的预测问题称为标注问题
2、无监督学习：从无标注数据中学习预测模型

3、强化学习：智能系统在与环境的连续互动中学习最优行为策略

统计学方法三要素：方法=模型+策略+算法
模型：所要学习的条件概率分布或决策函数。
模型的假设空间：包括所有可能的条件概率分布或决策函数。
策略：按照什么样的标准学习或者选择最优模型
两个基本策略：经验风险最小化和结构风险最小化（正则化方法）
算法：学习模型的具体计算方法（用什么样的计算方法求解最优模型）

学习方法的评估标准：基于损失函数模型的训练误差和测试误差
泛化能力：对未知数据的预测能力
过拟合：对训练数据的预测能力很好，但是对未知数据的预测很差。
常用的模型选择方法：正则化、交叉验证
（1）正则化：是结构风险最小化的实现，是在经验风险上加一个正则化项或罚项。
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。
（2）交叉验证：重复的使用数据。把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复进行训练、测试以及模型选择。

（一）概论

相关推荐