发布时间:2022-08-19 11:23
统计学习的定义:计算机通过运用数据及统计方法提高系统性能的学习
统计学习的对象:数据
统计学习的目标在于:从假设空间中选取最优模型
训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。
统计学习的方法:基于数据构建概率统计模型从而对数据进行预测与分析
实现方法的步骤:
①得到一个有限的训练数据集合
②确定包含所有可能模型的假设空间(学习模型的集合)
③确定模型选择的准则(学习的策略)
④实现求解最优模型的算法(学习的算法)
⑤利用学习的最优模型对新数据进行预测和分析
机器学习的分类:主要包括监督学习、无监督学习、强化学习
1、监督学习:从标注数据中学习预测模型
输入变量和输出变量均为连续变量的预测问题称为回归问题,输出变量均为有限个离散变量的预测问题称为分类问题,输入变量和输出变量均为变量序列的预测问题称为标注问题
2、无监督学习:从无标注数据中学习预测模型
3、强化学习:智能系统在与环境的连续互动中学习最优行为策略
统计学方法三要素:方法=模型+策略+算法
模型:所要学习的条件概率分布或决策函数。
模型的假设空间:包括所有可能的条件概率分布或决策函数。
策略:按照什么样的标准学习或者选择最优模型
两个基本策略:经验风险最小化和结构风险最小化(正则化方法)
算法:学习模型的具体计算方法(用什么样的计算方法求解最优模型)
学习方法的评估标准:基于损失函数模型的训练误差和测试误差
泛化能力:对未知数据的预测能力
过拟合:对训练数据的预测能力很好,但是对未知数据的预测很差。
常用的模型选择方法:正则化、交叉验证
(1)正则化:是结构风险最小化的实现,是在经验风险上加一个 正则化项 或 罚项 。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。
(2)交叉验证:重复的使用数据。把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复进行训练、测试以及模型选择。