发布时间:2023-03-15 08:30
线性回归:
首先我们来看一个数据:
有这么一组样本点,线性回归就是找出一条拟合样本点的线。
样本:
一般我们说线性回归的表达式:
Y = wTX + b
最小二乘推导:
当然我们直接看结果发现有求逆的过程,但是在现实生活中我们会发现也有矩阵不可逆的情况,因此我们要引入正则化,从矩阵的角度来说,解决矩阵不可逆,从模型来说,为了防止过拟合,例如一个样本点,p维的一个数据,那么那是不是有无数条拟合的直线,因此很容易就陷入了过拟合。
解决过拟合的方法:1.增加数据,2.降维(特征选择,特征提取)3.正则化
正则化其实就是对代价函数加上一个约束:
L(w)【loss】 + λP(w)【惩罚项】
L1 :lasso :p(w)=||w||1 L1范数
L2 :ridge(岭回归) :p(w)= ||w||2 L2范数
L2正则化为什么可以防止过拟合并且矩阵求逆?
我们观察岭回归的出来的解析解,是不是多了一个λI(对角矩阵),半正定矩阵+对角矩阵就一定是一个可逆的矩阵。
中心极限定理:
给定一个任意的分布,从中抽取m次,每次抽取n个样本,然后把这些m组样本求平均值,这些平均值是接近正态分布的。
回归问题的评估方法:
MSE均方误差方法:mean_squared_error
计算每一个样本得预测值和真实值之间得差得平方,然后求和再平均
方法:mean_absolute_error
方法:r2_score()
1., , 可以准确的计算出预测结果和真实的结果的误差大小,但却无法衡量模型的好坏程度。但是这些指标可以指导我们的模型改进工作,如调参,特征选择等。
2.的结果可以很清楚的说明模型的好坏,该值越接近于1,表明模型的效果越好。该值越接近于0,表明模型的效果越差。
多项式回归:
多项式回归是线性回归的一种扩展,它可以使我们对非线性关系进行建模。线性回归使用直线来拟合数据,如一次函数y = k x + b等。而多项式回归则使用曲线来拟合数据,如二次函数y=ax^2+bx+c,三次函数y=ax^3+bx^2+cx+d。
多项式回归得作用:
有时直线难以拟合全部的数据,需要曲线来适应数据,如二次模型、三次模型等等。
次数的选择:
多项式函数有多种,一般来说,需要先观察数据的形状,再去决定选用什么形式的多项式函数来处理问题。比如,从数据的散点图观察,如果有一个“弯”,就可以考虑用二次多项式;有两个“弯”,可以考虑用三次多项式;有三个“弯”,则考虑用四次多项式,以此类推。
虽然真实的回归函数不一定是某个次数的多项式,但只要拟合的好,用适当的多项式来近似模拟真实的回归函数是可行的。
Pipline包,PolynomialFeatures包,StandardScaler包
归一化:
作用:
标准差标准化(standardScale)使得经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。