机器学习--线性回归(Linear Regression)

发布时间：2023-03-15 08:30

线性回归：

最小二乘法：
从概率角度来看
线性回归正则化（L1，L2）

首先我们来看一个数据：

$\"机器学习--线性回归(Linear$

有这么一组样本点，线性回归就是找出一条拟合样本点的线。

样本：

$\"机器学习--线性回归(Linear$

一般我们说线性回归的表达式：

Y = wTX + b

最小二乘推导：

$\"机器学习--线性回归(Linear$ $\"机器学习--线性回归(Linear$

当然我们直接看结果发现有求逆的过程，但是在现实生活中我们会发现也有矩阵不可逆的情况，因此我们要引入正则化，从矩阵的角度来说，解决矩阵不可逆，从模型来说，为了防止过拟合，例如一个样本点，p维的一个数据，那么那是不是有无数条拟合的直线，因此很容易就陷入了过拟合。

解决过拟合的方法：1.增加数据，2.降维（特征选择，特征提取）3.正则化

正则化其实就是对代价函数加上一个约束：

L（w）【loss】 + λP（w）【惩罚项】

L1 ：lasso ：p（w）=||w||1 L1范数

L2 ：ridge（岭回归）：p（w）= ||w||2 L2范数

L2正则化为什么可以防止过拟合并且矩阵求逆？

$\"机器学习--线性回归(Linear$

我们观察岭回归的出来的解析解，是不是多了一个λI（对角矩阵），半正定矩阵+对角矩阵就一定是一个可逆的矩阵。

中心极限定理：

给定一个任意的分布，从中抽取m次，每次抽取n个样本，然后把这些m组样本求平均值，这些平均值是接近正态分布的。

回归问题的评估方法：

$\"机器学习--线性回归(Linear$

MSE均方误差方法：mean_squared_error

计算每一个样本得预测值和真实值之间得差得平方，然后求和再平均

$\"机器学习--线性回归(Linear$

方法：mean_absolute_error

$\"机器学习--线性回归(Linear$

方法：r2_score()

1. $\"\"$ , $\"\"$ , $\"\"$ 可以准确的计算出预测结果和真实的结果的误差大小，但却无法衡量模型的好坏程度。但是这些指标可以指导我们的模型改进工作，如调参，特征选择等。
2. $\"\"$ 的结果可以很清楚的说明模型的好坏，该值越接近于1，表明模型的效果越好。该值越接近于0，表明模型的效果越差。

多项式回归：

多项式回归是线性回归的一种扩展，它可以使我们对非线性关系进行建模。线性回归使用直线来拟合数据，如一次函数y = k x + b等。而多项式回归则使用曲线来拟合数据，如二次函数y=ax^2+bx+c，三次函数y=ax^3+bx^2+cx+d。

多项式回归得作用：

有时直线难以拟合全部的数据，需要曲线来适应数据，如二次模型、三次模型等等。

次数的选择：

多项式函数有多种，一般来说，需要先观察数据的形状，再去决定选用什么形式的多项式函数来处理问题。比如，从数据的散点图观察，如果有一个“弯”，就可以考虑用二次多项式；有两个“弯”，可以考虑用三次多项式；有三个“弯”，则考虑用四次多项式，以此类推。

虽然真实的回归函数不一定是某个次数的多项式，但只要拟合的好，用适当的多项式来近似模拟真实的回归函数是可行的。

Pipline包，PolynomialFeatures包，StandardScaler包

归一化:

作用：

归一化后加快了梯度下降求最优解的速度；

归一化有可能提高精度；

标准差标准化（standardScale）使得经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

$\"\"$

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

机器学习--线性回归(Linear Regression)

相关推荐