发布时间:2023-12-11 11:30
变量之间X,Y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)
回归:回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述
线性的严格定义是一种映射关系,其映射关系满足可加性和其次性。通俗理解就是两个变量(因变量和自变量)之间存在一次方函数关系,在平面坐标系中表现为一条直线。
不满足线性即为非线性。
线性回归:在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。
如果只有一个因变量一个自变量,则被称作一元线性回归,如果一个因变量多个自变量,则被称为多元回归
回归模型的一般形式:y = f(x1,x2,x3,...,xp) + E
f(x1,x2,x3,...,xp)
确定性关系
E
随机误差(扰乱项):1.影响因素缺失,2.观测/测量误差,3.其他随机误差
需求分析明确变量
了解实际需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之相关的变量作为解释变量(自变量)。
数据加工处理
根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设
核查数据情况是否满足基本假设中和解释变量相关的部分: