如何用python进行相关性分析_Python 数据相关性分析

发布时间：2023-04-15 19:00

概述

在我们的工作中，会有一个这样的场景，有若干数据罗列在我们的面前，这组数据相互之间可能会存在一些联系，可能是此增彼涨，或者是负相关，也可能是没有关联，那么我们就需要一种能把这种关联性定量的工具来对数据进行分析，从而给我们的决策提供支持，本文即介绍如何使用 Python 进行数据相关性分析。

关键词 python 方差协方差相关系数离散度 pandas numpy

实验数据准备

接下来，我们将使用 Anaconda 的 ipython 来演示如何使用 Python 数据相关性分析，我所使用的 Python 版本为 3.6.2 。

首先，我们将会创建两个数组，数组内含有 20 个数据，均为 [0, 100] 区间内随机生成。

a = [random.randint(0, 100) for a in range(20)]

b = [random.randint(0, 100) for a in range(20)]

print(a)

>> [35, 2, 75, 72, 55, 77, 69, 83, 3, 46, 31, 91, 72, 12, 15, 20, 39, 18, 57, 49]

print(b)

>> [25, 24, 72, 91, 27, 44, 85, 21, 0, 64, 44, 31, 6, 91, 1, 61, 5, 39, 24, 43]

期望

在进行相关性分析之前，我们需要先为最终的计算分析做好准备。我们在分析前，第一个准备的是计算数据的期望。对于期望的定义，离散变量和连续变量是不一样的，具体定义如下：

对于连续随机变量

在离散随机变量

在一般情况下，我们通过实验或者调查统计获取的数据很大一部分都属于离散随机变量，那么这里的期望我们也可以简单的理解为平均数，那么既然是平均数，那么我们就可以非常简单编写一个计算离散变量的期望的函数了。

def mean(x):

return sum(x) / len(x)

mean(a)

>> 46.05

mean(b)

>> 39.9

离散度 - 方差与标准差

接下来，我们需要计算的是数据的离散程度，在统计上，我们通常会使用方差和标准差来描述。

方差和期望一样，对于连续和离散的随机变量有着不同的定义，具体定义如下：

对于连续随机变量

对于离散随机变量

与期望类似，这里我们一般只考虑离散变量的方差。还有一点值得注意，我们上面的离散变量方差公式，最后是除以 n ，但实际上，我们计算样本方差的时候一般会使用 n-1 ，具体原因可以参考知乎《为什么样本方差（sample variance）的分母是 n-1？》。

而标准差，就是方差的平方根。那么，我们也可以像上面计算期望一样，给方差和标准差编写函数。

# 计算每一项数据与均值的差

def de_mean(x):

x_bar = mean(x)

return [x_i - x_bar for x_i in x]

# 辅助计算函数 dot product 、sum_of_squares

def dot(v, w):

return sum(v_i * w_i for v_i, w_i in zip(v, w))

def sum_of_squares(v):

return dot(v, v)

# 方差

def variance(x):

n = len(x)

deviations = de_mean(x)

return sum_of_squares(deviations) / (n - 1)

# 标准差

import math

def standard_deviation(x):

return math.sqrt(variance(x))

variance(a)

>> 791.8394736842105

varance(b)

>> 850.5157894736841

协方差与相关系数

接下来，我们进入正题，我们开始计算两组数据的相关性。我们一般采用相关系数来描述两组数据的相关性，而相关系数则是由协方差除以两个变量的标准差而得，相关系数的取值会在 [-1, 1] 之间，-1 表示完全负相关，1 表示完全相关。接下来，我们看一下协方差和相关系数的定义：

协方差

如何用python进行相关性分析_Python 数据相关性分析

相关推荐