Python金融数据挖掘

发布时间：2024-02-23 14:00

一、随便说说？

使用底层code构建（包、模块——模板）。

实验是干啥的呀？我也不知道,yinweimeiyoutingke。

def 层层封装:

1、欧式距离计算（手工计算、）

2、数学语言到机器语言的转变

二、K近邻（KNN，K Nearest Neighbors）算法

1、定义

属于分类算法。样本数据集中除了数据点的坐标，每个点还有一个分类标签。如果现在新出现了一个待分类的数据点A，KNN算法是根据与A相邻的K个样本点分类归属情况，来决定A应该归属到哪一类。决策树算法、贝叶斯算法和K近邻算法都属于分类算法。

2、逻辑

待分类的这个数据点归属到哪一类，由它的K个近邻样本点的分类情况决定。

$\"Python金融数据挖掘_第2张图片\"$

$\"Python金融数据挖掘_第3张图片\"$

3、K近邻分类算法的流程图：

$\"Python金融数据挖掘_第4张图片\"$

三、K均值（K-Means）算法

1、定义

属于聚类算法。样本数据集中只有数据点的坐标，并没有其分类标签。但是这些点并不是均匀分布在整个坐标空间中，而是相对密集地聚集在几个较小的范围内。

2、聚类算法的目标

是发现这些聚集的范围，将所有那些没有分类标签的点，划分到某个聚集范围内。

3、作用

不需要事先对样本点的类别归属进行判定和标识，而是能够挖掘出现有样本点的分布聚集规律，对样本点自动进行归属划分。

4、应用

聚类算法被广泛应用于客户群体划分、热点区域发现等业务场景。例如：某证券公司一共有N个客户，每个客户的资金量、交易频次等数据构成一个样本点。

5、准备

应用聚类算法前，通常需要根据数据集的分布情况确定一个合理的聚类数K，因此，事先探查数据集的空间分布情况有利于提高聚类的效果。在众多的数据可视化工具中，Excel便是一个非常有效的探查样本数据（样本数据量太大时，可以先随机抽取出少量样本）空间分布特征的工具。

6、几何意义

K均值算法思想有直观的几何意义：将样本点聚集（归属）到距离它最近的那个聚类中心。找出数据集中的K个聚类中心是算法的目标（简单起见，这里使用欧式距离来度量样本间的相似度）。

$\"Python金融数据挖掘_第5张图片\"$

7、K均值聚类算法流程图