Python金融数据挖掘

发布时间:2024-02-23 14:00

一、随便说说?

使用底层code构建(包、模块——模板)。

实验是干啥的呀?我也不知道,yinweimeiyoutingke。

def 层层封装:

        1、欧式距离计算(手工计算、)

        2、数学语言到机器语言的转变

\"Python金融数据挖掘_第1张图片\"

 二、K近邻(KNNK Nearest Neighbors)算法

1、定义

属于分类算法样本数据集中除了数据点的坐标,每个点还有一个分类标签。如果现在新出现了一个待分类的数据点AKNN算法是根据A相邻的K个样本点分类归属情况,来决定A应该归属到哪一类。决策树算法、贝叶斯算法和K近邻算法都属于分类算法。

2、逻辑

待分类的这个数据点归属到哪一类,由它的K个近邻样本点的分类情况决定

\"Python金融数据挖掘_第2张图片\"

 \"Python金融数据挖掘_第3张图片\"

 3、K近邻分类算法的流程图:

\"Python金融数据挖掘_第4张图片\"

三、K均值(K-Means)算法

1、定义

属于聚类算法。样本数据集中只有数据点的坐标,并没有其分类标签。但是这些点并不是均匀分布在整个坐标空间中,而是相对密集地聚集在几个较小的范围内

2、聚类算法的目标

发现这些聚集的范围,将所有那些没有分类标签的点,划分到某个聚集范围内

3、作用

不需要事先对样本点的类别归属进行判定和标识,而是能够挖掘出现有样本点的分布聚集规律,对样本点自动进行归属划分。

4、应用

聚类算法被广泛应用于客户群体划分、热点区域发现等业务场景。例如:某证券公司一共有N个客户,每个客户的资金量、交易频次等数据构成一个样本点。

5、准备

应用聚类算法前,通常需要根据数据集的分布情况确定一个合理的聚类数K,因此,事先探查数据集的空间分布情况有利于提高聚类的效果。在众多的数据可视化工具中,Excel便是一个非常有效的探查样本数据(样本数据量太大时,可以先随机抽取出少量样本)空间分布特征的工具。

6、几何意义

K均值算法思想有直观的几何意义:将样本点聚集(归属)到距离它最近的那个聚类中心。找出数据集中的K个聚类中心是算法的目标(简单起见,这里使用欧式距离来度量样本间的相似度)。

\"Python金融数据挖掘_第5张图片\"

7、K均值聚类算法流程图

\"Python金融数据挖掘_第6张图片\" 

四、分类、聚类区别

聚类算法无监督的,样本数据可以没有贴标签;而分类算法有监督的,样本数据需要有类别标签

通俗理解,分类算法是贴标签,而聚类算法是找朋友(物以类聚,人以群分

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号