发布时间:2024-02-23 14:00
使用底层code构建(包、模块——模板)。
实验是干啥的呀?我也不知道,yinweimeiyoutingke。
def 层层封装:
1、欧式距离计算(手工计算、)
2、数学语言到机器语言的转变
属于分类算法。样本数据集中除了数据点的坐标,每个点还有一个分类标签。如果现在新出现了一个待分类的数据点A,KNN算法是根据与A相邻的K个样本点分类归属情况,来决定A应该归属到哪一类。决策树算法、贝叶斯算法和K近邻算法都属于分类算法。
待分类的这个数据点归属到哪一类,由它的K个近邻样本点的分类情况决定。
属于聚类算法。样本数据集中只有数据点的坐标,并没有其分类标签。但是这些点并不是均匀分布在整个坐标空间中,而是相对密集地聚集在几个较小的范围内。
是发现这些聚集的范围,将所有那些没有分类标签的点,划分到某个聚集范围内。
不需要事先对样本点的类别归属进行判定和标识,而是能够挖掘出现有样本点的分布聚集规律,对样本点自动进行归属划分。
聚类算法被广泛应用于客户群体划分、热点区域发现等业务场景。例如:某证券公司一共有N个客户,每个客户的资金量、交易频次等数据构成一个样本点。
应用聚类算法前,通常需要根据数据集的分布情况确定一个合理的聚类数K,因此,事先探查数据集的空间分布情况有利于提高聚类的效果。在众多的数据可视化工具中,Excel便是一个非常有效的探查样本数据(样本数据量太大时,可以先随机抽取出少量样本)空间分布特征的工具。
K均值算法思想有直观的几何意义:将样本点聚集(归属)到距离它最近的那个聚类中心。找出数据集中的K个聚类中心是算法的目标(简单起见,这里使用欧式距离来度量样本间的相似度)。
聚类算法是无监督的,样本数据可以没有贴标签;而分类算法是有监督的,样本数据需要有类别标签。
通俗理解,分类算法是贴标签,而聚类算法是找朋友(物以类聚,人以群分)。