1、非监督学习中,不知道数据集中的特征,只是一堆数字。年龄、大小、什么的都不知道,同时也不知道 “学习算法”和 “正确答案”。
2、针对数据集,它会自动判断出数据符合哪种结构,如下图,它会判断出数据有2个不同的聚集蔟,所以叫做 “聚类算法”。

聚类算法的例子:
例子1:谷歌新闻,它每天都在收集非常多的网络新闻内容,并自动的进行聚类算法,把其分割成不同的聚集蔟,并进行显示。
例子2:基因学,这里有一堆数据,不知到数据都有什么,不知道数据类型,但要自动找出数据符合哪种结构,并生成不同的聚集蔟。
例子3:社交,自动的对朋友进行分组,即每组中人们都认识。