t-SNE非线性降维

发布时间：2023-04-24 19:00

1、将高维空间中的数据映射到低维空间中，并保留数据集的局部特性。当我们想对高维数据集进行分类，但又不清楚这个数据集有没有很好的可分性（同类之间间隔小、异类之间间隔大）时，可以通过t-SNE将数据投影到2维或3维空间中观察一下：如果在低维空间中具有可分性，则数据是可分的；如果在低维空间中不可分，则可能是因为数据集本身不可分，或者数据集中的数据不适合投影到低维空间。

2、t-SNE的缺点：占用内存较多、运行时间长。

3、Manifold learning sklearn官方文档
$\"t-SNE非线性降维_第1张图片\"$
4、t-SNE实践（可视化两个图片数据集合的差异）

5、手写数据集降维案例

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.manifold import TSNE


# 加载数据
def get_data():
    \"\"\"
    :return: 数据集、标签、样本数量、特征数量
    \"\"\"
    digits = datasets.load_digits(n_class=10)
    data = digits.data  # 图片特征
    label = digits.target  # 图片标签
    n_samples, n_features = data.shape  # 数据集的形状
    return data, label, n_samples, n_features


# 对样本进行预处理并画图
def plot_embedding(data, label, title):
    \"\"\"
    :param data:数据集
    :param label:样本标签
    :param title:图像标题
    :return:图像
    \"\"\"
    x_min, x_max = np.min(data, 0), np.max(data, 0)
    data = (data - x_min) / (x_max - x_min)  # 对数据进行归一化处理
    fig = plt.figure()  # 创建图形实例
    ax = plt.subplot(111)  # 创建子图
    # 遍历所有样本
    for i in range(data.shape[0]):
        # 在图中为每个数据点画出标签
        plt.text(data[i, 0], data[i, 1], str(label[i]), color=plt.cm.Set1(label[i] / 10),
                 fontdict={\'weight\': \'bold\', \'size\': 7})
    plt.xticks()  # 指定坐标的刻度
    plt.yticks()
    plt.title(title, fontsize=14)
    # 返回值
    return fig


# 主函数，执行t-SNE降维
def main():
    data, label, n_samples, n_features = get_data()  # 调用函数，获取数据集信息
    print(\'Starting compute t-SNE Embedding...\')
    ts = TSNE(n_components=2, init=\'pca\', random_state=0)
    # t-SNE降维
    reslut = ts.fit_transform(data)
    # 调用函数，绘制图像
    fig = plot_embedding(reslut, label, \'t-SNE Embedding of digits\')
    # 显示图像
    plt.show()


# 主函数
if __name__ == \'__main__\':
    main()

$\"t-SNE非线性降维_第2张图片\"$

t-SNE非线性降维

相关推荐