sklearn之datasets

发布时间：2023-11-16 08:30

sklearn之datasets

sklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费，通过dir或help命令查看：

(1)datasets.load_() : sklearn自带的小数据集

datasets.load_iris() # 鸢尾花数据集

datasets.load_boston() # 波士顿房价数据集

datasets.load_breast_cancer() # 乳腺癌数据集

datasets.load_diabets() # 糖尿病数据集

datasets.load_digits() # 手写体数字数据集

datasets.load_linnerud() # 手写体数字数据集

这些数据集都可以在官网上查到，以鸢尾花为例，可以在官网上找到demo: http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

• load* 和 fetch* 返回的数据类型 datasets.base.Bunch( 字典格式 )

•

• data ：特征数据数组，是 [n_samples * n_features] 的二维

numpy.ndarray 数组

• target ：标签数组，是 n_samples 的一维 numpy.ndarray 数组

• DESCR ：数据描述

• feature_names ：特征名 , 新闻数据，手写数字、回归数据集没有

• target_names ：标签名 , 回归数据集没有

from sklearn import datasets
import matplotlib.pyplot as plt

# 加载数据集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 画图
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

(2) datasets.fetch_（data_home=None）： •获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是~/scikit_learn_data/

可以通过设置环境变量SCIKIT_LEARN_DATA修改路径

datasets.get_data_home() 获取下载路径

(3) 计算机生成的数据集：sklearn.datasets.make_()

(4) svmlight/libsvm格式的数据集： sklearn.datasets.load_svmlight_file()

(5) 购买了data.org 在线下载获取的数据集： sklearn.datasets.fetch_mldata()

sklearn之datasets

相关推荐