sklearn之datasets

发布时间:2023-11-16 08:30

sklearn之datasets

sklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费,通过dir或help命令查看:

(1)datasets.load_() : sklearn自带的小数据集

datasets.load_iris() # 鸢尾花数据集

datasets.load_boston() # 波士顿房价数据集

datasets.load_breast_cancer()  # 乳腺癌数据集

datasets.load_diabets() # 糖尿病数据集

datasets.load_digits() # 手写体数字数据集

datasets.load_linnerud() # 手写体数字数据集

这些数据集都可以在官网上查到,以鸢尾花为例,可以在官网上找到demo:  http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

load* fetch* 返回的数据类型 datasets.base.Bunch( 字典格式 )
data :特征数据数组,是 [n_samples * n_features] 的二维

            numpy.ndarray 数组

target :标签数组,是 n_samples 的一维 numpy.ndarray 数组
DESCR :数据描述
feature_names :特征名 , 新闻数据,手写数字、回归数据集没有
target_names :标签名 , 回归数据集没有
from sklearn import datasets
import matplotlib.pyplot as plt

# 加载数据集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 画图
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

sklearn之datasets_第1张图片

(2) datasets.fetch_(data_home=None) : •获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/

可以通过设置环境变量SCIKIT_LEARN_DATA修改路径

datasets.get_data_home() 获取下载路径

(3) 计算机生成的数据集:sklearn.datasets.make_()

(4) svmlight/libsvm格式的数据集: sklearn.datasets.load_svmlight_file()

(5) 购买了data.org 在线下载获取的数据集: sklearn.datasets.fetch_mldata()

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号