Pytorch构建二维表格自定义数据集

发布时间：2024-07-12 13:01

对于二维表格，我们要进行预测，首先就是数据预处理，如何把处理好的数据变换成 Pytorch 所使用的数据集是首要步骤。

1.构建自定义数据集

torch.utils.data包括了Dataset和DataLoader两个类。torch.utils.data.**Dataset是一个抽象类，不能够直接调用。如果你想自定义数据集的话，就需要继承该类，并实现__len__和__getitem__方法。**前者提供数据的大小，后者通过给定索引获取数据与标签。因为__getitem__一次只能获取一个数据而我们采用的是MiniBatch的方式训练的，所以需要我们通过torch.utils.data.DataLoader来定义一个新的迭代器，实现batch读取。

首先自定义的数据集要继承 torch.utils.data 类，重写两个方法：

getitem(self, index) : 根据索引即可返回训练集和测试集数据。
_len(self) : 返回数据集的长度。

# 自定义数据集
import torch
from torch.utils.data import Dataset, DataLoader

class ExampleDataset(Dataset):
    def __init__(self, path):
        # 一个由二维向量组成的数据集
        df = pd.read_csv(path)
        self.data = torch.tensor(df.iloc[:, 1: -1].to_numpy())  
        self.label = torch.tensor(df.iloc[:, -1].to_numpy(dtype=np.float32))
    
    def __getitem__(self,index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)
    pass

类中传入一个路径，该路径是自己的二维表格：

data = ExampleDataset(r\'data\\distance.csv\')
print(len(data))
print(data[0])

$\"Pytorch构建二维表格自定义数据集_第1张图片\"$

$\"\"$

2.加载自定义数据集

使用 torch.utils.data.DataLoader 定义新的迭代器，进而实现遍历读取：

注意：batch_size 设置为2，则每次迭代输出 2 条样本数据。

example_loader = DataLoader(
    dataset=data,
    batch_size=2,    # 批次大小
    shuffle = False,  # False ： 数据不被随机打乱
    num_workers = 0,  # 数据载入器使用的进程数目，默认为0
    drop_last=True    # 是否要把最后的批次丢弃
)

print(example_loader)

输出：

<torch.utils.data.dataloader.DataLoader object at 0x0000021AB6162370>

迭代读取：

for i,(X, y) in enumerate(example_loader):
    print(\"i:\",i)
    Data, Label = X, y
    print(\"data:\",Data)
    print(\"Label:\",Label)
    break

输出：

i: 0
data: tensor([[1016.9312, 4782.8571, 4552.9630, 6298.9947,   50.0000,   50.0000,
           88.0000],
        [1338.4247, 4920.1370, 4109.1781, 5943.5616,   50.0000,  100.0000,
           88.0000]], dtype=torch.float64)
Label: tensor([1., 1.])

参考文章：

Datasets & DataLoaders — PyTorch Tutorials 1.11.0+cu102 文档

参考博客

Pytorch构建二维表格自定义数据集

1.构建自定义数据集

2.加载自定义数据集

相关推荐