如何创建图神经网络数据集? (pytorch几何)

问题描述 投票:0回答:5

如何将我自己的数据集转换为可用于图神经网络的 pytorch 几何?

所有教程都使用已转换为可由 pytorch 使用的现有数据集。例如,如果我有自己的点云数据集,如何使用它来训练图神经网络的分类?我自己的分类图像数据集怎么样?

python pytorch graph-databases pytorch-geometric
5个回答
4
投票

您需要如何转换数据取决于您的模型期望的格式。

图神经网络通常期望(的子集):

  • 节点特征
  • 边缘
  • 边缘属性
  • 节点目标

取决于问题。您可以在 PyTorch Geometric 中使用这些值的张量创建一个对象(并根据需要扩展属性),并使用

Data
对象,如下所示:

data = Data(x=x, edge_index=edge_index, y=y)
data.train_idx = torch.tensor([...], dtype=torch.long)
data.test_mask = torch.tensor([...], dtype=torch.bool)

4
投票

就像文档中提到的那样。 pytorch-几何

我真的需要使用这些数据集接口吗? 不!就像在常规 PyTorch 中一样,您不必使用数据集,例如,当您想要动态创建合成数据而不将它们显式保存到磁盘时。在这种情况下,只需传递一个包含 torch_geometric.data.Data 对象的常规 python 列表,并将它们传递给 torch_geometric.loader.DataLoader

from torch_geometric.data import Data
from torch_geometric.loader import DataLoader

data_list = [Data(...), ..., Data(...)]
loader = DataLoader(data_list, batch_size=32)

1
投票
from torch_geometric.data import Dataset, Data
class MyCustomDataset(Dataset):
    def __init__():
        self.filename = .. # List of raw files, in your case point cloud
        super(MyCustomDataset, self).__init()

    @property
    def raw_file_names(self):
        return self.filename
    
    @property
    def processed_file_names(self):
        """ return list of files should be in processed dir, if found - skip processing."""
        processed_filename = []
        return processed_filename
    def download(self):
        pass

    def process(self):
        for file in self.raw_paths:
            self._process_one_step(file)

    def _process_one_step(self, path):
        out_path = (self.processed_dir, "some_unique_filename.pt")
        # read your point cloud here, 
        # convert point cloud to Data object
        data = Data(x=node_features,
                    edge_index=edge_index,
                    edge_attr=edge_attr,
                    y=label #you can add more arguments as you like
                    )
        torch.save(data, out_path)
        return

    def __len__(self):
        return len(self.processed_file_names)

    def __getitem__(self, idx):
        data = torch.load(os.path.join(self.processed_dir, self.processed_file_names[idx]))
        return data

这将以正确的格式创建数据。然后您可以使用

torch_geometric.data.Dataloader
创建数据加载器,然后训练您的网络。


1
投票
from torch_geometric.data import Data
edge_index = torch.from_numpy(graph_df[["source", "target"]].to_numpy())
x = torch.from_numpy(np.array(embedding_df["vectors"].tolist()))

data = Data(x=x, edge_index=edge_index.T)
data

您可以像这样创建图形数据


0
投票

https://pytorch-geometric.readthedocs.io/en/latest/notes/load_csv.html?highlight=encoder

然后您可以在编码器中为每种特征类型指定一个编码器,在您的情况下,它可以是您的图像的编码器,其他编码器可以是其余元数据的编码器

© www.soinside.com 2019 - 2024. All rights reserved.