我想使用Bagging从数据集中进行随机采样。并在进一步分析中使用该数据集。我该怎么办？

Question

首先，我想使用装袋法在数据集中进行采样。之后，我将使用反向传播算法进行训练和测试。假设我将从数据集中随机选择40％的数据来创建1个样本集。之后，我将再次从总数据集中获取40％的数据并创建另一个数据集。

采样代码：

def subsample(dataset, ratio):
    sample = list()
    n_sample = round(len(dataset) * ratio)
    while len(sample) < n_sample:
        index = randrange(len(dataset))
        append(dataset[index])
        print(sample)
    return sample

数据集：（我将对UCI Machine Repository的20个数据集进行采样）

import pandas as pd
dataset =pd.read_csv("abalone.csv")

Answer 1

如果要制作一个数据集的20个样本，则可以使用pandas.DataFrame.sample并将每个样本存储到字典中。

import pandas as pd
dataset =pd.read_csv("abalone.csv")
df_dict ={}
for i in range(20):
    df_dict['df{}'.format(i)] = dataset.sample(frac=0.4, random_state=123)
    # use replace = True for Sample with replacement.

我想使用Bagging从数据集中进行随机采样。并在进一步分析中使用该数据集。我该怎么办？

问题描述投票：0回答：1

1个回答

最新问题

我想使用Bagging从数据集中进行随机采样。并在进一步分析中使用该数据集。我该怎么办？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1