Python 的
statsmodels
库有 get_rdataset()
方法,可以获取各种数据集。可以获取的数据集列表在哪里?如何使用它加载数据集?
文档没有提及哪些数据集可用。它只是说
dataname: The name of the dataset you want to download
是必需的参数,但没有提及哪些数据名可以在任何地方使用。
包含所有数据集元信息的 CSV 可以在 https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/datasets.csv 找到,它在
index_url
函数中定义为变量 _get_dataset_meta()
statsmodels.datasets.utils
模块。
当加载此数据集时,例如使用 pandas,它的前 5 行如下所示。
import pandas as pd
datasets = pd.read_csv("https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/datasets.csv")
datasets.head()
如文档所示,
get_rdataset()
的第一个参数是数据名称(在元数据集中记录为Item),第二个参数是数据集所属的包名称。例如,以下内容检索 CSV 中的第一个数据集(因为数据名称是 AER 包中的事务)。
import statsmodels.api as sm
df = sm.datasets.get_rdataset('Affairs', 'AER', cache=True).data
df.head()
所有可用数据集的列表也可以在此处找到。数据集包文档的使用 R 中的数据集部分也引用了。
感谢@Vitalizzare 向我指出此存储库。