我在英特尔开发云上并使用英特尔 OneAPI。这是我到目前为止的代码:
# first block of jupyter notebook
import modin.pandas as pd
# second block of jupyter notebook
df = pd.read_csv('dataset/dataset.csv')
df.head()
# output of second block
UserWarning: Ray execution environment not yet initialized. Initializing...
To remove this warning, run the following python code before doing dataframe operations:
import ray
ray.init()
2023-09-01 12:00:16,471 INFO worker.py:1636 -- Started a local Ray instance.
第一个块运行正常,但是,当我读取数据集时,它给我这个警告和服务器不可用错误。
如果我使用
import pandas as pd
,代码运行正常,但 modin.pandas
不起作用。我的数据集是 ~ 2 GB 的 csv 文件。为什么会出现这样的情况???
第1步:检查modin是否正确安装。
pip install “modin[all]” # dependencies + modin execution engines
第2步:导入modin.pandas为pd
df = pd.read_csv('dataset.csv') #Please avoid placing your .csv file under a folder.
让我们看看会发生什么。
参考: pandas 库提供用户友好的数据结构,包括用于数据分析的 DataFrame。但是,它在处理大量数据集(例如 100 GB 或 1 TB)时可能会执行缓慢,因为它没有针对如此大的数据量进行优化。幸运的是,Modin 库解决了这个问题,只需更改一次代码即可扩展 pandas 工作流程。