为什么我的 PySpark DataFrame 无法以表格格式正确显示?

问题描述 投票:0回答:1

我正在尝试使用 Jupyter Notebook 中的 PySpark 读取 CSV 文件,但是当我使用
df.show()
显示 DataFrame 时,数据显得分散且在表格中格式不正确。以下是输出的示例:

+---------+-------------+--------------------+--- ------------------+--------------+----------------- +----------------+--------+----+-----+------------ --------+------------+--------+------------+-------- ------+-------------+---------+--------+------------ --------------+------------------------+---------- -------------------------------------------------- -------------------------------------------+------------------ --+--------+--------+----------+------------+-------- -----+ |销售类型| 出售日期| 物业类型| 地址| 城市|州或省|邮政编码| 价格|床位|浴室| 位置|平方英尺|地块面积|建成年份|上市天数|$/平方英尺|HOA/月|状态|下次开放日开始时间|下次开放日结束时间|URL(参见 https://www.redfin. com/buy-a-home/comparative-market-analysis 有关定价的信息)| 来源| MLS#|收藏|感兴趣| 纬度| 经度| +--------+-------------+--------------------+---- ----------------+--------------+-----------------+ ------------------+--------+----+-----+------------ --------+------------+--------+------------+--------- ---+-------------+---------+------+------------- ------------+------------------------+------------ -------------------------------------------------- ------------------------------------------+-------------------- ----------+--------+----------+------------+-------- ----+ |过去的销售|2024 年 4 月 10 日|单户住宅|1016 Wyndham Hill Ln| 富兰克林| 田纳西| 37069| 950000| 5| 3.0| 菲尔德斯通农场| 3500| 21780| 1993年| 空| 271| 75| 已售出| 空| 空| https://www.redfi...|REALTRACS 作为 Dist...|2641189| N| 是| 35.9697949| -86.8849545|

这是我用来加载 CSV 的代码:
df = spark.read.csv(file_path, header=True, inferSchema=True)
df.show()
dataframe pyspark jupyter-notebook
1个回答
0
投票

这就是预期的输出。我建议使用参数

truncate
vertical
show()
来更好地使输出符合您的期望。 这是 show() 方法的
documentation
。当我检查
vertical = True
中的特定行时,我个人更喜欢
pyspark.sql.DataFrame

df = spark.read.csv(file_path, header=True, inferSchema=True)
df.show(n = 5, truncate = False, vertical = True)
© www.soinside.com 2019 - 2024. All rights reserved.