df.show()
显示 DataFrame 时,数据显得分散且在表格中格式不正确。以下是输出的示例:+---------+-------------+--------------------+--- ------------------+--------------+----------------- +----------------+--------+----+-----+------------ --------+------------+--------+------------+-------- ------+-------------+---------+--------+------------ --------------+------------------------+---------- -------------------------------------------------- -------------------------------------------+------------------ --+--------+--------+----------+------------+-------- -----+ |销售类型| 出售日期| 物业类型| 地址| 城市|州或省|邮政编码| 价格|床位|浴室| 位置|平方英尺|地块面积|建成年份|上市天数|$/平方英尺|HOA/月|状态|下次开放日开始时间|下次开放日结束时间|URL(参见 https://www.redfin. com/buy-a-home/comparative-market-analysis 有关定价的信息)| 来源| MLS#|收藏|感兴趣| 纬度| 经度| +--------+-------------+--------------------+---- ----------------+--------------+-----------------+ ------------------+--------+----+-----+------------ --------+------------+--------+------------+--------- ---+-------------+---------+------+------------- ------------+------------------------+------------ -------------------------------------------------- ------------------------------------------+-------------------- ----------+--------+----------+------------+-------- ----+ |过去的销售|2024 年 4 月 10 日|单户住宅|1016 Wyndham Hill Ln| 富兰克林| 田纳西| 37069| 950000| 5| 3.0| 菲尔德斯通农场| 3500| 21780| 1993年| 空| 271| 75| 已售出| 空| 空| https://www.redfi...|REALTRACS 作为 Dist...|2641189| N| 是| 35.9697949| -86.8849545|
df = spark.read.csv(file_path, header=True, inferSchema=True)
df.show()
这就是预期的输出。我建议使用参数
truncate
和 vertical
到 show()
来更好地使输出符合您的期望。
这是 show()
方法的 documentation。当我检查
vertical = True
中的特定行时,我个人更喜欢 pyspark.sql.DataFrame
。
df = spark.read.csv(file_path, header=True, inferSchema=True)
df.show(n = 5, truncate = False, vertical = True)