我有一个用 pandas 编写的脚本,我需要将其移植到 Apche Spark (pyspark) 中。我已经完成了所有其他的事情,但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如,spark 中的以下行相当于什么?
sr = pandas.Series(['', '', '', '', ''])
有什么想法吗?
pd.Series 对象自然不会存在于 Spark 中。这是因为 Spark 中的列仅存在于行的上下文中,而行仅因数据帧而进一步存在。因此,列实际上只存在于 Spark 中的数据帧上下文中,不能单独隔离或操作。