链接到pyspark时在Pycharm中出错:未定义名称'spark'

问题描述 投票:0回答:1

当我在cmd中运行示例代码时,一切正常。

>>> import pyspark
>>> l = [('Alice', 1)]
>>> spark.createDataFrame(l).collect()
[Row(_1='Alice', _2=1)]

但是当我在pycharm中执行代码时,出现错误。

spark.createDataFrame(l).collect()
NameError: name 'spark' is not defined

[当我将Pycharm链接到pyspark时可能出了点问题。

Environment Variable

Project Structure

Project Interpreter

pyspark pycharm
1个回答
0
投票

从命令行启动pyspark时,有一个sparkSession对象和一个sparkContext分别作为sparksc可供使用。

要在pycharm中使用它,应首先创建这些变量,以便可以使用它们。

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

编辑:

请查看:Failed to locate the winutils binary in the hadoop binary path

© www.soinside.com 2019 - 2024. All rights reserved.