apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

apache-spark apache-spark-sql databricks

回答 1 投票 0

df = df.filter( ~((col('CID') == "-") & (col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID') == "-") & col('trait_diff').isNull()) )

python pyspark filter apache-spark-sql databricks

回答 1 投票 0

将dateTime转换为databrickssql

sql apache-spark-sql databricks databricks-sql

回答 1 投票 0

获取Apache Spark中格式列表（数据源）

我们需要获取某些配置文件验证的格式列表（读写）。我所谈论的格式是： spark.read.format（'this'） spark.write.format（'this'）有没有办法得到它...

python apache-spark validation pyspark apache-spark-sql

回答 1 投票 0

如何在Spark的DataFrame

我将Python代码“翻译”到Pyspark。我想将现有列用作数据框架的索引。我使用熊猫在python中做到了这一点。下面的一小部分代码解释了我的所作所为。 t ...

pandas dataframe apache-spark pyspark apache-spark-sql

回答 2 投票 0

SparkSQL传递变量 - 突触（火花池）

我有以下sparksql（spark池-Spark 3.0）代码，我想传递一个变量。我该怎么做？我尝试了以下内容： #cel 1（切换参数单元）： %% pyspark stat ='a' ＃cel2： S ...

azure apache-spark parameters apache-spark-sql azure-synapse

回答 3 投票 0

我正在尝试将具有多个逗号分隔的小部件值的小部件传递到SQL查询中。我可以将小部件值纳入这样的列表：

，但是，当我尝试使用以下方式将列表传递到查询中时

python apache-spark-sql widget databricks databricks-sql

回答 1 投票 0

我有这个怪异的错误。我有一个例程，如果存在（否则会创建），则读取数据框，然后将其修改，然后以'overwrite'Mode。

_success.crc

apache-spark pyspark apache-spark-sql

回答 1 投票 0

以下格式：

apache-spark datetime pyspark apache-spark-sql

回答 3 投票 0

Spark读取的文档多于Mongo Collection实际返回

mongodb apache-spark apache-spark-sql

回答 1 投票 0

创建流媒体实时视图-Databricks

如何在更改数据feed的基础上在databricks中创建流媒体实时视图。我有以下代码不起作用创建流媒体实时视图vw_tms_shipment_bronze 作为选择 *，，

apache-spark-sql azure-databricks delta-live-tables

回答 1 投票 0

用ArrayType列在Pyspark

ArrayType()

python apache-spark-sql pyspark

回答 2 投票 0

将数据转换为列标题

我有一个具有以下内容的数据框-

apache-spark apache-spark-sql

回答 1 投票 0

从pyspark

dictionary pyspark apache-spark-sql extract

回答 1 投票 0

pyspark- regexp_extract_all，提取带有模式和常数的值我有一个以下数据框 datadictionary = [（'value1'，[{'键'：'fruit'，'value'：'apple'}，{'key'：'color'，'value'：'value'：'white'}），），），），），），（'value2'，[{'key'：'fruit'，'value'：'芒果'}，{...

dataDictionary = [('value1', [{'key': 'Fruit', 'value': 'Apple'}, {'key': 'Colour', 'value': 'White'}]), ('value2', [{'key': 'Fruit', 'value': 'Mango'}, {'key': 'Bird', 'value': 'Eagle'}, {'key': 'Colour', 'value': 'Black'}])] df = spark.createDataFrame(data=dataDictionary) df.printSchema() df.show(truncate=False)

regex pyspark apache-spark-sql

回答 1 投票 0

SparkSQL正在将DateTime.date对象解释为数学公式或语句中的整数我在Spark SQL中遇到了一个问题。它将DateTime.date对象解释为我正在编写的SQL语句中的数学公式或整数。 currentDateandtime = dateTime.now（）

对象解释为数学公式或整数，在我正在编写的SQL语句中。

python sql pyspark apache-spark-sql

回答 0 投票 0

从JSON字符串中创建数据框 want以在不使用Python中使用架构的情况下从JSON String创建Spark DataFrame。 json是嵌套的mutlilevel，可能包含数组。我在下面使用过创建数据框，但是获得'不能

json pyspark apache-spark-sql json-normalize

回答 2 投票 0

SPARK选择查询忽略Java Spark应用中的分区过滤器，但在Zeppelin

分区过滤器。但是，当我在自己的Spark应用程序（用Java编写）的同一表上运行相同的查询时，物理计划没有对分区的认识，从而导致查询效率较低。根据本文档

apache-spark apache-spark-sql parquet delta-lake