Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
为什么我的 Spark sql 无法到达 Oracle 数据库中的表?
我正在开发一个项目,需要使用 PySpark 更新 Oracle 数据库中现有表中的记录。然而,我正在使用的方法面临一些挑战。 这是一个总结...
Pyspark:使用参数动态准备 pyspark-sql 查询
动态绑定参数和准备pyspark-sql语句有哪些不同的方法。 例子: 动态查询 查询='''选择列1,列2 FROM ${db_name}.${table_name} ...
如何将文件夹、子文件夹和文件从S3存储桶移动到另一个存储桶?
我有一个问题:我想将为此迁移创建的文件夹上的总线结构(文件夹、子文件夹和文件)从存储桶 A 迁移到存储桶 B。 我想知道: 首先 - 如果是...
使用 azure-kusto-spark 读取/写入时存在高延迟
我正在使用 azure-kusto-spark 将数据写入 Kusto。这次写入的数据很小。此 Spark-kusto 连接器使用批处理流。 但我发现此写入的延迟很高,大约需要 8 分钟。 ...
spark.python.worker.memory 与spark.executor.memory 有何关系?
此图非常清楚地显示了不同 YARN 和 Spark 内存相关设置之间的关系,但 Spark.python.worker.memory 除外。 Spark.python.worker.memor 如何...
运行基于 Spark 的 Spring Boot 应用程序时出现 java.lang.NoSuchMethodError: org.yaml.snakeyaml.Yaml.<init>
SnakeYaml jar 存在于 classPath:snakeyaml-1.26.jar 2330 [主要] 错误 org.springframework.boot.SpringApplication - 应用程序运行失败 java.lang.NoSuchMethodError: org.yaml.snakeyaml.Yaml.&l...
kubeflow Spark 运算符中的 Python 依赖项
我想问是否有办法在 kubeflow Spark 运算符中使用 python 作为 .wheel 或 .egg 或只是 .py 依赖项。 我想到的结果文件看起来像这样,依赖关系
我正在尝试在 pyspark 环境中运行脚本,但到目前为止我还无法做到。 如何在 pyspark 中运行像 python script.py 这样的脚本?
我有一个AWS Glue作业,它试图将数据合并到按product_id分区的Apache Iceberg表中。 我想要实现的是能够使用 AWS Glue 作业运行并发合并操作...
带有 Hive Metastore 的 Iceberg 不会在 Spark 中创建目录并使用默认值
我遇到了一些(意外?)行为:Spark 中的目录引用未反映在 Hive Metastore 中。我已经按照文档进行了Spark配置,
在apache Iceberg 上的同一个表中合并多个流的问题
我在不同字段的同一个表中进行了多个火花流写入。 Iceberg 文档说了以下内容:Iceberg 支持使用乐观并发进行多个并发写入...
在 Jupyter 实验室中导入 VectorAssembler 时出错 - 对于 Pyspark
我正在运行这个导入语句 从 pyspark.ml.feature 导入 VectorAssembler 这是完整的回溯: ModuleNotFoundError Traceback(最近一次调用最后一次) 细胞我...
保存DataFrame时如何避免生成crc文件和SUCCESS文件?
我使用以下代码将 Spark DataFrame 保存到 JSON 文件 unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json") 输出结果为: 部分-r-0...
引起:java.lang.IllegalStateException:此连接器是为 Scala null 制作的,它不适合在 Scala 2.12 上运行
指出的错误代码如下 字符串 strJsonContent = SessionContext .getSparkSession() 。读() .json(文件路径) .toJSON() 。第一的(); 我正在使用 Maven 来构建包,而不使用
使用 Spark Listener 获取 Spark 作业中进行的所有读/写查询
我想获取当前 Spark 作业中已进行的所有读/写查询(使用数据集 API)的列表。例如, 数据集 readDataFrame = Spark.read() .format("...
如何使用pyspark.sql.SparkSession.builder.config(databricks)设置目录和数据库
我想使用 pyspark 创建一个 Spark 会话,并使用 Spark 配置更新会话的目录和数据库,这可能吗? 使用配置不起作用 我尝试更新目录和会话...
我在 Glue / Athena 中注册了一个视图,将其命名为 my-db.vm_view。我可以通过 Athena 查询它,一切似乎都正常。 我正在尝试在胶水作业中使用这张桌子
Zeppelin 0.11.1 与 Spark 3.3 - Spark 解释器因 NoSuchFileException 失败
通过 Zeppelin 提交 Spark 作业时收到 InterpreterException: org.apache.zeppelin.interpreter.InterpreterException:java.io.IOException:无法启动解释器进程: 错误
Ambari 是一个开源项目,但是 HDP 已经不再提供下载,那么 Ambari 如何管理 Apache Hadoop、Hive、Spark 等组件呢? Ambari 可以直接管理现有的 Hadoop
在 Databricks Community Edition 的目录部分中看不到 DBFS 选项
当我登录 Databricks Community Edition 时,我不再看到查看 DBFS 文件的选项。我上周才能够访问它们。我已检查设置,但找不到管理控制台...