有关Databricks统一分析平台的问题
在 vscode 中使用数据块扩展时,我的 kedro 输出在哪里
我正在使用 kedro 和 vscode 的数据块扩展来访问 Azure 上的数据块服务器。 一切正常,但在本地执行文件时我看不到任何输出。 的...
使用 Datafactory 中的 Init 脚本在 Databricks 集群上安装 Maven 库
我正在尝试使用 Azure 数据工厂在作业集群上执行 Databricks Notebook。 Notebook 需要安装一些 Maven 库。我正在尝试使用 i... 进行此安装
在 python 中的数据块笔记本中列出所有小部件(即使那些没有被覆盖)
我想获得笔记本中使用的小部件的完整列表(即使是那些没有被覆盖的小部件)。 如果你直接运行笔记本,这个线程示例工作正常,但如果你运行你的笔记本,它就不会...
对子目录中的 xml 文件使用 spark.read.from("xml").option("recursiveFileLookup", "true")
我想以递归方式将所有 xml 格式的文件加载到我的数据框中,该目录位于具有其他子目录的目录中。 对于其他文件格式(txt、parquet、..),代码似乎...
azure pyspark sql 中的 aws hive 虚拟列
我将 AWS 上的 hive sql 翻译成 azure synapse 上的 pyspark sql。 SQL 中有一些配置单元虚拟列,我想在 azure synapse 上转换为 pyspark sql。 我怎样才能替换那些列? 参考...
AnalysisException:无法解析给定输入列的“timestamp”:[date_trunc(hour, timestamp)];
我有如下的表格 |职位编号|时间戳 | avg_Tag_value | |:---- |:-------------------------------- | -------------- | | j1 | 2023-03-19T01:52:00.000+0000 | 0.4 ...
我目前无法在我们的数据块 AWS 环境中启动任何集群。 当我尝试启动按需集群时,它会保持“挂起”状态 20 多分钟(在相对较小的情况下......
尝试将 pandas 数据框保存到数据块中的工作区目录时出现无效参数错误
我正在尝试将 pandas DataFrame 以 csv 格式保存到我在 Databricks 工作区中创建的目录中。 将熊猫导入为 pd df.to_csv("data.csv", index=False) 操作系统错误 ...
我想知道在分区之前订购数据帧是否会对计算速度/资源消耗产生影响。具体来说,我在 Databricks 中保存了镶木地板文件,我想...
我有一个连续从 Kafka 读取的 spark readStream 函数。我对数据执行了一些操作,并想使用 Spark writeStream 将其批量写入 Cassandra DB。虽然一直
我有两张桌子;销售和客户。查询的主表是sales,但是有时候我们会想获取特定客户的数据,获取他的详细信息,所以就得加入
我目前正在数据块中设置数据管道。情况如下: 传入数据以 json 文件的形式出现。数据正在异步获取到文件存储。如果收到数据
我目前在 Databricks 工作并尝试从 https://github.com/google/automl/tree/master/efficientdet#7-eval-on-coco-2017-val-or-test-dev 运行代码%5Befficientdet%5D(https://stackoverflo...
在数据块中工作,我有一个看起来像这样的数据框: 列 = ["a", "b", "c"] 数据 = [(真,真,真),(真,真,真),(真,假,真)] df = ...
来自 MS SQL 背景,我正在尝试在 Spark SQL 中编写一个查询,它通过使用过滤器 INNER JOINing 新表 B 来简单地更新表 A(源表)的列值。 MS SQL 查询看起来 ...
无法使用 withColumn 将列添加到 Databricks 数据框,但模式反映了附加列
尝试在我的 databricks pyspark 数据框中添加额外的 2 列,但是当我从结果表中选择 * 时它没有显示。 对于 file_list 中的文件: 尝试: sql_query =
我想在我的数据块数据库中找到满足多个条件的表。 Mysql 允许“where”子句包含多个条件,如本文所述。 在
我的 Unity 目录已启用并在我的工作区中运行,我希望在“requestProjectUrlName”列之一上创建一个视图。我可以通过一个项目名称创建一个视图...
读取带有列值的 databricks json 是带有 Autoloader 和 inferschema 的 base64
我有两个字段落在我们的 blob 中的 JSON 文件: 偏移量(整数) 值(base64) 此值列是带有 unicode 的 JSON(这就是它采用 base64 编码的原因)。 { “偏移量”:1, &q...