bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

我正在开发一个桌面应用程序，它很像 WinDirStat 或 voidtools 的 Everything - 它映射硬盘驱动器，即从目录树中创建一个深度嵌套的字典。桌面

database mongodb data-structures tree bigdata

回答 1 投票 0

我想从我的minio(s3)服务器读取一个大zarr文件，但是，在我改变了三种方法后，它们都崩溃了：将 Hydrodata.configs.config 导入为conf # 方法一 # https://pastebin.com/vkM1M3VV

python asynchronous amazon-s3 bigdata minio

回答 1 投票 0

启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查？

我们有一个hadoop集群，当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...

apache-spark hadoop bigdata hadoop-yarn kerberos

回答 1 投票 0

循环遍历列列表并丰富数据集

我有一个数据集，我想迭代列列表并使用两个新列（状态和消息）丰富数据集。如果任何行、任何列为空，则状态应设置为 F...

dataframe scala apache-spark bigdata

回答 1 投票 0

RDD.aggregate() 如何处理分区？

我是 Spark 的新手，并试图了解像reduce、aggregate 等函数是如何工作的。在执行 RDD.aggregate() 时，我尝试将 ZeroValue 更改为身份以外的其他内容（0 表示

apache-spark pyspark bigdata rdd apache-spark-dataset

回答 1 投票 0

PySpark 与 SQLalchemy，哪个更适合处理大数据？

我有一个包含大量数据（200Gb+）的三角洲湖，我需要使用可以在 Python 中运行 SQL 的东西来清除它。我不想直接清除.parquet文件，我想直接工作...

python database pyspark bigdata

回答 2 投票 0

如何正确优化Spark和Milvus来处理大数据？

我有一个包含 2 列的 Spark 数据框：id 和向量。向量列是一个包含 20,000 个元素长的浮点数的列表。 Dataframe 本身有 2,500,000 行长。我使用 Spark-Milvus 连接器插入...

python apache-spark pyspark bigdata milvus

回答 1 投票 0

将数据加载到具有不同分区的新 BigQuery 表中

我一直在尝试将 BigQuery 转储从每日分区表加载到每小时分区表，但遇到以下错误：我创建了一个每小时分区的新表，因为我们发现

google-cloud-platform google-bigquery bigdata

回答 1 投票 0

作为一名大数据工程师如何进步？[已关闭]

作为一名在电信数据公司工作2年的大数据工程师，我有Flink、Spark、Hive SQL、Shell脚本等方面的经验。我希望得到一些建议...

java database apache-spark bigdata apache-flink

回答 1 投票 0

大数据表的版本控制

我正在数据湖的顶部构建一个冰山表。这些表用于报告工具。我正在尝试找出控制这些表的版本/部署更改的最佳方法......

bigdata data-lake apache-iceberg data-lakehouse

回答 2 投票 0

SQL WHERE 子句不适用于数组

我目前使用名为 retool 的工具从我的 bigquery 实例查询数据。问题是相当多的字段名称使用数组，而我在使用数组过滤字段名称时遇到了一些问题......

sql google-bigquery bigdata retool

回答 1 投票 0

元数据错误：org.apache.thrift.transport.TTransportException

这个错误是什么意思？ “元数据错误：org.apache.thrift.transport.TTransportException？” 在什么情况下会出现此错误？我在创建表时遇到此错误，为什么...

hadoop hive bigdata cloudera-cdh

回答 2 投票 0

是否有测试或函数可以对大数据集进行多重比较？

我有一个包含 2304 个值的大数据集：384 个不同的基因表达值，一式三份，针对 2 个不同的组（即不同的治疗）。我只想比较 2 之间相同的基因

r statistics bigdata

回答 1 投票 0

如何优化laravel上的大数据处理？

我的任务是： “获取交易表，按交易日期对行进行分组并计算状态。此操作将形成统计数据，并将在页面上呈现”。这是我的方法...

php laravel laravel-5 bigdata

回答 3 投票 0

如何计算一个巨大的 CSV 文件中两个命名列之间的差异，然后将结果保存到第二个 CSV 文件中？

我有一个包含近 2 亿行（GB 数据）的 CSV 文件。它只有 5 列。我想迭代数据并进行简单的计算，首先在列之间，然后在...之间

python pandas dataframe statistics bigdata

回答 1 投票 0

有没有办法从Java中的InputStream读取镶木地板文件？

我正在尝试从S3读取镶木地板记录，S3通常返回一个输入流，我想从中检索数据。我使用 java ，我不想使用 Spark 的内置阅读器。有没有...

java amazon-s3 bigdata parquet

回答 1 投票 0

如何从docker容器访问本地系统文件？

我正在码头工人终端上工作。我想从 docker 终端访问本地文件。有办法做到吗？提前致谢。编辑：我有大量文件要访问我尝试加载...

docker ubuntu hadoop hive bigdata

回答 1 投票 0

对 terra 中非常大的栅格进行操作会导致 std::bad_alloc

我有一个很大的光栅，我不明白如何处理它。我的假设是我可以将其切成块，制作一个 vrt，然后处理 vrt 以获得答案。但事实并非如此（至少不是

bigdata raster terra

回答 1 投票 0

有没有办法将Microsoft sql中的数据直接读取到cudf（GPU的RAM）中？

我通过互联网搜索了这个，但找不到任何代码。我想到的是首先将数据加载到 Pandas（Ram）中，然后将其加载到 Cudf（GPU 的 ram）中。导入CUDF 从 sqlalchemy 导入

python pandas dataframe bigdata cudf

回答 1 投票 0

Cassandra 分页

我在 Cassandra 中有一张表，有 100 万条记录。我想一次获取100条记录，所以如果我获取前100条，那么下一次获取应该从第101项开始。我如何获取这种pagi...

java cassandra pagination bigdata database

回答 4 投票 0

bigdata 相关问题

最新问题