bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

在 BigQuery 中按周细分的最佳方式

所以我想做的是创建一个报告，显示公司每周的销售额。所以我们有一个名为“created”的时间字段，如下所示： 2016-04-06 20:58:06 世界标准时间这...

sql google-bigquery bigdata

回答 4 投票 0

Hadoop 上的大型图形处理

我正在开发一个项目，涉及在大图上进行随机行走（太大而无法放入内存）。我使用 networkx 在 Python 中对其进行了编码，但很快，该图变得太大而无法容纳在内存中，所以我重新...

python hadoop graph random-walk bigdata

回答 2 投票 0

Airflow - 根据条件停止 DAG（跳过分支后的剩余任务）

我是气流方面的新手，所以我在这里有疑问。如果满足第一个任务的条件，我想运行 DAG。如果条件不满足，我想在第一个任务之后停止该任务。例子： # ...

python bigdata airflow

回答 2 投票 0

处理集合中的数百万条记录

我目前面临着拥有包含数百万个数据集的大型 xml 的问题。读取并反序列化它们之后（不需要太多时间），需要将数据写入数据库（

c# list dictionary bigdata hashset

回答 2 投票 0

大表没有自增主键列如何最大化上传到云端的查询性能

我有一个巨大的表用于加载到云（BigQuery）。表的结构非常简单：创建表 `my_huge_table` ( `user_id` int(10) NOT NULL, ...

mysql performance query-optimization bigdata

回答 1 投票 0

替换大数据中的异常值

我有一个12列600000行的大数据，我想用这个函数替换异常值替换异常值 <- function(x, na.rm = TRUE, ...) { qnt <- quantile(x, probs=c(.25,....

r performance optimization bigdata outliers

回答 1 投票 0

有没有一种更快的方法可以使用基数 R 找到大向量中第一个不是 NA 的值？

就像问题所说的那样。当向量大小非常大（> 10M 条目）时，使用基本 R 是否有更快的方法来执行下面的操作？下面的代码可以工作，但是当向量大小增大时

r performance bigdata na

回答 1 投票 0

当收集到足够的行数时，如何让 Trino 提前停止？

我有一个 Hive 数据库，我正在通过 Trino 查询它的表。每个表都有许多分区。每当我执行类似查询时 SELECT * FROM my_table LIMIT 100；它仍然会遍历所有分区

sql hive bigdata trino

回答 1 投票 0

动态分割数据框

我有以下数据框：将 pandas 导入为 pd data = {'姓名': ['Ankit', '阿米特', '艾西瓦娅', 'Priyanka'，'Kovacs'，'Tompos']， ‘年龄’: [21, 19, 20, 18, 20, 19], '...

dataframe dynamic split bigdata

回答 1 投票 0

vaex数据框支持数据生成吗？

我有一个带有模式的数据集，自行车ID REGN_NUMBER ENGINE_NUMBER CHASSIS_NUMBER 购买_年 1 XN67TY567 34567ABGN65 145089 2011年 2 XN67TM567 34567ABGT65 145085 2011年 3 XN67TM569 34567VBGT65 1450867...

bigdata data-generation vaex

回答 1 投票 0

在cassandra中实现上一页导航的正确方法是什么？

我使用 cassandra 一段时间了，我不太满意的一件事是上一页的分页。据我所知 cassandra 有自动分页支持。我必须付出的一切...

cassandra pagination bigdata cql3

回答 1 投票 0

将猪结果存储在文本文件中

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点？我的代码： a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

hadoop apache-pig hdfs bigdata

回答 2 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY，但spark没有CROSS APPLY。我研究了一下，发现INNER JOIN可以用...

sql sql-server apache-spark apache-spark-sql bigdata

回答 1 投票 0

如何存储大量小文本文件并快速访问？

我需要存储很多小文本文件（~30亿个，每天增长70m），大小从100B到几kB。我可以将它们分组，但组中的项目数量不可预测：从 1 到...

cassandra bigdata hbase rocksdb file-storage

回答 1 投票 0

创建一个空数组而不覆盖它

我想像添加 for 循环中的列表一样添加到数组中，但要做到这一点，我需要先创建一个空数组并添加到其中。我在这个网站上看到的每一个建议都使它成为旧数组

python arrays numpy bigdata numpy-ndarray

回答 1 投票 0

有没有办法限制MapReduce程序的节点数量？

在我的 Spark 程序中，我可以通过调整 --num-executors 参数来限制程序运行的节点数量。现在我想将我的程序的可扩展性与

java scala hadoop apache-spark bigdata

回答 1 投票 0

不更新数据库（仅读/写）

我们正在设计一个包含大量交易数据的银行级应用程序。要求之一是所有事务数据只能读取和写入，而不能更新。我们可以...

mysql mongodb bigdata database nosql

回答 2 投票 0

Apache Arrow Flight Server 作为数据即服务

我计划在s3数据存储之上构建一个arrow-flight服务器，s3数据存储有PB级的数据。当飞行服务器将所有 1 pb 的数据加载到内存中时，我几乎不担心......

amazon-s3 bigdata apache-arrow apache-arrow-flight

回答 1 投票 0

如何使用 Pentaho 将多个来源的数据导入到单个输出文件？

我有一个转换过程，可以从多个数据源获取数据并将它们连接到单个 CSV 输出中。这个过程是一个原始作业，删除以前的信息并加载数据......

bigdata etl pentaho kettle pentaho-spoon

回答 1 投票 0

如何检查两个数据集之间的相似性并在 Snowflake 中返回分数（这可能吗？）

我有两个数据集，其中包含我公司客户的全名。两组都相当大（40-70k 行）。我想检查一下这两个群体之间是否存在相似之处。例如：如果...

python sql snowflake-cloud-data-platform bigdata

回答 1 投票 0

bigdata 相关问题

最新问题