bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何在GCP中执行数据沿袭?

当我们通过GCP云存储实现数据湖,以及使用Dataproc,Dataflow等云服务进行数据处理时,我们如何在GCP中生成数据沿袭报告。谢谢。

回答 2 投票 4

Firehose数据管道限制

我的用例如下:我有JSON数据进入需要以镶木地板格式存储在S3中。到目前为止,我可以在Glue中创建一个模式并附加一个“DataFormatConversionConfiguration”......

回答 1 投票 0

上传并运行一次大文件到file1.py并在file2.py中多次运行

我想将一个大文件加载到python脚本一次(这需要时间),但我想避免多次运行该脚本时多次加载该文件。例如,我有file1.py ...

回答 1 投票 1

Neo4j - 大数据所需的硬件

我想使用Neo4j,因为它支持我的要求的两个关键功能:快速全文搜索(基于Neo4j中的Lucene引擎)和连接(或图形命名中的关系)。我去了 ...

回答 1 投票 0

在大量数据帧上运行

我有大量的pandas数据帧> 5000的形状3000x3000浮点值,密度为60%(即40%的值是NaNs)。这些帧具有相同的索引和列。我想继续......

回答 1 投票 0

动态计数器Hadoop

我需要一些关于Hadoop中Mapreduce作业的帮助。我有以下问题。我有一个包含多个文档+文档类别的大型数据集。我需要计算卡方值......

回答 1 投票 0

如何将HiveQL查询的结果输出到CSV?

我们想将Hive查询的结果放到CSV文件中。我认为命令应如下所示:插入覆盖目录'/home/output.csv'从表中选择书籍;当我运行它时,它......

回答 17 投票 74

Impala有没有像to_date(oracle)这样的函数?

我想通过Impala-shell操作日期,其功能类似于Oracle的TO_DATE(string1 [,format_mask] [,nls_language])。有什么建议我怎么办?

回答 1 投票 0

是否有一种有效的聚类大数据阵列的算法

我有一个csv,我想用python阅读它。这个csv有两列,一个是客户名称,另一个是他们的年龄,我想根据他们的年龄对客户进行分组。 ...

回答 1 投票 -1

查找重复的行以及包含多个文件中的大型数据框中的重复行的文件

所以我在404 excel文件中有一个很大的数据帧。数据帧作为ID列,我必须:查找是否存在重复行如果出现重复行,则输出包含...的两个文件

回答 1 投票 0

read_json()dask是并行的吗?

我有以下代码。它使用dask分布式读取100个json文件:(工人:5个核心:5个内存:50.00 GB)来自dask.distributed import客户端导入dask.dataframe作为dd client = Client('...

回答 1 投票 1

大数据集的示例

我正在尝试学习一些大数据技术以及我遇到的关于计算字数的所有示例/教程。是否有人熟悉我可以计算的其他示例或数据集...

回答 1 投票 -1

使用pyspark查找csv文件中两个相同值之间的不同值的计数

我正在使用pyspark来处理超过50GB的大型CSV文件。现在我需要找到两个引用相同值的不同值的数量。例如,输入dataframe:+ ---- + | col1 | ...

回答 3 投票 2

如何使用Scala-Play Json Framework解析Json时获取键和值?

我有一个json文件,它有一些键和值。我需要解析Json并打印键及其值。例如,json文件如下所示。我想打印这个键和值{...

回答 1 投票 0

在大数据表的列中计算二进制值的任何有效方法?

我在谷歌云平台上使用大查询芝加哥犯罪数据。但是,我想计算每种犯罪类型的逮捕和非逮捕次数。在熊猫中很容易计算出来,但这并不直观......

回答 1 投票 0

如何优化google-bigquery从大数据表中查找最常见的类别?

我在芝加哥犯罪数据集上使用google-bigquery。但是,我想从每个不同块的primary_type列中找出最常见的犯罪类型。为此,我提出了遵循标准的SQL ....

回答 2 投票 0

Hive - where子句中的计算列

我正在运行一个如下所示的配置单元查询。 SELECT from_utc_timestamp(arrival_date,“IST”)AS`Date` FROM table_name WHERE 1 BETWEEN'2018-12-01 00:00:00'EN'2018-12-02 00:...

回答 2 投票 1

创建嵌套字典以循环我的文本文件和文件夹以创建多个密钥字典

我有50个文件夹中的counts.txt文件,每个文件夹与一个样本相关。在counts.txt中有两列:第一列是字符串,另一列是数字。我尝试制作嵌套字典......

回答 1 投票 0

将外部数据导入hdfs:边缘节点是瓶颈吗?

我是大数据的新手。我正在尝试将MongoDB集合摄取到hdfs中,并且可以选择使用mongoDB java API + HDFS java API和Spark MongoDB连接器。这两种方法有何不同?一世 ...

回答 1 投票 1

Hive:找到前20%的记录

我有一些数据如下: - ID PRICE 1 100 2 200 3 120 4 130 5 320 6 300 7 200 8 100 9 120 10 250我需要找到前20%的价格。预期产量: - ID PRICE 5 320 6 300

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.