bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

在 Python Pandas 中指定多索引标头时使用 usecols

我有一个基于两个标题的大量数据要读取,但是当我使用多索引方法时,我无法在pandas数据框中使用“usecols”。 当我使用时 df = pd.read_csv(文件, 分隔符=' ', h...

回答 1 投票 0

如何在Flink 1.13.5中构建ActorSystem?

这就是我在 Flink 1.8.5 中构建 ActorSystem 的方式。 公共静态 ActorSystem createNewActorSystem() 抛出异常 { String ip = HostPortUtil.getLocalIp(); 配置配置=新

回答 1 投票 0

在 Spark 中明智地获取上一个值分区

我有一个输入表,其中包含 orderid 、 range 和 value1 、 value2 和 value3 。 我想根据 orderid 和范围创建 3 个新列 previousvalue1、previousvalue2、previousvalue3。这是...

回答 1 投票 0

比较bigQuery中两种类型的数据

我们有一个非常大的数据集。我需要获取从源属性映射到 json 中规范化属性的所有值。归一化和源之间的关系是,如果

回答 1 投票 0

Spark 流式或批处理

我正在尝试构建一个应用程序,我需要偶尔读取另一个应用程序放置的文件,每天一次或两次。我必须创建一个 Spark ETL 来监听这个文件夹。 ...

回答 1 投票 0

如何使用 pyspark 正则表达式正确中断数据,其中管道以文字管道分隔?

我有一个原始的databricks表,其中有一个名为“value”的列,其中数据来自带有管道分隔的CSV。 这一列内的数据有 5 个字段。 field3 内容是...

回答 1 投票 0

如何在Clickhouse中对大表进行重复数据删除?

我有一个巨大的单列表,其中engine=Log: 从addresses_tmp LIMIT 5中选择* ┌─地址──────────────────────────────────┐ 1. │ 18a0a8bdcbd1fec1785224cfc486ccf02dc3ef5d │ 2. │

回答 1 投票 0

在VB.NET和SQL中过滤大数据并限制结果

我很难在文本更改事件上实现基于许多字段(如文本框)的多达 500,000 条记录的大数据搜索表单。 我尝试了两种解决方案,但没有得到满意的结果。 冷杉...

回答 1 投票 0

在 win 10 中,当我尝试运行 hive 命令时,“schematool”不被识别为内部或外部命令、可操作程序或批处理文件

当然可以!以下是适合 Stack Overflow 的帖子的格式化版本: Hive 设置问题:无法实例化 SessionHiveMetaStoreClient 我在我的

回答 1 投票 0

ADX Kusto 如何合并两个大表

我有一个简单的案例,数据库中有一个巨大的表,另一个表来自一个 CSV 文件,该文件具有与第一个表中的 ID 和我想要附加到的另一列的映射...

回答 1 投票 0

长时间运行的 Spark 作业优化

我在 Spark 作业中有一个 UDF 函数,它调用 API 来获取每个城市和州的数据来获取邮政编码,因此需要永远完成这项工作。请建议此 c 的替代方案...

回答 1 投票 0

工作卡在 100 个任务中的最后 2 个任务上

我是 Spark 新手,我必须支持我们顾问编写的应用程序。 我阅读并观看了大量有关 Spark 的信息,但我仍然在努力解决一些小细节...

回答 1 投票 0

GPS距离计算与噪音

我有点数组,但有一些这样的噪音; 但真正的方向是; 当我用半正矢公式计算所有点时,我得到了错误的距离,因为噪音就像 %20-%30 ...

回答 1 投票 0

在 Redshift 中查找分区内的非唯一值

我有一个 2B+ 行外部表,我正在使用 Redshift Spectrum 读取该表。有两个相关列 - key_col (BIGINT) 和partition_col (VARCHAR)。 partition_col 是分区列,并且...

回答 1 投票 0

在 R 中加载和分析 CSV 中的大数据

如果这是重复的,请原谅我。我似乎找不到我需要的资源。 我有一个 2 TB 的 CSV,需要在 R 中以各种方式进行分析,但我不确定如何加载它

回答 1 投票 0

在 R 中分析 CSV 中的大数据

如果这是重复的,请原谅我。我似乎找不到我需要的资源。 我有一个 2 TB 的 CSV,我需要在 R 中以各种方式对其进行分析。最终目标未定义...

回答 1 投票 0

处理大数据时应该如何编写Elasticsearch搜索查询?

我有一个爬行平台(带有节点/javascript的微服务),我在其中索引了我爬行的文档(每个爬行的url/子页面是我的Mongodb中的单个文档),我想找出最好的

回答 1 投票 0

numpy.memmap 在 x32 机器上的最大数组大小?

我在 x32 win xp 上使用 python x32 有时程序上线失败 fp = np.memmap('C:/memmap_test', dtype='float32', mode='w+', shape=(行,列)) memmap.py 中的错误 追溯(最近的校准...

回答 1 投票 0

从巨大的 csv 文件创建 kmer 数据库

我有一个巨大的csv文件(7.5GB),它由三列组成(无标题),第一个是一个包含7个字符的字符串(SSSSDKI),第二个是计数(100),第三个代表冷...

回答 1 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施?

我正在寻求构建一个可扩展的基础设施,用于网络抓取和数据分析,类似于 Ahrefs 所做的事情。我需要以下技术方面的建议: 网页抓取框架:什么是...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.