bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

我有一个基于两个标题的大量数据要读取，但是当我使用多索引方法时，我无法在pandas数据框中使用“usecols”。当我使用时 df = pd.read_csv(文件, 分隔符=' ', h...

python pandas dataframe csv bigdata

回答 1 投票 0

这就是我在 Flink 1.8.5 中构建 ActorSystem 的方式。公共静态 ActorSystem createNewActorSystem() 抛出异常 { String ip = HostPortUtil.getLocalIp(); 配置配置=新

java bigdata apache-flink

回答 1 投票 0

在 Spark 中明智地获取上一个值分区

我有一个输入表，其中包含 orderid 、 range 和 value1 、 value2 和 value3 。我想根据 orderid 和范围创建 3 个新列 previousvalue1、previousvalue2、previousvalue3。这是...

sql apache-spark hadoop pyspark bigdata

回答 1 投票 0

比较bigQuery中两种类型的数据

我们有一个非常大的数据集。我需要获取从源属性映射到 json 中规范化属性的所有值。归一化和源之间的关系是，如果

google-bigquery comparison bigdata

回答 1 投票 0

Spark 流式或批处理

我正在尝试构建一个应用程序，我需要偶尔读取另一个应用程序放置的文件，每天一次或两次。我必须创建一个 Spark ETL 来监听这个文件夹。 ...

batch-file pyspark bigdata streaming etl

回答 1 投票 0

如何使用 pyspark 正则表达式正确中断数据，其中管道以文字管道分隔？

我有一个原始的databricks表，其中有一个名为“value”的列，其中数据来自带有管道分隔的CSV。这一列内的数据有 5 个字段。 field3 内容是...

regex apache-spark pyspark bigdata

回答 1 投票 0

如何在Clickhouse中对大表进行重复数据删除？

我有一个巨大的单列表，其中engine=Log：从addresses_tmp LIMIT 5中选择* ┌─地址──────────────────────────────────┐ 1. │ 18a0a8bdcbd1fec1785224cfc486ccf02dc3ef5d │ 2. │

out-of-memory bigdata clickhouse

回答 1 投票 0

在VB.NET和SQL中过滤大数据并限制结果

我很难在文本更改事件上实现基于许多字段（如文本框）的多达 500,000 条记录的大数据搜索表单。我尝试了两种解决方案，但没有得到满意的结果。冷杉...

vb.net datatable datagridview bigdata

回答 1 投票 0

在 win 10 中，当我尝试运行 hive 命令时，“schematool”不被识别为内部或外部命令、可操作程序或批处理文件

当然可以！以下是适合 Stack Overflow 的帖子的格式化版本： Hive 设置问题：无法实例化 SessionHiveMetaStoreClient 我在我的

hadoop hive bigdata derby

回答 1 投票 0

ADX Kusto 如何合并两个大表

我有一个简单的案例，数据库中有一个巨大的表，另一个表来自一个 CSV 文件，该文件具有与第一个表中的 ID 和我想要附加到的另一列的映射...

join bigdata kql azure-data-explorer

回答 1 投票 0

长时间运行的 Spark 作业优化

我在 Spark 作业中有一个 UDF 函数，它调用 API 来获取每个城市和州的数据来获取邮政编码，因此需要永远完成这项工作。请建议此 c 的替代方案...

apache-spark hadoop pyspark apache-spark-sql bigdata

回答 1 投票 0

工作卡在 100 个任务中的最后 2 个任务上

我是 Spark 新手，我必须支持我们顾问编写的应用程序。我阅读并观看了大量有关 Spark 的信息，但我仍然在努力解决一些小细节...

apache-spark bigdata

回答 1 投票 0

GPS距离计算与噪音

我有点数组，但有一些这样的噪音；但真正的方向是；当我用半正矢公式计算所有点时，我得到了错误的距离，因为噪音就像 %20-%30 ...

javascript maps bigdata distance haversine

回答 1 投票 0

在 Redshift 中查找分区内的非唯一值

我有一个 2B+ 行外部表，我正在使用 Redshift Spectrum 读取该表。有两个相关列 - key_col (BIGINT) 和partition_col (VARCHAR)。 partition_col 是分区列，并且...

sql amazon-redshift bigdata

回答 1 投票 0

在 R 中加载和分析 CSV 中的大数据

如果这是重复的，请原谅我。我似乎找不到我需要的资源。我有一个 2 TB 的 CSV，需要在 R 中以各种方式进行分析，但我不确定如何加载它

r bigdata data-analysis

回答 1 投票 0

在 R 中分析 CSV 中的大数据

如果这是重复的，请原谅我。我似乎找不到我需要的资源。我有一个 2 TB 的 CSV，我需要在 R 中以各种方式对其进行分析。最终目标未定义...

r bigdata data-analysis

回答 1 投票 0

处理大数据时应该如何编写Elasticsearch搜索查询？

我有一个爬行平台（带有节点/javascript的微服务），我在其中索引了我爬行的文档（每个爬行的url/子页面是我的Mongodb中的单个文档），我想找出最好的

mongodb elasticsearch search bigdata

回答 1 投票 0

numpy.memmap 在 x32 机器上的最大数组大小？

我在 x32 win xp 上使用 python x32 有时程序上线失败 fp = np.memmap('C:/memmap_test', dtype='float32', mode='w+', shape=(行,列)) memmap.py 中的错误追溯（最近的校准...

python arrays memory out-of-memory bigdata

回答 1 投票 0

从巨大的 csv 文件创建 kmer 数据库

我有一个巨大的csv文件（7.5GB），它由三列组成（无标题），第一个是一个包含7个字符的字符串（SSSSDKI），第二个是计数（100），第三个代表冷...

python sql r csv bigdata

回答 1 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施？

我正在寻求构建一个可扩展的基础设施，用于网络抓取和数据分析，类似于 Ahrefs 所做的事情。我需要以下技术方面的建议：网页抓取框架：什么是...

mongodb web-scraping neo4j scrapy bigdata

回答 1 投票 0

bigdata 相关问题

最新问题