bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

导致文件内容倍增的错误

我正在尝试像以下那样获取数据,但是我遇到了一个逻辑错误,该错误导致内容相乘* 2,但是,我看不到错误。我的字典内容是以下格式。...

回答 1 投票 0

如何优化具有许多结果的MySQL / MyISAM全文搜索

我有一个MySQL MyISAM表,在关键字列和2000万行中具有全文索引。当搜索稀有单词时,它会很好地工作,例如:从WHERE MATCH(...

回答 1 投票 0

在MicroStrategy中,如何比较两个具有相同属性的行中的数据?

[您好,朋友们,我正在寻求有关Microstrategy MSTR报告计算/指标/属性的帮助。请参阅所附图片。我具有以下三个属性:事件,状态标志,状态...

回答 1 投票 0

如何处理由Hive JDBC开发的服务应用程序故障?

我正在基于Hive jdbc-examples项目开发服务应用程序,无法运行该应用程序。我通常使用华为的大数据产品来执行Hive的jdbc示例开发,这是...

回答 1 投票 0

关于numpy数组的操作的内存错误

我正在实现一个涉及对numpy数组进行操作的函数,并且在该函数上出现内存错误。我明确指出了正在创建问题的numpy数组的尺寸。 a = ...

回答 1 投票 0

80 Gb文件-创建一个基于县列表提交数据的数据框

我正在使用Python处理80 Gb数据集。数据有30列和〜180,000,000行。我在pd.read_csv中使用块大小参数读取块中的数据,然后在其中进行迭代...

回答 1 投票 0

单个数据节点正在Hadoop 5节点群集中存储更多数据

我有版本3.1.1的5个节点HDP群集,其中2个Name节点和3个数据节点。我正在维护默认复制因子3。但是MAX数据仅存储在第一个数据节点中。参见下面的磁盘...

回答 3 投票 0

如何在我的服务中快速/实时地从HDFS提供数据?

目前,在我公司中,每个需要从HDFS向用户提供数据的团队都为该任务创建了自己的工具。我们想要创建一个通用工具,以通过HTTP快速/实时地为数据提供服务...

回答 1 投票 0

“谓词下推”和“投影下推”有什么区别?

我遇到过几种信息源,例如在这里找到的那 些,将“谓词下推”解释为:…如果您可以将查询的部分“下推”到存储数据的位置,则...] >

回答 1 投票 0

Sinble datanode在hadoop 5节点群集中存储更多数据

我有版本3.1.1的5个节点HDP群集,其中2个Name节点和3个数据节点。我正在维护默认复制因子3。但是MAX数据仅存储在第一个数据节点中。参见下面的磁盘...

回答 1 投票 0

鉴于没有库或模拟程序,如何在Amazon Athena上完全测试我的ETL管道?

[我正在编写一个完全用AWS Athena和Python编写的巨大的大数据ETL管道,仅用于编排athena查询,没有任何单元测试框架或库可以帮助模拟...

回答 1 投票 1

如何在Java中加速大文件的读写和压缩解压缩

任务是压缩/解压缩非常大的数据> 2G,单个String或ByteArray无法保存。我的解决方案是将压缩/解压缩的数据块逐块写入文件中。可以,...

回答 1 投票 0

读取大文件(超过60GB)并写入新文件

[一个文件大小为60GB,行为200,000,000行。文件的有效负载如下所示。 source.txt 0.0 4.6 6.3 3.8 5.0 0.0 -3.8 -5.9 1.5 14.2 0.0 1.0 6.9 5.8 6.1 0.0 5.4 -7.1 0.9 6.8 0 ....

回答 1 投票 1

在大型访问日志(〜30Gb)中检测可疑/机器人IP地址

我有大量访问日志(〜30Gb),我正在寻找查找可疑/机器人IP地址的方法。当然,我们可以用(IP + User_Agent)代替IP。所以我的问题是:查找平均请求数...

回答 4 投票 0

当仍有可用存储空间时,为什么Ceph将状态转为Err

我最近建立了一个3节点的Ceph集群。每个节点都有七个用于OSD的1TB HDD。总共,我有21 TB的Ceph存储空间。但是,当我进行工作负载以继续将数据写入Ceph时,它变成了...

回答 1 投票 1

Sqoop Hcatalog导入作业已完成,但表中没有数据

我正在尝试将hcatalog与sqoop集成,以便将数据从rdbms(oracle)导入到data lake(在蜂巢中)。 sqoop-import --connect连接字符串--username用户名--password pass --table -...

回答 1 投票 0

我想将配置单元列的数据类型从bigint更改为datetime,但遇到以下错误消息

更改表interface_detail更改日期时间DATE;但我收到以下错误...请帮助。错误:编译语句时出错:失败:ParseException行1:67无法识别输入...

回答 1 投票 0

在处理其余列时,如何将导致错误的数据插入到单独的文件中?

我正在制作一个处理超过2000万行和超过50列数据的程序。我正在尝试检查列之一中的数字是偶数还是奇数。如果是偶数,则将'E'插入另一个......>

回答 1 投票 0

如何获取列中每个值的计数?

我有一个大型数据集,其中的列比这多得多,但出于这个问题的目的,我将对其进行简化。种族| QuestionID | ResponseID我想使用R查找答案计数...

回答 3 投票 -1

Bagging模型机器学习

我有以下代码行:#设置折叠次数的值num_folds = 10种子= 7#将数据分成折叠kfold = KFold(num_folds,True,random_state = seed)#创建...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.