bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

导致文件内容倍增的错误

我正在尝试像以下那样获取数据，但是我遇到了一个逻辑错误，该错误导致内容相乘* 2，但是，我看不到错误。我的字典内容是以下格式。...

python bigdata

回答 1 投票 0

如何优化具有许多结果的MySQL / MyISAM全文搜索

我有一个MySQL MyISAM表，在关键字列和2000万行中具有全文索引。当搜索稀有单词时，它会很好地工作，例如：从WHERE MATCH（...

mysql performance full-text-search bigdata

回答 1 投票 0

在MicroStrategy中，如何比较两个具有相同属性的行中的数据？

[您好，朋友们，我正在寻求有关Microstrategy MSTR报告计算/指标/属性的帮助。请参阅所附图片。我具有以下三个属性：事件，状态标志，状态...

sql database bigdata analysis microstrategy

回答 1 投票 0

如何处理由Hive JDBC开发的服务应用程序故障？

我正在基于Hive jdbc-examples项目开发服务应用程序，无法运行该应用程序。我通常使用华为的大数据产品来执行Hive的jdbc示例开发，这是...

jdbc hive bigdata huawei

回答 1 投票 0

关于numpy数组的操作的内存错误

我正在实现一个涉及对numpy数组进行操作的函数，并且在该函数上出现内存错误。我明确指出了正在创建问题的numpy数组的尺寸。 a = ...

python numpy bigdata

回答 1 投票 0

80 Gb文件-创建一个基于县列表提交数据的数据框

我正在使用Python处理80 Gb数据集。数据有30列和〜180,000,000行。我在pd.read_csv中使用块大小参数读取块中的数据，然后在其中进行迭代...

python pandas dataframe bigdata

回答 1 投票 0

单个数据节点正在Hadoop 5节点群集中存储更多数据

我有版本3.1.1的5个节点HDP群集，其中2个Name节点和3个数据节点。我正在维护默认复制因子3。但是MAX数据仅存储在第一个数据节点中。参见下面的磁盘...

hadoop bigdata

回答 3 投票 0

如何在我的服务中快速/实时地从HDFS提供数据？

目前，在我公司中，每个需要从HDFS向用户提供数据的团队都为该任务创建了自己的工具。我们想要创建一个通用工具，以通过HTTP快速/实时地为数据提供服务...

hadoop database-design architecture bigdata data-warehouse

回答 1 投票 0

“谓词下推”和“投影下推”有什么区别？

我遇到过几种信息源，例如在这里找到的那些，将“谓词下推”解释为：…如果您可以将查询的部分“下推”到存储数据的位置，则...] >

apache-spark bigdata parquet

回答 1 投票 0

Sinble datanode在hadoop 5节点群集中存储更多数据

我有版本3.1.1的5个节点HDP群集，其中2个Name节点和3个数据节点。我正在维护默认复制因子3。但是MAX数据仅存储在第一个数据节点中。参见下面的磁盘...

hadoop bigdata

回答 1 投票 0

鉴于没有库或模拟程序，如何在Amazon Athena上完全测试我的ETL管道？

[我正在编写一个完全用AWS Athena和Python编写的巨大的大数据ETL管道，仅用于编排athena查询，没有任何单元测试框架或库可以帮助模拟...

python python-3.x amazon-web-services bigdata amazon-athena

回答 1 投票 1

如何在Java中加速大文件的读写和压缩解压缩

任务是压缩/解压缩非常大的数据> 2G，单个String或ByteArray无法保存。我的解决方案是将压缩/解压缩的数据块逐块写入文件中。可以，...

java io compression bigdata

回答 1 投票 0

读取大文件（超过60GB）并写入新文件

[一个文件大小为60GB，行为200,000,000行。文件的有效负载如下所示。 source.txt 0.0 4.6 6.3 3.8 5.0 0.0 -3.8 -5.9 1.5 14.2 0.0 1.0 6.9 5.8 6.1 0.0 5.4 -7.1 0.9 6.8 0 ....

java apache-spark hadoop bigdata file-processing

回答 1 投票 1

在大型访问日志（〜30Gb）中检测可疑/机器人IP地址

我有大量访问日志（〜30Gb），我正在寻找查找可疑/机器人IP地址的方法。当然，我们可以用（IP + User_Agent）代替IP。所以我的问题是：查找平均请求数...

r hadoop bigdata

回答 4 投票 0

当仍有可用存储空间时，为什么Ceph将状态转为Err

我最近建立了一个3节点的Ceph集群。每个节点都有七个用于OSD的1TB HDD。总共，我有21 TB的Ceph存储空间。但是，当我进行工作负载以继续将数据写入Ceph时，它变成了...

hadoop bigdata ceph

回答 1 投票 1

Sqoop Hcatalog导入作业已完成，但表中没有数据

我正在尝试将hcatalog与sqoop集成，以便将数据从rdbms（oracle）导入到data lake（在蜂巢中）。 sqoop-import --connect连接字符串--username用户名--password pass --table -...

bigdata sqoop

回答 1 投票 0

我想将配置单元列的数据类型从bigint更改为datetime，但遇到以下错误消息

更改表interface_detail更改日期时间DATE；但我收到以下错误...请帮助。错误：编译语句时出错：失败：ParseException行1:67无法识别输入...

hive bigdata hiveql

回答 1 投票 0

在处理其余列时，如何将导致错误的数据插入到单独的文件中？

我正在制作一个处理超过2000万行和超过50列数据的程序。我正在尝试检查列之一中的数字是偶数还是奇数。如果是偶数，则将'E'插入另一个......>

python pandas bigdata

回答 1 投票 0

如何获取列中每个值的计数？

我有一个大型数据集，其中的列比这多得多，但出于这个问题的目的，我将对其进行简化。种族| QuestionID | ResponseID我想使用R查找答案计数...

r bigdata plyr

回答 3 投票 -1

Bagging模型机器学习

我有以下代码行：＃设置折叠次数的值num_folds = 10种子= 7＃将数据分成折叠kfold = KFold（num_folds，True，random_state = seed）＃创建...

python scala machine-learning bigdata supervised-learning

回答 1 投票 0

bigdata 相关问题

最新问题