bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

SQL如果组遵循某些规则,如何查找多个组的平均值

这是我当前的代码:SELECT AVG(famTotal)FROM`OmniHealth.new2015Data`,(SELECT SUM(TOTEXP15)as famTotal FROM`OmniHealth.new2015Data` GROUP BY DUID)BMINDX53 BETWEEN 0 AND 25 AND ...

回答 2 投票 0

R - 大数据:广义线性混合效应模型

我正在寻找针对相对大数据集拟合广义线性混合效应模型的策略的建议。考虑一下我有800万美国篮球传球的数据大约300 ...

回答 1 投票 4

SQL:加入vs非规范化(大量数据)

我知道,之前已经问过这个问题的变化。但我的情况可能有点不同:-)所以,我正在建立一个跟踪事件的网站。每个事件都有id和value。它也由...执行

回答 3 投票 3

BigTable Design - BigTable单元格大小的上限

我想知道BigTable是否有单元格内容大小的上限。通过BigTable单元格,我的意思是,表格的特定列族,特定行和特定时间戳中的单元格。如是, ...

回答 2 投票 0

SQL Server与MySQL

我对我应该选择的数据库感到困惑,因为我正在做的应用程序将存储和处理大数据,我认为SQL Server会比MySql更好,任何推荐?

回答 3 投票 0

为什么我的CSV大于具有相同数据的JSON文件?

我使用pandas将大型数据集(510,000行)导出为CSV和JSON以进行比较。两个文件都包含相同的数据集。 -rw-r - r-- 1 ******工作人员187584246 6月24日16:23 case_06-24-16_16-14 ....

回答 2 投票 1

在PIG中分组数据

我有以下数据名称标记ABC 2 ABC 3 ABC 3 XYZ 1 XYZ 2我希望o / p为ABC 8 XYZ 3 mY脚本如下: - groupdata = GROUP filedata by name; sumdata = FOREACH groupdata GENERATE ...

回答 1 投票 0

将大表从一个Hive数据库转移到另一个

我想将一个大的(超过150万条记录和700列)表从一个Hive数据库转移到另一个Hive数据库,其中包括一些转换,例如在日期列上使用一个强制转换,在...上使用substr ...

回答 2 投票 1

在配置单元中的select语句返回一些具有空值的列

我已经多次询问过这类问题,但这些解决方案对我没有用。我创建了一个外部的hive表,因为我的数据来自map-only job输出。然后,加载......

回答 1 投票 1

在火花分析之前从FTP读取大文本文件

我在独立模式下运行spark(将来会分发一个愿景)进入我的系统,分析一个超过5 GB的超大文件。首先,我需要将此文件从FTP复制到我的本地,例如c:\ ...

回答 2 投票 0

关于NN残余层反向推导的澄清

我到处寻找,找不到任何可以解释残余层的背撑的实际推导的东西。这是我最好的尝试,也是我被困的地方。值得一提的是......

回答 1 投票 2

Spark Streaming作业失败,出现“java.lang.OutOfMemoryError:无法创建新的本机线程”

我有火花流工作运行,流输入每3小时约50 mb。该工作在最初的几个小时内处理了几个文件。但突然失败,出现以下错误。当错误......

回答 1 投票 0

布卢姆是否过滤掉交叉路口/工会的误报率?

没有找到任何关于此的内容,所以我希望我的问题能在这里找到答案。问题集:一切都属于采用布隆过滤器的隆起采矿。我有成千上万的绽放过滤器...

回答 1 投票 0

什么是测试装置和火车装置之间的区别?

什么是测试装置和火车装置之间的区别?

回答 2 投票 -5

在Golang Bigfiles

我正在处理一个包含数百万个非常小的文件的应用程序,它变得很痛苦。转移非常困难。所以,我想到了bigfiles或其他可能的虚拟文件系统......

回答 2 投票 -1

使用quanteda计算R中大型语料库的余弦相似度

我正在尝试使用大约85,000条推文的大型语料库,我试图将其与电视广告中的对话进行比较。但是,由于我的语料库的大小,我无法处理......

回答 1 投票 0

使用Yarn Cluster设置Apache Spark

我想使用apache spark集成Yarn。我在我的电脑上安装了spark,jdk和scala。我的数据保存在Cassandra数据库中。我还为slave创建了另一个服务器。 Spark版本 - 2 ....

回答 1 投票 3

将数据从一个列族db传输到另一个列族

我是Cassandra和Column系列数据库世界的新手。我有一个场景,我需要将数据从一个Column系列数据库(如Scylla Database)移动到另一个Column系列数据库Datastax ......

回答 2 投票 0

大数据集上的按需中位数聚合

TLDR:我需要在webapp的大型数据集上进行几次中值聚合,但性能很差。我的查询可以改进/有没有比此项用例的AWS Redshift更好的数据库?我......

回答 1 投票 0

机器学习和大数据

一开始我想描述一下我目前的立场和想要实现的目标。我是一名处理机器学习的研究员。到目前为止已经经历了几个理论......

回答 3 投票 31

© www.soinside.com 2019 - 2024. All rights reserved.