bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

我有一些大文件（超过30GB），其中包含我需要进行一些计算的信息，比如平均。我提到的部分是文件片，我知道开头......

python pandas bigdata large-data large-files

回答 1 投票 5

这是SKU亲和力问题。我有这样的数据帧。每个ctn_id都有多个sku_codes。 dfr = pd.DataFrame（columns = ['ctn_id'，'sku_code']）dfr ['ctn_id'] = np.random.randint（low = 1，high = 21，...

python pandas parallel-processing bigdata vectorization

回答 3 投票 1

如何将csv文件转换为镶木地板

我是BigData的新手。我需要将csv / txt文件转换为Parquet格式。我搜索了很多，但找不到任何直接的方法。有没有办法实现这一目标？

java bigdata parquet

回答 7 投票 17

没有在hadoop 2.9.2中运行的datanode

我对hadoop很新，所以我开始关注hadoop 2.9.2开始了。当我运行命令bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-2.9.2.jar grep input ...

java hadoop bigdata

回答 1 投票 0

随机森林树木数量和交叉验证

我在随机森林中使用重复交叉验证如下：k = 10 repeat = 3我已经设置了我的随机森林来种植一千棵树并在每个节点使用6个变量进行分割：ntree = ...

machine-learning bigdata data-science

回答 1 投票 0

如何处理大文本数据来创建Word Cloud？

我有一个巨大的文本数据，我需要创建它的文字云。我正在使用名为word_cloud的Python库来创建可配置的词云。问题是我......

python python-3.x bigdata word-cloud

回答 1 投票 0

高效读取> 500 MB xlsx到R和Python [关闭]

在R和Python中，一切都适合我。但是，我无法读取> 500 MB xlsx，其中有三张R和Python。想知道什么是阅读非常大的有效方法...

python r bigdata xlsx

回答 2 投票 -1

对大型数据帧的特定行应用算术计算

假设我们有一个具有大行数（1600000X4）的数据帧（df）。另外，我们有一个列表，例如这个：inx = [[1,2]，[4,5]，[8,9,10]，[15,16]]我们需要计算平均值.. 。

python pandas performance dataframe bigdata

回答 1 投票 0

在Dask Dataframe中使用展开进行Str拆分

我有3400万行，只有一列。我想将字符串拆分为4列。这是我的样本数据集（df）：Log 0 Apr 4 20:30:33 100.51.100.254 dns，包用户：---从10获得查询....

python string split bigdata dask

回答 1 投票 1

Bigtable性能影响列族

我们目前正在研究使用多列系列对我们的bigtable查询的性能的影响。我们发现将列拆分为多个列族不会......

bigdata google-cloud-platform google-cloud-bigtable

回答 2 投票 4

无法解析重载方法'groupByKey'

我正在尝试编译此代码：// Imports import org.apache.spark.sql。{Row，SQLContext，SparkSession} import org.apache.spark.sql.types._ import org.apache.spark。{SparkConf， SparkContext} ... // ...

scala apache-spark apache-spark-sql bigdata

回答 1 投票 -2

怀疑从REST API过滤JSON对象

我试图从Java中的JSON响应中过滤掉一些对象。以下是我的代码。我需要从响应中获取Genre对象并单独打印。有谁知道怎么做？一世 ...

java json bigdata analytics

回答 1 投票 2

在PostgreSQL中计算和节省空间

我有一个像pg这样的表：CREATE TABLE t（BIGSERIAL NOT NULL， - 8 b b SMALLINT， - 2 b c SMALLINT， - 2 b d REAL，...

postgresql database-design storage bigdata

回答 2 投票 53

将RDD [String]拆分为RDD [元组]

我是Scala和RDD的初学者。我在Spark 2.4上使用Scala。我有一个RDD [String]，其行如下：（a，b，c，d，...）我想在每个昏迷中拆分此String以获得RDD [（String，...