bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何有效地打开30gb文件并处理它的部分而不会减慢速度?

我有一些大文件(超过30GB),其中包含我需要进行一些计算的信息,比如平均。我提到的部分是文件片,我知道开头......

回答 1 投票 5

如何对熊猫的操作进行矢量化以提高速度?

这是SKU亲和力问题。我有这样的数据帧。每个ctn_id都有多个sku_codes。 dfr = pd.DataFrame(columns = ['ctn_id','sku_code'])dfr ['ctn_id'] = np.random.randint(low = 1,high = 21,...

回答 3 投票 1

如何将csv文件转换为镶木地板

我是BigData的新手。我需要将csv / txt文件转换为Parquet格式。我搜索了很多,但找不到任何直接的方法。有没有办法实现这一目标?

回答 7 投票 17

没有在hadoop 2.9.2中运行的datanode

我对hadoop很新,所以我开始关注hadoop 2.9.2开始了。当我运行命令bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-2.9.2.jar grep input ...

回答 1 投票 0

随机森林树木数量和交叉验证

我在随机森林中使用重复交叉验证如下:k = 10 repeat = 3我已经设置了我的随机森林来种植一千棵树并在每个节点使用6个变量进行分割:ntree = ...

回答 1 投票 0

如何处理大文本数据来创建Word Cloud?

我有一个巨大的文本数据,我需要创建它的文字云。我正在使用名为word_cloud的Python库来创建可配置的词云。问题是我......

回答 1 投票 0

高效读取> 500 MB xlsx到R和Python [关闭]

在R和Python中,一切都适合我。但是,我无法读取> 500 MB xlsx,其中有三张R和Python。想知道什么是阅读非常大的有效方法...

回答 2 投票 -1

对大型数据帧的特定行应用算术计算

假设我们有一个具有大行数(1600000X4)的数据帧(df)。另外,我们有一个列表,例如这个:inx = [[1,2],[4,5],[8,9,10],[15,16]]我们需要计算平均值.. 。

回答 1 投票 0

在Dask Dataframe中使用展开进行Str拆分

我有3400万行,只有一列。我想将字符串拆分为4列。这是我的样本数据集(df):Log 0 Apr 4 20:30:33 100.51.100.254 dns,包用户:---从10获得查询....

回答 1 投票 1

Bigtable性能影响列族

我们目前正在研究使用多列系列对我们的bigtable查询的性能的影响。我们发现将列拆分为多个列族不会......

回答 2 投票 4

无法解析重载方法'groupByKey'

我正在尝试编译此代码:// Imports import org.apache.spark.sql。{Row,SQLContext,SparkSession} import org.apache.spark.sql.types._ import org.apache.spark。{SparkConf, SparkContext} ... // ...

回答 1 投票 -2

怀疑从REST API过滤JSON对象

我试图从Java中的JSON响应中过滤掉一些对象。以下是我的代码。我需要从响应中获取Genre对象并单独打印。有谁知道怎么做?一世 ...

回答 1 投票 2

在PostgreSQL中计算和节省空间

我有一个像pg这样的表:CREATE TABLE t(BIGSERIAL NOT NULL, - 8 b b SMALLINT, - 2 b c SMALLINT, - 2 b d REAL,...

回答 2 投票 53

将RDD [String]拆分为RDD [元组]

我是Scala和RDD的初学者。我在Spark 2.4上使用Scala。我有一个RDD [String],其行如下:(a,b,c,d,...)我想在每个昏迷中拆分此String以获得RDD [(String,...

回答 3 投票 0

R向量大小限制:.C中不支持“长向量(参数5)”

我有一个非常大的矩阵我试图在具有足够内存的服务器上运行glmnet。它甚至在非常大的数据集上工作到一定程度,之后我得到以下错误:...

回答 2 投票 10

在(一个非常大的)pandas数据框中定位值并存储到字典

我有一个非常大的熊猫数据帧。数据框如下所示:>> df“a_1”“a_2”“b_1”“c_2”...“d_1”nan 0.2 nan nan“d_2”0.1 nan nan 1“e_1”nan 1 nan 0.2“...

回答 1 投票 1

如何在Databricks pyspark中导入Excel文件

我试图将我的excel文件导入Azure-DataBricks机器中的PySpark,我必须将其移至PySpark Dataframe。我无法执行此操作。获取错误导入pandas data = pandas ....

回答 1 投票 0

在MemSQL中查询超过10亿行的GROUP BY

我有一个13亿行的表(MemSQL,列存储模式)。我需要在3个字段(id1,id2,text)上查询GROUP BY并获取每个3元组的最新记录。桌子得到......

回答 2 投票 -2

关于大数据和hadoop的信息[关闭]

我是程序员,我擅长数据库概念。我想了解大数据和hadoop。但我在这些科目上没有任何过往经验。如果有人对大数据有很好的经验和......

回答 1 投票 -6

jq - stream过滤同一个键的多个值

我正在处理一个非常大的JSON,其中我需要使用键的值来过滤内部JSON对象。我的JSON如下所示:{“userActivities”:{“L3ATRosRdbDgSmX75Z”:{“deviceId”:“...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.