大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
如何通过具有100K行的两个不同数据帧改善我的代码迭代,以降低python中的处理速度?
[能否请您看一下我的代码并给我一些建议,以改善我的代码,从而减少处理时间?主要目的是查看测试表的每一行(ID),并在...
我有一个监视器目录,其中包含.csv文件的数量。我需要计算即将到来的.csv文件中每个条目的数量。我想在pyspark流上下文中执行此操作。这就是我所做的,...
如何在sklearn RandomForestRegressor中正确预测?
我正在为学校项目进行大数据项目。我的数据集看起来像这样:https://github.com/gindeleo/climate/blob/master/GlobalTemperatures.csv我正在尝试预测“ ...
晚上好/早晨,我正在开发一个社交媒体类型的数据库,该数据库将拥有数百万的用户,我还没有使用过如此大的数据,所以我有点担心自己采用的方法...]]
collect()vs select()。取spark数据框的值
我是pyspark的新手。我正在尝试使用可能具有数百万甚至更多行的spark数据框来获取价值。 df = spark.sql(“从产品中选择count(*)作为项目,其中date(create_date)&...
人们将如何找到a,b,c,d,e,f的所有可能组合的解,其中a + b + c + d + e + f = x给出a,b,c,d,e, f是0-999之间的整数,x是固定整数,解a,...
我去了数据工程师的工作面试。面试官问我一个问题。他给了我一些情况,并请我设计该系统的数据流。我解决了,但他不喜欢我的...
由于我需要以更快的处理速度和更高的可伸缩性来存储大量数据,所以我为此选择了Hadoop,但是我也需要数据协作,我知道共享点是...
如何使用future_lapply和data.table循环读取大型csv文件夹并返回摘要表
我在硬盘驱动器上存储了10,000多个csv文件的文件夹。每个csv都是一个物种,并且存在于栅格单元中(如果地球上每个单元中都存在该物种,则超过500万个单元)。 ...
如何在for循环中将字符串值添加到Pandas Dataframe?
我有一个熊猫数据框df_causation,我已将其创建为具有相应列名称的空数据框。 df_causation = pd.DataFrame(columns = ['Question'])我有一个for循环,其中for ...
Regex替换so spark dataframe字符串列中的点字符
[当我尝试更换句号“时。”在Spark(Scala)的一列中使用“-”将其替换为“-”。val df3 = df2.withColumn(“ Current Ver”,regexp_replace(col(“ Current Ver”),“ ....
[当我尝试更换句号“时。”在Spark(Scala)的一列中使用“-”将其替换为“-”。val df3 = df2.withColumn(“ Current Ver”,regexp_replace(col(“ Current Ver”),“ ....
当我尝试在Spark(Scala)的一列中将句号“。”替换为“-”时,它将所有字符替换为“-”
val df3 = df2.withColumn(“ Current Ver”,regexp_replace(col(“ Current Ver”),“。”,“-”))df3.show()例如-如果列包含“ 2.4.0” ,执行命令后,输出为“ ------”。
我正在寻求将大量数据集导入mysql服务器。问题是前6列很容易命名,之后我有1000多个吸收值列,我宁愿不坐...
我想使用ETL服务,但是我陷入了Apache Airflow和Matillion之间。他们是一样的吗?主要区别是什么?
我有一个表格(在Google BigQuery中),显示了人们访问过的网址。人们用10个字符的ID表示。如果用户访问过一次网址,则表中将显示1行。大约有90M ...
我如何使用python在mapreduce中得到直方图(Graph)的结果?
[当我运行这段代码时,我在群集的精简部分中遇到了错误。我采用概率并使用Matplotlib将输出图形化,但会失败。我正在Google上运行此代码...
我正在研究一种机器学习算法,以预测以太坊的价格。我已经有一个小的数据集,我正在为此做预测。我可以在终端中打印预测,我是...