bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

如何通过具有100K行的两个不同数据帧改善我的代码迭代，以降低python中的处理速度？

[能否请您看一下我的代码并给我一些建议，以改善我的代码，从而减少处理时间？主要目的是查看测试表的每一行（ID），并在...

python dataframe for-loop if-statement bigdata

回答 2 投票 -1

如何使用pyspark流计算csv文件中的条目数

我有一个监视器目录，其中包含.csv文件的数量。我需要计算即将到来的.csv文件中每个条目的数量。我想在pyspark流上下文中执行此操作。这就是我所做的，...

python-3.x pyspark bigdata spark-streaming rdd

回答 1 投票 0

如何在sklearn RandomForestRegressor中正确预测？

我正在为学校项目进行大数据项目。我的数据集看起来像这样：https://github.com/gindeleo/climate/blob/master/GlobalTemperatures.csv我正在尝试预测“ ...

python pandas bigdata random-forest sklearn-pandas

回答 1 投票 0

多态关系会导致大数据变慢吗？

晚上好/早晨，我正在开发一个社交媒体类型的数据库，该数据库将拥有数百万的用户，我还没有使用过如此大的数据，所以我有点担心自己采用的方法...]]

laravel-5 database-design bigdata

回答 1 投票 0

collect（）vs select（）。取spark数据框的值

我是pyspark的新手。我正在尝试使用可能具有数百万甚至更多行的spark数据框来获取价值。 df = spark.sql（“从产品中选择count（*）作为项目，其中date（create_date）＆...

dataframe apache-spark bigdata pyspark-sql

回答 2 投票 0

Mongodb插入50M文档而不重复的最佳方法

node.js mongodb bigdata

回答 2 投票 0

优化一个庞大而简单的mysql查询总数

人们将如何找到a，b，c，d，e，f的所有可能组合的解，其中a + b + c + d + e + f = x给出a，b，c，d，e， f是0-999之间的整数，x是固定整数，解a，...

mysql bigdata query-optimization mathematical-optimization

回答 1 投票 -1

计算道路平均速度

我去了数据工程师的工作面试。面试官问我一个问题。他给了我一些情况，并请我设计该系统的数据流。我解决了，但他不喜欢我的...

apache-spark apache-kafka bigdata stream-processing

回答 4 投票 12

如何将Hadoop与SharePoint集成？

由于我需要以更快的处理速度和更高的可伸缩性来存储大量数据，所以我为此选择了Hadoop，但是我也需要数据协作，我知道共享点是...

sharepoint hadoop integration bigdata collaboration

回答 1 投票 0

从Pyspark df向PostgresSQL写入超过5,000万，最有效的方法

postgresql apache-spark pyspark apache-spark-sql bigdata

回答 2 投票 10

如何使用future_lapply和data.table循环读取大型csv文件夹并返回摘要表

我在硬盘驱动器上存储了10,000多个csv文件的文件夹。每个csv都是一个物种，并且存在于栅格单元中（如果地球上每个单元中都存在该物种，则超过500万个单元）。 ...

r dplyr data.table bigdata

回答 1 投票 0

如何在for循环中将字符串值添加到Pandas Dataframe？

我有一个熊猫数据框df_causation，我已将其创建为具有相应列名称的空数据框。 df_causation = pd.DataFrame（columns = ['Question']）我有一个for循环，其中for ...

python pandas dataframe bigdata data-analysis

回答 1 投票 0

Regex替换so spark dataframe字符串列中的点字符

[当我尝试更换句号“时。”在Spark（Scala）的一列中使用“-”将其替换为“-”。val df3 = df2.withColumn（“ Current Ver”，regexp_replace（col（“ Current Ver”），“ ....

regex scala apache-spark apache-spark-sql bigdata

回答 2 投票 0

替换spark数据框中的点

regex scala apache-spark apache-spark-sql bigdata

回答 2 投票 0

当我尝试在Spark（Scala）的一列中将句号“。”替换为“-”时，它将所有字符替换为“-”

val df3 = df2.withColumn（“ Current Ver”，regexp_replace（col（“ Current Ver”），“。”，“-”））df3.show（）例如-如果列包含“ 2.4.0” ，执行命令后，输出为“ ------”。

scala apache-spark apache-spark-sql bigdata databricks

回答 1 投票 0

为SQL中的大型数据集通过算法创建列名

我正在寻求将大量数据集导入mysql服务器。问题是前6列很容易命名，之后我有1000多个吸收值列，我宁愿不坐...

mysql sql bigdata

回答 1 投票 0

Matillion和apache气流之间的差异

我想使用ETL服务，但是我陷入了Apache Airflow和Matillion之间。他们是一样的吗？主要区别是什么？

bigdata airflow data-pipeline matillion

回答 1 投票 0

没有BigQuery的大量数据的交集

我有一个表格（在Google BigQuery中），显示了人们访问过的网址。人们用10个字符的ID表示。如果用户访问过一次网址，则表中将显示1行。大约有90M ...

google-bigquery bigdata intersection

回答 1 投票 0

我如何使用python在mapreduce中得到直方图（Graph）的结果？

[当我运行这段代码时，我在群集的精简部分中遇到了错误。我采用概率并使用Matplotlib将输出图形化，但会失败。我正在Google上运行此代码...

python python-3.x hadoop mapreduce bigdata

回答 1 投票 0

将数据帧保存到.txt或.csv文件中

我正在研究一种机器学习算法，以预测以太坊的价格。我已经有一个小的数据集，我正在为此做预测。我可以在终端中打印预测，我是...

apache-spark hadoop pyspark output bigdata

回答 1 投票 -2

bigdata 相关问题

最新问题