Pydoop 在大数据分析和数据科学中的重要性

问题描述 投票:0回答:2

我是数据科学和大数据框架的新手。
可以说,我有一个 CSV 格式的数据集输入。
我从 Google 和其他资源中找到了有关数据分析师和数据科学家日常工作的信息,

  • 一旦用户获得 DataSet,首先将在 python pandas 库的帮助下进行操作,其中包括数据清理和其他内容。
  • 然后用户使用 matplotlib 和其他技术可视化数据。
  • 用户可以编写机器学习算法来获得某些标准的预测。

以上所有工作流程都可以概括为数据分析和预测。

现在,在另一个帐户上,我发现了 Pydoop(Python 的 Hadoop 框架) 进行存储、处理等操作

我有点困惑,在上面提到的数据分析工作流程中,pydoop 到底在哪里?

请指导我。

python pandas hadoop data-science
2个回答
0
投票

Pydoop 不是一个框架。文档说它是 MapReduce 框架的接口

Pydoop 是 Hadoop 的 Python 接口,允许您用纯 Python 编写 MapReduce 应用程序

通过更多研究,您会发现 PySpark 的示例比

pydoop
更多,并且编写简单的 MapReduce 并不那么容易(尽管使用 Python 比 Java 更容易),而且并不真正适合数据科学家

无论如何,在提到的工作流程中,用户需要获取“数据集”。它可以存储在 Hadoop 中,并且

pydoop
能够处理它(通过 MapReduce 应用程序),但是,使用
pandas
并不容易做到这一点,因为 pandas 需要本地所有数据来创建数据框,不是从远程文件系统逐行流式传输。

与 PySpark 相比,

pydoop
本身也不提供任何机器学习算法,因此同样不适用于工作流程。

PySpark 有一个

toPandas
函数,它是 Hadoop 进程和用于数据科学和可视化的“独立”Pandas 应用程序之间的网关,但是 Jupyter 和 Apache Zeppelin 更常用于直接进行 Spark 可视化,而无需与 Pandas 交互。


-3
投票

数据科学是一个跨学科领域,结合了各种技术、算法和系统,从结构化和非结构化数据中提取见解和知识。它涉及使用科学方法、流程和系统来分析和解释数据,使其可用于决策、预测或优化。

数据科学培训不仅可以提供大量职业机会,还可以帮助您解决现实问题并做出数据驱动的决策。无论您是想进入该领域还是增强现有技能,通过数据科学培训获得的知识和能力都将使您能够在当今以数据为中心的世界中做出有意义的贡献。 由于每个行业的数据快速增长,以及对能够分析、解释和利用这些数据进行决策和创新的专业人员的需求不断增长,数据科学培训变得越来越重要。

参加数据科学培训 访问:浦那的数据科学培训

© www.soinside.com 2019 - 2024. All rights reserved.