bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

在vespa中的同一容器上部署多个应用程序包

我从git clone https://github.com/vespa-engine/sample-apps.git下载了样本vespa应用程序。我创建了相同的应用程序,如基本搜索,我将其命名为location。现在我想部署两个......

回答 2 投票 0

Spark DataFrame是Untyped vs DataFrame有架构吗?

我是Spark的初学者,在阅读有关Dataframe的内容时,我经常在数据框下面找到两个语句 - 1)DataFrame是无类型的2)DataFrame有架构(就像数据库表一样...

回答 1 投票 0

当试图启动一个mesos-slave时,“nodename也没有提供servname”

我正在按照这个关于在本地安装Mesos的简单指南https://mesosphere.com/2014/07/07/installing-mesos-on-your-mac-with-homebrew/我能够启动一个mesos master并且能够看到......

回答 1 投票 3

sqoop中的last-value(增量导入)

sqoop import --connect \\ jdbc:mysql:// localhost:3306 / ydb --table yloc --username root -P --check-column rank --incremental append --last-value我们不知道最后一个上一个表的值。 ...

回答 2 投票 0

从.Xdf文件中删除重复记录

我想从我的大型.xdf文件trans.xdf中删除重复的记录。以下是文件详细信息:文件名:/poc/revor/data/trans.xdf观察数:1000000000变量数:...

回答 1 投票 0

hive在选择特定列时打印空值

我有一个蜂巢表。我正在为hive表使用JSON数据。当我选择整个表格时,它对我有用。如果我选择特定列,则会打印空值。数据看起来像这样{“page_1”......

回答 3 投票 1

OpenStack是否需要共享存储

我是OpenStack的新手。阅读其文档我觉得它的一些功能可能需要共享存储,如SAN存储。例如,以下段落说:块存储可选块...

回答 1 投票 0

计算标记到该键的集合的每个值的键数

我有一对像这样的RDD:id值id1 set(1232,3,1,93,35)id2 set(321,42,5,13)id3 set(1233,3,5)id4 set(1232,56, 3,35,5)现在,我想得到包含在......中的每个值的总计数。

回答 2 投票 1

选择新的HDP版本进行升级后无法保存 - 这是一个错误吗?

我们执行以下步骤 - (来自ambari GUI)管理员 - 堆栈和版本 - >版本管理版本一个OK注册版本注册版本我选择按钮“HDP-2.6”添加新...

回答 1 投票 0

基于Web的数据可视化应用程序与后端火花?

我正在寻找一个数据可视化工具,它是开源的,并使用apache Spark作为后端。我做了一些研究,可以缩小到Apache Zeppelin,在那里我可以生成图表/图表......

回答 2 投票 0

Azure搜索可以用作某些数据的主数据库吗?

Microsoft将Azure搜索推广为“云搜索”,但并不一定表示它是“数据库”或“数据存储”。它没有说它是大数据。可以/应该使用天蓝色搜索作为...

回答 1 投票 12

如何查看Spark版本[关闭]

我想检查cdh 5.7.0中的spark版本。我在互联网上搜索但无法理解。请帮忙。谢谢

回答 3 投票 42

Google云端数据工程师认证

我是一名拥有5年经验的Java开发人员。现在我想将我的职业生涯转移到云数据工程。所以我想去Google Cloud Data Engineer Certfication。所以在去...之前

回答 1 投票 -5

将数据从AWS SQS传输到S3的最佳方法是什么?

情况就是这样 - 我有一个大型数据集,暂时保留在AWS SQS中(大约200GB)。我的主要目标是存储数据,以便我可以使用AWS访问它以构建机器学习模型。一世 ...

回答 1 投票 3

spark sql日期间隔sql查询无法正常工作

我的目标是每天每隔15分钟显示一次数据(由csv文件提供)。我提出的解决方案是一个sql查询,它创建了我需要的数据:select dateadd(...

回答 1 投票 0

最快的方法来重新格式化数TB的数据

我有100个文件,每个文件都是10 GB。我需要重新格式化文件并组合成更可用的表格格式,以便对数据进行分组,求和,平均等。使用Python重新格式化数据...

回答 2 投票 -3

滚动意味着在大型数据集上更改窗口大小

我想计算向量上的滚动平均值,其中窗口随着向量中的每个条目而增长。基本上,我希望所有元素的均值可以达到第i,第i + 1,第i + 2,等等......

回答 2 投票 3

如何有条件地从列中删除前2个字符

我有一些电话记录的以下数据,我想从每条记录中删除前两个值,因为它们是国家代码。任何人都可以通过scala,spark告诉我这样做的方式......

回答 4 投票 1

在迭代算法中使用Rcpp加速替换列表和向量的元素是否合法?

背景我最近一直在研究迭代算法,其中每次迭代n取决于迭代n-1。在每次迭代期间,大部分计算时间通过子设置和/或......来完成。

回答 1 投票 0

如何为大量数据设置弹性集群?

我被要求为大约100 TB的文本数据设置弹性搜索集群!我已经知道如何使用弹性进行搜索和aggs,但我真的不知道如何设置具有多个节点的集群...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.