bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

hiveserver2 org.apache.thrift.transport.TTransportException在一小段不活动后运行第二个查询时出错

我使用端口10000从我的SQL工具(即Squirrel SQL,Oracle SQL Developer)到HiveServer2(在远程服务器上运行)建立JDBC连接。我能够成功运行一些查询。然后我做......

回答 1 投票 0

NULL指针异常,在foreach()中创建DF时

我必须从S3读取某些文件,因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件:val listofFilesRDD = sparkSession.read.textFile(“s3://”+ ...

回答 3 投票 2

查找文件中哪种数据类型的最快方法

我的问题非常简单,但事实上它可能是一个真正的头脑。确定文件中哪种数据的更有效和最快捷的方法是什么。如果您有一个带有...的原始文件

回答 1 投票 1

用于大数据文件和流的数据库

我有一个“数据库选择”和arhitecture问题。用例:客户端将上传大型.json文件(或其他格式,如.tsv,这是无关紧要的),其中每一行都是关于其客户的数据(e ....

回答 1 投票 3

有效地为每个坏值将n个单元格向右延伸n个单元格

假设我有一个长度为30的数组,其中包含4个错误值。我想为那些坏的值创建一个掩码,但由于我将使用滚动窗口函数,我还想要一定数量的后续...

回答 7 投票 8

在vespa中的同一容器上部署多个应用程序包

我从git clone https://github.com/vespa-engine/sample-apps.git下载了样本vespa应用程序。我创建了相同的应用程序,如基本搜索,我将其命名为location。现在我想部署两个......

回答 2 投票 0

Spark DataFrame是Untyped vs DataFrame有架构吗?

我是Spark的初学者,在阅读有关Dataframe的内容时,我经常在数据框下面找到两个语句 - 1)DataFrame是无类型的2)DataFrame有架构(就像数据库表一样...

回答 1 投票 0

当试图启动一个mesos-slave时,“nodename也没有提供servname”

我正在按照这个关于在本地安装Mesos的简单指南https://mesosphere.com/2014/07/07/installing-mesos-on-your-mac-with-homebrew/我能够启动一个mesos master并且能够看到......

回答 1 投票 3

sqoop中的last-value(增量导入)

sqoop import --connect \\ jdbc:mysql:// localhost:3306 / ydb --table yloc --username root -P --check-column rank --incremental append --last-value我们不知道最后一个上一个表的值。 ...

回答 2 投票 0

从.Xdf文件中删除重复记录

我想从我的大型.xdf文件trans.xdf中删除重复的记录。以下是文件详细信息:文件名:/poc/revor/data/trans.xdf观察数:1000000000变量数:...

回答 1 投票 0

hive在选择特定列时打印空值

我有一个蜂巢表。我正在为hive表使用JSON数据。当我选择整个表格时,它对我有用。如果我选择特定列,则会打印空值。数据看起来像这样{“page_1”......

回答 3 投票 1

OpenStack是否需要共享存储

我是OpenStack的新手。阅读其文档我觉得它的一些功能可能需要共享存储,如SAN存储。例如,以下段落说:块存储可选块...

回答 1 投票 0

计算标记到该键的集合的每个值的键数

我有一对像这样的RDD:id值id1 set(1232,3,1,93,35)id2 set(321,42,5,13)id3 set(1233,3,5)id4 set(1232,56, 3,35,5)现在,我想得到包含在......中的每个值的总计数。

回答 2 投票 1

选择新的HDP版本进行升级后无法保存 - 这是一个错误吗?

我们执行以下步骤 - (来自ambari GUI)管理员 - 堆栈和版本 - >版本管理版本一个OK注册版本注册版本我选择按钮“HDP-2.6”添加新...

回答 1 投票 0

基于Web的数据可视化应用程序与后端火花?

我正在寻找一个数据可视化工具,它是开源的,并使用apache Spark作为后端。我做了一些研究,可以缩小到Apache Zeppelin,在那里我可以生成图表/图表......

回答 2 投票 0

Azure搜索可以用作某些数据的主数据库吗?

Microsoft将Azure搜索推广为“云搜索”,但并不一定表示它是“数据库”或“数据存储”。它没有说它是大数据。可以/应该使用天蓝色搜索作为...

回答 1 投票 12

如何查看Spark版本[关闭]

我想检查cdh 5.7.0中的spark版本。我在互联网上搜索但无法理解。请帮忙。谢谢

回答 3 投票 42

Google云端数据工程师认证

我是一名拥有5年经验的Java开发人员。现在我想将我的职业生涯转移到云数据工程。所以我想去Google Cloud Data Engineer Certfication。所以在去...之前

回答 1 投票 -5

将数据从AWS SQS传输到S3的最佳方法是什么?

情况就是这样 - 我有一个大型数据集,暂时保留在AWS SQS中(大约200GB)。我的主要目标是存储数据,以便我可以使用AWS访问它以构建机器学习模型。一世 ...

回答 1 投票 3

spark sql日期间隔sql查询无法正常工作

我的目标是每天每隔15分钟显示一次数据(由csv文件提供)。我提出的解决方案是一个sql查询,它创建了我需要的数据:select dateadd(...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.