Storm是一个分布式实时计算系统。类似于Hadoop如何提供一组用于进行批处理的通用基元,Storm提供了一组用于进行实时计算的通用基元。 Storm很简单,可以与任何编程语言一起使用
我部署了一个长期运行的 Storm 拓扑。运行几个小时后,整个拓扑出现故障。我检查了工人日志,发现了这些日志。正如它所说,zookeeper 客户端会话超时并且......
在Apache Storm中如何更改supervisor id
我复制了包含Storm Supervisor的VM。当启动两个具有主服务器的虚拟机来设置 Storm 集群时,Storm UI 中仅显示一个主管。 换句话说,两个主管都有相同的 id,所以
错误:maven-resources-test:twitter_storm_new:java.lang.NegativeArraySizeException
我正在尝试使用intellij运行风暴拓扑。直到今天,拓扑运行得很好,但今天每次我尝试运行它时,我都会收到以下错误: 错误:maven-资源-测试:
启用 Kerberos 的 HDP 2.6 集群中 Storm HDFS Bolt 面临问题
我已在 HDP 2.6 集群中启用了 Kerberos 安全性,在启用 Kerberos 之前,在该集群上安装了 Kafka 和 Storm 服务。 我正在运行的拓扑有 kafka-spout 和 hdfs...
我对这一切都很陌生。我正在尝试在 Storm UI 上运行来自 RIOT 基准测试的拓扑,但是当我提交拓扑时,我在 Spout 上的图像中收到此错误消息。我无法理解
我正在创建一个拓扑,它读取示例视频,对其进行一些转换并将其保存为输出,并且我正在使用 apachestorm 同时应用不同的过滤器。读完后想象一下...
我从 Kafka 主题收到二进制 Avro 文件,我必须反序列化它们。在 Kafka 收到的消息中,我可以在每条消息的开头看到一个模式。我知道最好不要...
如何使用附加配置命令在 ECS 上运行 Storm Nimbus v1.2.1
我正在尝试让 Storm Nimbus 在 ECS 上运行。 我正在使用图像:storm:1.2.1。 在与 ECS 命令解析器非常糟糕的事实作斗争之后(如何在 ECS 任务定义中转义逗号
如何使用stormcrawler从网站将自定义元标签存储在elasticsearch索引中
我正在使用stormcrawler(v 2.10)爬行内联网网站并将数据存储在Elasticsearch(v 7.8.0)上。使用 kibana 进行可视化。内联网页面具有自定义元标记,如下所示 我正在使用stormcrawler(v 2.10)爬行内联网网站并将数据存储在Elasticsearch(v 7.8.0)上。使用 kibana 进行可视化。内网页面有自定义元标记如下 我想将其存储在弹性搜索索引“爬虫内容”中。但我在 kibana/elasticsearch 中没有得到任何这些字段。 更新了索引脚本 { "settings": { "index": { "number_of_shards": 5, "number_of_replicas": 1, "refresh_interval": "5s", "default_pipeline": "timestamp" } }, "mappings": { "_source": { "enabled": true }, "properties": { "content": { "type": "text" }, "description": { "type": "text" }, "domain": { "type": "keyword" }, "format": { "type": "keyword" }, "keywords": { "type": "keyword" }, "host": { "type": "keyword" }, "title": { "type": "text" }, "url": { "type": "keyword" }, "timestamp": { "type": "date", "format": "date_optional_time" }, "metatag": { "properties": { "article_description": { "type": "text" }, "article_heading": { "type": "text" }, "article_publisheddate": { "type": "date" }, "article_type": { "type": "text" }, "article_year": { "type": "text" } } } } } } 在jsoupfilters.json中添加 "parse.article_description": "//META[@name=\"Article_Description\"]/@content", "parse.article_heading": "//META[@name=\"Article_Heading\"]/@content", "parse.article_publisheddate": "//META[@name=\"Article_PublishedDate\"]/@content", "parse.article_type": "//META[@name=\"Article_Type\"]/@content", "parse.article_year": "//META[@name=\"Article_Year\"]/@content" 在crawler-conf.yaml中添加 indexer.md.mapping: - parse.title=title - parse.search=search - parse.keywords=keywords - parse.description=description - parse.article_description=metatag.article_description - parse.article_heading=metatag.article_heading - parse.article_publisheddate=metatag.article_publisheddate - parse.article_type=metatag.article_type - parse.article_year=metatag.article_year - domain - format 我在您的设置中看不到任何明显不正确的地方。您可以在单个 URL 上运行类 https://github.com/DigitalPebble/storm-crawler/blob/master/core/src/main/java/com/digitalpebble/stormcrawler/parse/JSoupFilters.java 来检查提取。 对于在命令行上测试协议的输出也很有用,请参阅我们最近的博客了解示例。
我一直想使用 Apache Storm 从 Kafka 进行流传输。我对Python更熟悉,所以我决定使用streamparse(https://github.com/Parsely/streamparse)。字数统计示例是...
我有一个流应用程序(用spark/storm/任何无关紧要的东西编写)。 Kafka 用作流事件的来源。现在有些事件需要占用更大的资源(ti...
在 Apache Storm 中声明拓扑时,有没有办法控制每台机器使用多少个实例? TopologyBuilder 构建器 = new TopologyBuilder(); builder.setSpout("myspout&quo...
Kafka spout 错误“消费者未订阅任何主题或分配任何分区”
我使用的是Storm版本1.1.0和Kafka版本0.10.1.2。 我正在创建 Kafka-spout,如下所示: 公共 KafkaSpout getKafkaSpout() { 字符串_kafkaBrokers =(字符串)道具...
我有一个基于 Apache Storm 2.3 的应用程序。该应用程序还具有球衣依赖项,例如 org.glassfish.jersey.core ...
我有一个 Spark 流应用程序。它需要一批记录并对记录执行多个映射函数。 当少数记录在 .map 阶段失败时,我希望能够知道原始 id/re...
我正在使用 apache storm 2.4.0 版本,我们希望所有指标都需要公开。因此,我们创建了一个服务,它可以及时接受所有指标,并将指标暴露在 /metrics 端...
当可以使用直接连接到 kafka 的微服务时,使用风暴拓扑有什么好处。微服务方法似乎为以下方面提供了更好的解决方案: 工具(所有可能的 l...
在我们的 storm 1.0.2 应用程序中,我们面临内存不足异常。在调试时,我们看到 Kafka spout 向螺栓发出了太多消息。螺栓以
Storm UI 是否支持 kerberos 以外的身份验证机制,例如简单的用户名密码?它可以与 Okta 集成吗?
我正在寻找简单的身份验证以放入 Storm UI 以管理用户权限。 似乎唯一可能的方法是为整个集群配置 Kerberos,但我想避免使用 Kerberos 和...
我正试图将数据从 storm 插入到 cassandra。它最初是字符串类型的。我的java类有以下代码。String insertQuery1 = "insert into fault.as_fo_ag_uc (" ... ...