distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

无根生成树中的异步领导者选举宣布多个获胜者

我正在尝试使用 MPI 实现图像中描述的算法。这是大学项目的一部分,我们正在该项目中构建分布式卫星到地面站通信系统。我...

回答 1 投票 0

MPI_Scatterv 要慢得多(23 倍)。为什么会这样?

ifort版本:(ifort)2021.8.0 20221119 操作系统:WSL Ubuntu 20.04LTS 我有一个 (1000x1000x1000) 3D 数组可以在进程之间分配。在第一种方法中,我将数组展平,然后分布数组...

回答 1 投票 0

将域分解算法实现为求解器与预处理器

问题 在学习并行域分解 (DD) 概念并随后对其实现感兴趣时,术语“域分解作为求解器”与“作为预条件器”出现得相当频繁

回答 1 投票 0

节点如何加入分布式哈希表(DHT)集群?

我正在尝试了解分布式哈希表(DHT)范例,因为它适合 P2P 或完全分布式计算架构。从理论角度来看,一旦集群建立起来,...

回答 4 投票 0

如何修复“异常:进程 0 因信号 SIGSEGV 终止”错误以及单个 GPU 代码是否正常工作?

我启动了 2 个进程,因为我只有 2 个 GPU,但它给了我一个异常:进程 0 以信号 SIGSEGV 终止。此代码确实适用于多个 cpu(或者至少不会引发错误)。一个...

回答 2 投票 0

无法在 Fedora 上连接 Icecream (icecc)

我无法让icecc守护进程从任何运行Fedora 20的机器连接到本地icecc-scheduler。 我在 5 台不同的 Ubuntu 14.04 机器上进行设置时没有遇到任何问题,并且每台......

回答 2 投票 0

根据Cap Theorem的CA分布式系统如何存在

分布式系统如何做到一致可用(CA)? 因为我认为当网络分区发生时,CA 不可能以网络的每个节点,甚至分区...

回答 4 投票 0

Tensorflow,多 GPU 分布式训练

我尝试为具有多个GPU的本地机器实现分布式训练。 我遇到的错误与模型架构有关: 输入深度 (100) 不是滤波器输入深度 (76...

回答 1 投票 0

错误:主管 start_child 函数中的子规范无效

在我的 erlang 应用程序中,我有一个顶级主管来监视牛仔服务器(gen_server): 开始链接() -> 主管:start_link({local, ?SERVER}, ?MODULE, [])。 初始化([])->

回答 1 投票 0

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?

我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...

回答 1 投票 0

在 torch.distributed 中使用 async all-reduce 时进程会被阻塞

我正在尝试在torch.distributed中使用异步all-reduce,这是在PyTorch文档中介绍的。但是,我发现虽然我设置了 async_op=True,但进程仍然被阻止。我去哪儿了...

回答 1 投票 0

Micrometer 和 Prometheus 具有无法公开 HTTP 的 Java 子进程

我有一个像这样运行的复杂产品。 公开 HTTP 服务的父 Java 进程。 父进程启动工作子进程(新的 JVM)并管理它们的生命周期。 工人

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

分布式系统中 REST API 的幂等性和竞争条件

有什么可能的替代解决方案来实现幂等性并处理竞争条件。 对于前。考虑将客户添加到记录系统的请求。客户详细信息将有...

回答 1 投票 0

使用 Grpc 实现最少连接负载平衡

least_connection.proto代码 节点过载——启动负载均衡过程 回溯(最近一次调用最后一次): 文件“D:\lab7p2\最少连接 ode2.py”,第 73 行,位于 节点。

回答 1 投票 0

如何调试 ValueError: `FlatParameter` 需要统一的数据类型,但得到了 torch.float32 和 torch.bfloat16?

我正在尝试在 LLAMA 2 上使用 Huggingface PEFT LORA 微调进行 Pytorch Lightning Fabric 分布式 FSDP 训练,但我的代码最终失败: `FlatParameter` 需要统一的数据类型,但得到了

回答 1 投票 0

存储由torch DataLoader加载的CUDA或CPU张量哪个更好?

我正在开展一个项目,目标是在多个 GPU 上训练 PyTorch 模型。 我的输入数据存储在每个训练示例的单独文件中,在预处理过程中,我使用...

回答 1 投票 0

如何在远程任务中使用 Celery 原语?

我想使用 celery 的工作流程,例如位于另一个系统上的任务的组和和弦。目前使用 send_task() 来执行这些任务,但现在需要对多个任务进行分组

回答 1 投票 0

在运行期间更改发送到 slurm 中的 sbatch 的 bash 脚本是一个坏主意吗?

我想通过 sbatch_run.sh 脚本使用不同的参数多次运行 python 脚本 main.py,如下所示: #!/bin/bash #SBATCH --作业名称=sbatch_run #SBATCH --array=1-1000 #SBATCH --exc...

回答 1 投票 0

带有共享日志的 Raft 共识:好还是坏主意?

Raft 共识协议要求节点有一个复制日志,而我所知道的所有实现都要求每个节点都有一个持久的本地存储来保存日志。在云原生中

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.