distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

如何根据中心点将点集划分为一组三角形?

在这里输入图片描述 15 个红色点是随机生成的。 蓝色的点称为“中心点”,这意味着包含它的任何封闭半空间也包含 15/(2+1)=5 个点在 r ...

回答 0 投票 0

是否可以使用外部 API 创建和编辑 Celery 计划的任务?

我想开发一个系统,允许最终用户通过一个应该集成到现有软件中的界面来创建、编辑和删除数据管道。这些数据管道

回答 0 投票 0

领导者提交日志条目并在通知追随者此承诺之前崩溃时,raft 如何保持安全?

在我的理解中,领导者向追随者发送AppendEntries RPC,如果大多数追随者返回成功,领导者将提交这个条目。它将通过将它应用到我来提交这个条目......

回答 2 投票 0

乐观的离线锁:在没有线性化的情况下提供序列化的数据库中实现这一点? (即,DB 不提供严格的可序列化性)

我正在研究乐观的离线锁定模式。即 https://martinfowler.com/eaaCatalog/optimisticOfflineLock.html 我已经看到很多参考资料表明可以通过...实现这种模式

回答 0 投票 0

DolphinDB函数mr的ds如何重新分区?

我有一个包含两级分区的分区表。第一层是按天的时间分区,第二层是股票代码的HASH分区。现在我想处理

回答 1 投票 0

如何向 API 客户端提供 1,000,000 个数据库结果?

继我之前的问题之后: 在 PostgreSQL 中使用“游标”进行分页 为 API 客户端提供 1,000,000 个数据库结果的好方法是什么? 我们目前正在使用

回答 3 投票 0

ClassNotFoundException:breeze.storage.Zero$DoubleZero$

我正在尝试使用 Spark MLLIB 的分布式 Kmeans 运行分布式 Kmeans,但出现以下错误: 引起:java.lang.ClassNotFoundException:breeze.storage.Zero$DoubleZero$ ...

回答 2 投票 0

Spark 迭代算法

我们有一个用例,在 Spark 作业中 我们遍历外部表的分区 加载该分区的数据(每个分区几乎相同的数据卷) 进行转换(自连接,无 udfs)...

回答 0 投票 0

pytorch DDP支持torch.nn.ModuleList吗?

我想并行 torch.nn.ModuleList,例如 nets = torch.nn.ModuleList([net1, net2]) 网 = torch.nn.parallel.DistributedDataParallel(网) 但是当我用 net1 向前迈出一步时 x =...

回答 1 投票 0

训练时如何为多个gpu分配不同的内存?

假设我有两个 GPU,GPU-0 和 GPU-1(它们是同一类型)。我希望在它们上训练一个简单的分类网络(例如 ResNet)。由于一些特殊的原因,希望GPU-0能多带点记忆……

回答 0 投票 0

理解raft算法RequestVote RPC

我正在尝试阅读本文的第 4 页:https://raft.github.io/raft.pdf 我正在尝试实施 RequestVote RPC,但我正在努力理解“接收者实现者......

回答 1 投票 0

在 Pytorch 中应该在哪里调用 torch.distributed.destroy_process_group()?

我注意到文档没有那个功能。因此,不清楚应该在哪里调用它。是否必须: 在每个工人代码的末尾调用它(即在 mp.spawn 内部) 或者叫它

回答 1 投票 0

将Cassandra数据存储到其他分布式文件系统,如MapR和hdfs上是否可行?

我只是想知道将apache Cassandra的数据存储到其他分布式文件系统的影响。比如说,我有一个5节点的Hadoop集群,复制因子为3。

回答 1 投票 0

ignite semaphore会自动清理吗?

在我们的项目中,我们使用Ignite旗语来锁定对资源的访问。资源由UUID唯一标识,每个资源使用一个Ignite旗语。我们没有关闭()semaphores......。

回答 1 投票 0

tf.distribution.Strategy。TypeError: 未能将类型为<class 'tensorflow.python.distribut.values.PerReplica'>的对象转换为Tensor。

从TensorFlow网站上的例子来看:https:/github.comtensorflowdocsblobr1.15siteenguidedistribute_strategy.ipynb,似乎没有资源说明如何让你的代码适应 ...

回答 1 投票 0

解决 pytorch 分布式执行为每个进程 spawned 打印多条日志语句?

我正在运行pytorch分布式环境来训练一些模型,在同一个脚本中,我也使用日志来打印程序的状态。问题是,用pytorch分布式因为其 ...

回答 1 投票 0

dask - 在一个超过RAM的大型数据帧上应用一个函数。

据认为,Dask框架能够处理超过RAM大小的数据集。然而,我无法成功地应用它来解决我的问题,这听起来像这样。我有...

回答 1 投票 0

能否创建一个Raspberry Pi TensorFlow训练集群?[已关闭]

我认为这可能是一个非常有趣的玩具项目(如果可能的话),尝试用树莓Pis创建一个TensorFlow模型训练集群(特别是由于rpis越来越好)。我发现...

回答 1 投票 0

严格一致性与原子一致性

我读了几篇文章,我对严格一致性(其定义为 "可以更好地理解为仿佛存在一个全局时钟,其中每个 ...

回答 1 投票 1

SLURM和Pytorch如何共同处理多节点多gpu训练的问题

我想问一下,在使用Slurm管理工作负载的集群中,当使用多节点多gpu进行训练时,梯度如何聚集。代码是用Pytorch写的。例如当启动...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.