distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

乐观的离线锁:在没有线性化的情况下提供序列化的数据库中实现这一点? (即,DB 不提供严格的可序列化性)

我正在研究乐观的离线锁定模式。即 https://martinfowler.com/eaaCatalog/optimisticOfflineLock.html 我已经看到很多参考资料表明可以通过...实现这种模式

回答 0 投票 0

DolphinDB函数mr的ds如何重新分区?

我有一个包含两级分区的分区表。第一层是按天的时间分区,第二层是股票代码的HASH分区。现在我想处理

回答 1 投票 0

如何向 API 客户端提供 1,000,000 个数据库结果?

继我之前的问题之后: 在 PostgreSQL 中使用“游标”进行分页 为 API 客户端提供 1,000,000 个数据库结果的好方法是什么? 我们目前正在使用

回答 3 投票 0

ClassNotFoundException:breeze.storage.Zero$DoubleZero$

我正在尝试使用 Spark MLLIB 的分布式 Kmeans 运行分布式 Kmeans,但出现以下错误: 引起:java.lang.ClassNotFoundException:breeze.storage.Zero$DoubleZero$ ...

回答 2 投票 0

Spark 迭代算法

我们有一个用例,在 Spark 作业中 我们遍历外部表的分区 加载该分区的数据(每个分区几乎相同的数据卷) 进行转换(自连接,无 udfs)...

回答 0 投票 0

pytorch DDP支持torch.nn.ModuleList吗?

我想并行 torch.nn.ModuleList,例如 nets = torch.nn.ModuleList([net1, net2]) 网 = torch.nn.parallel.DistributedDataParallel(网) 但是当我用 net1 向前迈出一步时 x =...

回答 1 投票 0

训练时如何为多个gpu分配不同的内存?

假设我有两个 GPU,GPU-0 和 GPU-1(它们是同一类型)。我希望在它们上训练一个简单的分类网络(例如 ResNet)。由于一些特殊的原因,希望GPU-0能多带点记忆……

回答 0 投票 0

理解raft算法RequestVote RPC

我正在尝试阅读本文的第 4 页:https://raft.github.io/raft.pdf 我正在尝试实施 RequestVote RPC,但我正在努力理解“接收者实现者......

回答 1 投票 0

在 Pytorch 中应该在哪里调用 torch.distributed.destroy_process_group()?

我注意到文档没有那个功能。因此,不清楚应该在哪里调用它。是否必须: 在每个工人代码的末尾调用它(即在 mp.spawn 内部) 或者叫它

回答 1 投票 0

将Cassandra数据存储到其他分布式文件系统,如MapR和hdfs上是否可行?

我只是想知道将apache Cassandra的数据存储到其他分布式文件系统的影响。比如说,我有一个5节点的Hadoop集群,复制因子为3。

回答 1 投票 0

ignite semaphore会自动清理吗?

在我们的项目中,我们使用Ignite旗语来锁定对资源的访问。资源由UUID唯一标识,每个资源使用一个Ignite旗语。我们没有关闭()semaphores......。

回答 1 投票 0

tf.distribution.Strategy。TypeError: 未能将类型为<class 'tensorflow.python.distribut.values.PerReplica'>的对象转换为Tensor。

从TensorFlow网站上的例子来看:https:/github.comtensorflowdocsblobr1.15siteenguidedistribute_strategy.ipynb,似乎没有资源说明如何让你的代码适应 ...

回答 1 投票 0

解决 pytorch 分布式执行为每个进程 spawned 打印多条日志语句?

我正在运行pytorch分布式环境来训练一些模型,在同一个脚本中,我也使用日志来打印程序的状态。问题是,用pytorch分布式因为其 ...

回答 1 投票 0

dask - 在一个超过RAM的大型数据帧上应用一个函数。

据认为,Dask框架能够处理超过RAM大小的数据集。然而,我无法成功地应用它来解决我的问题,这听起来像这样。我有...

回答 1 投票 0

能否创建一个Raspberry Pi TensorFlow训练集群?[已关闭]

我认为这可能是一个非常有趣的玩具项目(如果可能的话),尝试用树莓Pis创建一个TensorFlow模型训练集群(特别是由于rpis越来越好)。我发现...

回答 1 投票 0

严格一致性与原子一致性

我读了几篇文章,我对严格一致性(其定义为 "可以更好地理解为仿佛存在一个全局时钟,其中每个 ...

回答 1 投票 1

SLURM和Pytorch如何共同处理多节点多gpu训练的问题

我想问一下,在使用Slurm管理工作负载的集群中,当使用多节点多gpu进行训练时,梯度如何聚集。代码是用Pytorch写的。例如当启动...

回答 1 投票 0

Cristian的时钟同步算法(t+RTT-min)的精度如何?

我在看Cristian的时钟同步算法的讲义。该算法规定了以下假设。客户端-服务器单程传输时间的最小值为:min ...

回答 0 投票 0

优化复杂生态模型的平衡

我正在尝试在Dask环境中运行生态模型。尽管我并不完全满意计算的速度。我在单台计算机上本地运行。是否有一些快速的...

回答 1 投票 0

还在使用糕点吗?

我最近试图找到Pastry DHT的实现,但找不到有效的源。我认为这是最大的实现https://www.freepastry.org/,但最近的稳定版本是...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.