使用 DVC 跟踪目录进行增量添加

问题描述 投票:0回答:1

虽然我知道 DVC 的主要用例出现在“数据工程”部分之后,但我已经编写了一些对我来说非常有用的东西,但缺少一个功能。

所以每晚我都会运行一个管道(为了这个例子)收集过去 3 天的 github 提交数据(这 3 天我们可以填写一些最近的更新)。数据以日期分区的目录格式写入,如下所示:

# Tracking with 'dvc add data/raw/commits/´
data/raw/commits/2024/09/01/data.json
data/raw/commits/2024/09/02/data.json
data/raw/commits/2024/09/03/data.json
...

我的初始运行将收集全年的数据,我的 commits.dvc 文件会显示 nfiles: 184,但是当我每晚运行开始并收集过去 3 天的数据时 - 运行 dvc add 和 dvc Push,我留下了一个 commits.dvc仅跟踪最近 3 个文件的文件。

有没有一种方法可以让我将跟踪文件增量添加到跟踪目录中,而无需每次收集新数据时从远程提取整个历史记录?

git versioning dvc
1个回答
0
投票

DVC 确实允许“粒度”数据集更新。特别是对于这种场景,仅更新几个文件就需要

pull
整个数据集,既耗时又痛苦。

相关文档页面位于此处 - 修改大型数据集

基本上,在这种特殊情况下,我认为我们可以这样做:

dvc add data/raw/commits/2024/09/01/data.json

dvc add data/raw/commits/2024/09/01

(请注意,我们在跟踪目录内部指定了一个路径,在本例中为

data/raw/commits/

添加子目录或一些文件。

© www.soinside.com 2019 - 2024. All rights reserved.