这是我参加2022初次更文应战的第14天,活动概况查看:2022初次更文应战
与 Git 相同,DVC 答应在分布式环境进行协作。 咱们可以轻松地将一切数据文件、目录以及匹配的源代码完全相同地导入任何机器。 您需求做的就是为您的 DVC 项目设置长途存储库,并将数据推送到那里,以便其他人可以访问它。 现在 DVC 支撑 Amazon S3、Microsoft Azure Blob Storage、Google Drive、Google Cloud Storage、SSH、HDFS 和其他长途存储地址,而且该列表还在持续增长。 (一个完整的列表和装备阐明,请参阅 dvc remote add。)
例如,咱们来为 DVC 项目设置 S3 长途存储,并 push 或 pull 它。
创立 S3 存储桶
如果您的 S3 账户中还没有可用的,请按照创立存储桶中的阐明进行操作。 作为更高档的可选计划,您可以改用 aws s3 mb 指令作为代替。
设置 DVC 长途存储
要在项目中实践装备 S3 长途存储,请向 dvc remote add 指令供给用来存储数据的存储桶 URL ,如下所示:
$ dvc remote add -d myremote s3://mybucket/path
Setting 'myremote' as a default remote.
其中,-d (--default) 参数将 myremote 设置为该项目的默认长途存储。这会将 myremote 添加到您的 .dvc/config 中。 装备文件中现在有一个remote部分:
['remote "myremote"']
url = s3://mybucket/path
[core]
remote = myremote
dvc remote modify指令供给了多种装备 S3 存储桶的参数选项。
下面,咱们提交更改并推送代码到 Git 长途仓库:
$ git add .dvc/config
$ git push
上传数据和代码
运用 dvc run 或其他指令将数据添加到项目后,它将存储在本地缓存中。 运用 dvc push 指令将其上传到长途存储:
dvc push
下载代码
下面运用惯例的 Git 指令从您的 Git 服务器下载代码和 DVC 元数据文件。
例如,本地没有的项目,运用git clone:
$ git clone https://github.com/example/project.git
$ cd myproject
关于本地已有的项目,运用git pull:
$ git pull
下载数据
为您的项目下载数据文件,请运行dvc pull:
$ dvc pull
dvc pull 将从 .dvc/config 文件中装备的默认长途存储库下载缺失的数据文件。

