# 数据集管理
数据集是部署在集群内部的数据缓存,用于将远端的共享存储数据备份到训练机器的内存/SSD中。
由于部署在相近的机器内,数据集的IO远高于存放在远端的共享存储,对速度要求高的任务极其友好。
# 使用指南
![]()
# 数据集创建
数据集创建只需要选择需要缓存的数据集类型及路径,设置预计缓存的数据集大小即可。
目前,平台提供两种数据集创建:
- 平台:对海聪平台提供的共享存储进行缓存。
- 平台数据集暂不支持增量更新,更新需要休眠并重新激活。
- hdfs:对海象平台提供的hdfs存储进行缓存。
- hdfs数据集会定期自动增量缓存更新以支持在线增量更新的业务。在设置数据集大小时,需要设置比实际用的数据多一天的量以保证增量更新的正常运行。
- 假设在线更新业务需要用到前一天的数据,一天的数据为
2T,则将数据集大小设置为两天的量,即4T。
![]()
# 数据集使用
目前,数据集的使用方式有两种:托管训练和AIFLow。只需要在设置页面选择数据集以及容器内的挂载路径,即可跟正常的共享存储一样使用。
- 目前数据集的挂载是只读的,不能进行写操作。
- 将数据集的容器挂载路径设置为共享存储路径一样,可代码不变更。
![]()
![]()
# 数据集休眠与激活
通过数据集界面的休眠按钮,可将未使用中的数据集休眠腾出资源。在下次需要使用时,可点击激活按钮进行数据集激活使用。
另外,详细页面提供了部分数据集的统计信息。
![]()