# 数据集管理

数据集是部署在集群内部的数据缓存,用于将远端的共享存储数据备份到训练机器的内存/SSD中。

由于部署在相近的机器内,数据集的IO远高于存放在远端的共享存储,对速度要求高的任务极其友好。

# 使用指南

# 数据集创建

数据集创建只需要选择需要缓存的数据集类型及路径,设置预计缓存的数据集大小即可。

目前,平台提供两种数据集创建:

  • 平台:对海聪平台提供的共享存储进行缓存。
    • 平台数据集暂不支持增量更新,更新需要休眠并重新激活。
  • hdfs:对海象平台提供的hdfs存储进行缓存。
    • hdfs数据集会定期自动增量缓存更新以支持在线增量更新的业务。在设置数据集大小时,需要设置比实际用的数据多一天的量以保证增量更新的正常运行。
    • 假设在线更新业务需要用到前一天的数据,一天的数据为2T,则将数据集大小设置为两天的量,即4T

# 数据集使用

目前,数据集的使用方式有两种:托管训练和AIFLow。只需要在设置页面选择数据集以及容器内的挂载路径,即可跟正常的共享存储一样使用。

  • 目前数据集的挂载是只读的,不能进行写操作。
  • 将数据集的容器挂载路径设置为共享存储路径一样,可代码不变更。

# 数据集休眠与激活

通过数据集界面的休眠按钮,可将未使用中的数据集休眠腾出资源。在下次需要使用时,可点击激活按钮进行数据集激活使用。

另外,详细页面提供了部分数据集的统计信息。