# 训练任务

Octopus平台为您提供训练任务的管理,支持您查询、删除训练任务,查看训练任务日志,创建训练任务并通过训练任务生成训练模型。

Octopus训练服务管理训练任务的生命周期,创建训练任务用以训练模型。您可将多个训练任务分发到多个节点,批量运行训练任务。也可将单个训练任务分发给多个节点共同运行,缩短等待时间,提高运行效率。

# 创建训练任务

  1. 单击“训练服务>训练任务>创建训练任务”

  2. 填写基本信息

    • 名称:包含中英文、数字、“_”“-”,不得超过64个字符;
    • 描述:简要描述任务,不包含“@#$%^&*<>\”,不得超过255个字符;
    • 资源类型:当前账号分配到的用于训练的资源;
    • 计算节点:用于运行训练任务的训练节点个数。
  3. 选择训练算法

    训练算法有自定义算法和系统默认算法两种类型。根据业务所需选择算法,修改参数值。自定义算法文件需提前上传至“算法管理”模块。请参考添加自定义算法创建。

    说明:

    • Key:只能由英文、数字、下划线、逗号组成,且只能以字母开头;
    • Value: 只能由英文、数字、下划线、逗号组成。
    • 范围:参数取值范围请参考系统内置算法中各内置算法的参数取值范围。
  4. 配置环境变量

    通过注入环境变量至容器中,用户可以快速获取业务相关常量。

    说明:

    • Key:只能由英文、数字、下划线、逗号组成,且只能以字母开头;
    • Value: 只能由英文、数字、下划线、逗号组成。
  5. 选择输出模型

    训练模型需提前在“训练服务>训练模型”中创建成功。创建模型请参考添加自定义模型

    说明:

    • 训练模型的标注必须是训练任务选择的数据集标注的子集;
    • 训练模型使用的AI引擎与训练任务选择的算法的AI引擎一致。
  6. 选择数据集

    您可选择“数据服务>数据集”中现有数据集,支持添加多个数据集,支持添加同一个数据集的不同版本。

    说明: 支持添加最多5个数据集。

  7. 单击“创建”,新建训练任务状态为“等待中”。

  8. 查看任务详情

    单击任务名称,可在任务详情页查看该任务的具体信息以及设置的参数信息。

    • 任务详情:任务采用的算法和模型、任务的AI引擎、任务采用的数据集信息等;
    • 参数详情:训练算法参数以及环境变量参数信息;
    • 日志详情:任务运行过程中生成的日志信息,详情请查看训练任务日志查看下载

  9. 打包训练结果

    训练任务处于“已完成”状态,可单击训练任务名称后“操作”一栏内的“更多>打包训练结果”,将自动前往“模型管理”页面自动打包训练任务输出的模型。

  10. 查询训练任务

    搜索框内输入训练任务关键字查找。

  11. 删除训练任务

    不再满足业务所需的训练任务,您可以将其删除。勾选任务名称前的勾选框,可批量删除任务。

    说明:

    • 任务状态为“删除中”、“停止中”、“运行中”、“提交中”,不可删除;
    • 删除后不可恢复,请谨慎操作。

# 中间产物

训练平台会将算法在训练过程中生成的中间产物上传到云端存储,您可以在平台上打包、下载中间产物至本地进行调试。为保证中间产物能成功下载,请您将中间产物存放在“/home/cache”文件夹下。

  1. 打包中间产物

    训练任务处于“运行中”或“运行异常”时,您可以单击训练任务名称后“操作”一栏内的“更多>打包中间产物”,打包训练任务进行过程中形成的产物。

    注意: 允许打包的任务状态如下:

  2. 下载中间产物

    中间产物打包完毕后,可单击训练任务名称后“操作”一栏内的“更多>下载中间产物”,将训练任务的中间产物下载至本地查看调试。

# 训练任务日志查看下载

训练任务运行的过程中生成日志,训练任务模块提供了日志的查看以及下载功能,支持您查看训练任务的运行情况。训练任务生成的日志文件以“stdout.log”(标准输出日志)为后缀。

单击训练任务名称,在该训练任务的详情页面,单击“任务日志”,可查看该训练任务日志及日志详情。支持下载至本地。若日志较多,您可以在搜索框中输入关键字,查找指定日志内容。搜索内容以1MB为单位,并非全部内容。

如图,在日志服务页面中的日志列表部分详细展示了该训练任务包含的日志文件的大小以及最近写入时间。单击文件后的“查看”,该文件的详细执行过程则在日志详情部分展示。您也可以在日志文件后的“操作”一栏中,单击“下载”,即可将该日志文件下载到本地查看。

# 重启训练任务

当训练任务处于“提交失败、运行异常、已停止、已完成”状态时,您可以单击训练任务后“操作”一栏内的“重启”,可重新选择训练数据集和训练模型并重启该训练任务。

# 停止训练任务

对于运行中、等待中的任务,您可以单击该条任务后的“停止”对该条训练任务进行停止。

表 1 作业状态与操作的约束关系

作业状态

重启

删除

停止

未知

等待中

提交中

提交失败

运行中

运行异常

已完成

停止中

停止失败

已停止

删除中

删除失败

不存在

上次更新: 6/29/2021, 2:13:44 PM