# 评估任务

评估任务创建完毕后,手动触发任务。评估任务结束后,目标检测模型的各项参数值以及得分将会以列表形式展现。Octopus平台提供对评估任务的管理,包括创建、重启、删除、停止评估任务的操作。在评估任务页面, 实时显示多条评估任务的状态、任务创建时间等信息。

# 创建评估任务

评估任务与评估参数和数据集版本有关。创建评估任务的步骤为:

  1. 单击“训练服务>模型评估>创建评估任务”

  2. 填写基本信息-

    • 名称:包含中英文、数字、“_”“-”,不得超过64个字符;
    • 描述:简要描述任务,不包含“@#$%^&*<>\”,不得超过255个字符。
  3. 配置评估任务参数

    填写各项评估指标的参数值,至少添加一组指标。(同一种指标允许添加多组参数)。

    如上图所示,在每项评估指标后,需要您设定相应的“min_iou”、“min_score”及“beta”值,各项评估指标说明详见下表。

    • min_iou:交并比阈值,取值范围 (0, 1);

      IoU,即检测评价函数(Intersection-over-Union),是指模型所预测的检测框,与真实的检测框的交集和并集的比例。指定一个最小交并比值min_iou后,将判定“IoU>min_iou”的为正例。

    • min_score:得分阈值,取值范围 (0, 1);

      Score,即模型对预测结果的打分,代表模型对每个目标预测框置信度的高低。指定一个最小得分min_score后,将选择得分大于min_score的样本进行评估。

      在min_iou值一定的情况下,min_score的值越高,计算得到的精确率越高。

    • beta :召回率与精确率的权重比,取值需大于0;

      即β,用于衡量召回率与精确率的权重系数。若β=1,召回率与精确率同等重要;若β=2,认为召回率重要程度是精确率的2倍;若β=0.5,认为召回率重要程度是精确率的一半。

      注意: 无论选用以上哪些评估指标进行模型评估,必须设定相应的参数值,完整填写每个指标涉及的“min_iou”、“min_score”或“beta”各项参数值,不可遗漏。若不填写评估指标后对应的参数值,则默认不针对该项指标进行评估。

      表 1 模型评估模板评估指标说明

      参数

      说明

      精确率

      针对预测结果,表示的是预测为正的样本中有多少是真正例。

      召回率

      针对样本本身,表示的是样本中的正例有多少被预测正确。

      误检率

      针对预测结果,表示的是预测为正的样本中有多少是假正例。

      漏检率

      针对样本本身,表示的是样本中的正例有多少被错误预测。

      F分数

      又称平衡F分数(balanced F Score),是精确率和召回率的调和平均数,用来综合衡量模型精确度。

      • F1分数,即“beta”值为1, 召回率和精确率权重相当;
      • Fβ分数,即“beta”值为β(大于0的自定义数值),召回率和精确率的权重比为β。

      均值精度

      指的是每个目标检测类别中,不同召回率下的精确率的平均值。

      平均均值精度

      指的是不同目标检测类别、不同召回率下的精确率的平均值。

      平均中心点距离

      指的是正例中心点,距离对象正外接矩形中心点距离的平均值。

      平均尺寸误差

      指的是正例和对象正外接矩形交并比的均值。

    说明: 模型评估基本概念:

    • 正例(True Positive,简称TP):样本为正,模型预测为正;
    • 负例(True Negative,简称TN):样本为负,模型预测为负;
    • 假正例(False Positive,简称FP):样本为负,模型预测为正;
    • 假负例(False Negative,简称FN):样本为正,模型预测为负;
    • 检测框(Detection Result,简称DR):模型产生的预测框;
    • 真实框(Ground Truth,简称GT):数据集原本的标记框;
    • 检测评价函数(InterSection-over-Union,简称IoU)= 模型评估关键指标:
    • 召回率(Recall)=
    • 漏检率(False Negative Rate)= = 1 - Recall
    • 精确率(Precision)=
    • 误检率(False Detection Rate)= = 1 - Precision
    • F1分数(F1 Score)=
    • Fβ分数(Fβ Score)=
    • 均值精度(Average Precision,简称AP):数据集每个标注类别下,不同召回率下精确率的平均值。根据召回率和精确率绘制的曲线,在x,y坐标轴 (0, 1) 范围内的面积计算。
    • 平均均值精度(mean Average Precision,简称mAP) =
  4. 选择数据集

    选择数据集以及版本。只允许选择一个数据集进行模型评估任务。选择的数据集可以是“数据服务>数据集”中的现有数据集,需提前创建完毕。

  5. 单击“创建”,在评估任务页面显示新创建的任务信息。

  6. 查找任务

    搜索框内输入任务名称关键字进行查找。

# 重启、停止评估任务

  • 任务状态为“已完成”、“已停止”、“提交失败”以及“运行异常”的评估任务,您可单击任务名称后“操作”一栏内的“重启”,重新启动评估任务;
  • 处于“运行中”、“等待中”的评估任务,您可以单击任务名称后“操作”一栏内的“停止”,停止该评估任务 。

# 删除评估任务

不再满足业务所需的评估任务,您可以将其删除。勾选任务名称前的勾选框,可批量删除任务。

说明:

  • 任务状态为“删除中”、“停止中”、“运行中”、“提交中”的任务不可删除;
  • 删除后不可恢复,请谨慎操作。

评估任务相关操作与任务所处状态约束关系请见下表。

表 2 作业状态与操作约束关系

作业状态

重启

删除

停止

未知

等待中

提交中

提交失败

运行中

运行异常

已完成

停止中

停止失败

已停止

删除中

删除失败

不存在

上次更新: 6/29/2021, 2:13:44 PM