一文看懂AI数据标注原理

无论是在传统机器学习领域还是现今炙手可热的深度学习领域，基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域，需要更多数据以提升模型效果。目前，已经有一些规模较大的公开数据集，如ImageNet，COCO等。对于深度学习入门者，这些公开数据集可以提供非常大的帮助；但是对于大部分企业开发者，特别在医学成像、自动驾驶、工业质检等领域中，他们更需要利用专业领域的实际业务数据定制AI模型应用，以保证其能够更好地应用在业务中。因此，业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升AI模型应用效果的重要因素，然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易：标注人员的培训与手工标注成本高、耗时长。为解决此问题，我们可以利用主动学习的方法，采用“Human-in-the-loop”的交互式框架（图1）进行数据标注，以有效减少人工数据标注量。

图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架

主动学习(Active Learning, AL)是一种挑选具有高信息度数据的有效方式，它将数据标注过程呈现为学习算法和用户之间的交互。其中，算法负责挑选对训练AI模型价值更高的样本，而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架，通过用户已标注的一部分数据来训练AI模型，通过此模型来标注剩余数据，再从中筛选出AI模型标注较为困难的数据进行人工标注，再将这些数据用于模型的优化。几轮过后，用于数据标注的AI模型将会具备较高的精度，更好地进行数据标注。以图像分类问题举例，首先，人工挑选并标注一部分图像数据，训练初始模型，然后利用训练的模型预测其余未标注的数据，再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据，再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一，最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。

基于不确定性的样本查询策略可查询出深度学习模型预测时，靠近决策边界的样本。以二分类问题举例，当一个未标注样本被预测为任一标签的概率都是50%时，则该样本对于预测模型而言是“不确定”的，极有可能被错误分类。要注意的是，主动学习是一个迭代过程，每次迭代，模型都会接收认为修正后的标注数据微调模型，通过这个过程直接改变模型决策的边界，提高分类的正确率。

基于多样性的查询策略，可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集，可丰富训练集的特征组合，提升模型的泛化能力。模型学习过的数据特征越丰富，泛化能力越强，预测模型适用的场景也越广。

为解决大数据量标注的痛点，基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生。通过百度大脑EasyDL平台使用智能标注后，开发者们只需标注数据集中30%左右的数据，即可启动智能标注在EasyDL后台自动标注剩余数据，再返回少量后台难以确定的数据再次进行人工标注，同时提升自动标注的准确性，经过几轮之后，在实际项目测试中，智能标注功能可以帮助用户节省70%的数据标注量，极大地减少数据标注中的人力成本和时间成本。

EasyDL零门槛AI开发平台，面向企业开发者提供智能标注、模型训练、服务部署等全流程功能，针对AI模型开发过程中繁杂的工作，提供便捷高效的平台化解决方案。EasyDL面向不同人群提供了经典版、专业版、行业版三种产品形态，其中EasyDL专业版支持深度开发高精度业务模型，内置了丰富的大规模预训练模型，仅需少量数据即可达到优异的模型效果。目前，EasyDL的智能标注功能已支持计算机视觉CV方向的物体检测模型、自然语言处理NLP方向的文本分类模型两大方向的数据标注。选择EasyDL专业版模型定制，点击“智能标注“即可进入。使用方法也很简单，共为三步：

- Step1启动智能标注

在“数据管理/标注”上传完训练数据集后，即可激活“创建智能标注任务”按钮（图2），点击该按钮后，进入数据集选择。需要注意的是，系统将自动对选择的数据集进行校验。校验规则如下：

图像数据集：确保每个标签的标注框数都超过10个。

文本数据集：数据集中已标注数据量超过600条；每个标注标签的数据量超过50条；未标注数据的数据量超过600条。

以上图像和文本数据集之所以采取不同的校验规则，是因为在实际场景下，文本与图像的数据集获取方式及数据规模区别较大，且智能标注后端AI模型训练的启动样本数量不一。

点击“启动智能标注”,进入数据校验阶段，若校验不通过，会出现“智能标注启动失败”的提示；若校验通过，则进入筛选数据阶段，用户需稍作等待。

图2 创建智能标注任务

- Step2标注部分数据

系统会自动从未标注数据集中筛选出最具有代表性、也是最需要优先标注的样本数据。用户需要人工标注这些推荐的样本数据，为了提高标注效率，系统也会提供预标注供用户修改确认。在图像智能标注中，用户勾选右上角的“显示预标注”开启该辅助功能（图3），点击“满意预标注结果”即可对预标注结果进行确认；在文本智能标注中，系统会自动显示预标注标签，点击每一条文本右侧的“确认”或右上角的“本页全部确认”对预标注进行确认（图4）。

确认所有推荐数据的预标注后，用户可以自主选择是否进行下一轮数据筛选。图像智能标注中，若用户不中止智能标注，则系统会自动进行下一轮；文本智能标注中，由于文本数据集规模一般较大，确认数据预标注的人力成本较高，为了提升用户体验，系统不默认进入下一轮迭代，用户可点击右上角的“优化智能标注结果”进行下一轮筛选（图5）。通过多轮筛选，数据预标注准确性也会不断提升。为了保证数据标注智能，建议用户至少进行一轮的数据筛选或“优化智能标注”。

图3 图像智能标注

图4 文本智能标注

图5 文本智能标注进入数据筛选优化迭代

- Step3结束智能标注

当用户觉得当前推荐数据的预标注已足够准确，不再进行下一轮数据标注推荐筛选，或者系统自动判断当前标注的数据已足够时，则进入结束智能标注阶段。在图像智能标注中，系统会弹出提示（图6），选择“一键标注”系统会自动标注剩余未标注数据，选择“立即训练”则停止智能标注，之后可以利用已确认的标注数据去训练模型；在文本智能标注中，不选择“优化标注结果”则认为停止智能标注，系统自动标注所有未标注数据，并归为“已标注·智能”数据集，该类数据与“已标注·人工”均可用于模型训练。

图6 结束图像智能标注

图7 EasyDL智能标注使用流程图

在智能标注功能的加持之下，重复枯燥的标注功能都交给AI模型，大大降低了时间与人力成本。在数据方面，EasyDL中的EasyData智能数据服务平台，提供覆盖采集、清洗、标注、加工等一站式数据处理功能，并与模型训练环节无缝对接，通过数据闭环功能支持高效的模型迭代。

一文看懂AI数据标注原理

相关阅读