数据标签质量问题一直是标注领域关注的主要话题,也许你在解决这个难题时会遵循大数据领域的观点,那就是“垃圾进,垃圾出

这样说,是想让每一位数据标注领域的从业者,明白人工智能和机器学习开发项目的训练数据的基本规律,数据质量是人工智能的基础,是重中之重,低质量的训练数据集可能会导致大量操作错误

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(1)

例如,自动驾驶车辆的训练数据是车辆能否在道路上运行的决定因素,提供低质量的训练数据,人工智能模型很容易将人类误认为是物体或反之。无论哪种方式,糟糕的训练数据集都可能导致高事故风险,这是自动驾驶汽车制造商在其项目中最不希望看到的

因此对于高质量的训练数据,作为人工智能训练师在做数据处理时一定会涉及到数据标注质量,那么该如何确保质量问题呢?

明确数据标注质量控制的要求

自检

交叉检查

经理的审查

质量保证人员参与

明确客户对数据标注质量控制的要求

高数据标注质量并不仅仅意味着最仔细标注的数据或最高质量的训练数据,对于战略数据标注项目,我们需要明确训练数据集的要求。标注团队负责人必须回答的问题是数据需要有多高质量

作为数据标注质量的供应商,我们总是问客户的一件事是要求,“您希望我们的标注精度如何?”。通过回答这些问题,将为以后的整个项目制定一个基准

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(2)

如何确保数据标注质量

请记住,人工智能和机器学习的实现非常广泛,对于每个行业,都有数百个不同的项目,在不同类型的对象上工作,质量也不同要求

我们可以举个简单的例子,道路标注和医疗数据标注

对于道路标注来说,工作非常简单,只需要具备常识的标注人员就可以完成这项工作;对于这个标注项目,需要标注的数据集的数量可能会增加数百万个视频或图片,并且标注者必须将生产力保持在可接受的质量水平

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(3)

另一方面,医学数据需要在医学领域工作的具有特定知识的标注者,对于糖尿病视网膜病变,要求训练有素的医生根据照片对糖尿病视网膜病变的严重程度进行分级,以便将深度学习应用于这一特定领域

数据标签质量 – 医疗用途

即使是训练有素的医生,也不是所有的标注都彼此一致,为了获得一致的结果,一个标注团队可能必须多次标注每个文件以最终得出相关性

这取决于给定数据的复杂程度以及客户希望数据输出的详细程度。一旦澄清了这些事情,团队负责人就可以为所需的结果分配资源,此后将定义度量标准和相关的质量保证流程

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(4)

多层次质量保证过程

自检

在此步骤中,要求标注者对自己的工作进行审查。通过自我评估,标注者现在有时间从项目开始回顾数据标注工具、标注和标签

通常,标注者必须在时间和工作量方面承受很大的压力,这可能会导致他们的工作出现潜在的偏差。从自检步骤开始的质量保证将是标注者放慢脚步并彻底了解他们的工作方式的时候了,通过承认错误和可能的偏差,标注者可以自己修复它们并在将来避免任何这些

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(5)

交叉检查

在一般的数据科学和特别是数据标注中,您可能听说过“偏见”一词。标注偏差是指标注者有自己的习惯来标记数据的情况,这可能导致对提供的数据有偏见

在某些情况下,标注器偏差会影响模型性能。对于更健壮的 AI 和 ML 模型,我们必须采取一些有效的措施来消除有偏见的标注,而一种简单的方法是交叉检查

数据标签质量 - 交叉检查

通过在您的标注过程中进行交叉检查,对整个工作的看法会有所不同,因此标注者可以识别同事工作中的错误和错误;同样,有了这种不同的观点,审阅者可以指出有偏见的标注,团队领导可以采取进一步的行动。他们可以返工或进行另一轮评估,以查看标注是否真的有偏见

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(6)

经理的审查

标注项目经理通常负责标注项目的日常监督。他们的主要任务包括选择/管理劳动力以及确保数据质量和一致性。

经理将接收来自客户的数据采样并处理所需的指标并为标注者进行培训,一旦交叉检查完成,经理可以随机检查输出,看看它们是否符合客户的要求

在所有这些检查之前,标注项目经理还必须为质量保证画一条“基准线”,为确保一致性和准确性,任何低于预定质量的工作都必须返工

质量保证人员参与

数据标注质量控制不能只依赖标注团队。事实上,专业和经验丰富的质量保证人员的参与是必须的,为了确保您的标注工作的最高质量,质量保证人员团队是必须的。他们将作为一个独立的部门工作,在标注团队之外,不受标注项目经理的管理

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(7)

如何确保数据标注质量

除了以上的检查外,还可以从这几个方面来项目的开始之初来把控质量,分别可以从这几个方面考虑

梳理标注数据类型

目前常见的数据的类型包括图片、文字、音频和视频,对于不同类型的数据,标注方法不同,单价也各有差异

明确数据标注方向

对于不同行业,数据标注需求不同,常见的标注方向包括语义分割、3D点云、文字转写、音频转写、自然语义处理、目标追踪

不同的方向,方式及需求不一样,针对图片类,常见标注为2D拉框、多边形拉框,对于智能驾驶行业,可能标注方向更多为车道线、语义分割等

数据标注的基本要素(基本指南数据标注过程中如何确保标注质量)(8)

评估标注方式

对于较少量或简单的图片等形式,一般会选择自行标注,常见的图片标注工具如LabelImg,该工具可在Windows及Mac上安装使用。但如果遇到大批量图片标注,或音视频数据标注,LabeIImg就无法满足需求

标注数据审核

对标注数据质量把好关,如文件格式、标注贴合度、目标物体精准等。只有将合格的数据输送给业务部门,才能产生相应的价值

以上就是有关数据标注质量的相关分享,关于数据标注你还想知道什么呢?

,