数据标注干货/新鲜AI资讯尽在——

公众号【数据标注星球】

数据标注是专门为人工智能模型训练提供训练数据的服务,是随人工智能崛起而产生的一种新兴职业。往期内容中,我们了解了数据标注基本流程中的前两项:数据采集和数据清洗,这次来聊一聊大家最熟悉也是十分重要的环节——数据标注。

什么是数据标注

数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理, 并转换为机器可识别信息的过程。

这个过程中,需要通过某些工具或手段人为地为图片、视频、语音和文本数据添加分类、画框、注释等,例如为图片画框、将语音转成文本、给文本或图片及语音等添加分类,这些标记后的数据成果可用于算法模型训练,提高模型效果。训练好的算法模型可以运用到图像识别、语音识别、自动驾驶等不同领域...

数据标注按照待标注数据的形式可以分为文本标注、语音标注和图像标注三大类。而这三大类型又可以细分出许多任务类型。

文本标注

文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于机器人学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。

· 实体标注

实体即具有具体而真实的形态或结构的事物,能够为人们所感知与亲手接触。实体是一种概念,一般指文本中具有特定意义或指代性强的名称词,包括人名、地名、组织机构名、日期时间、专有名词等。

数据标注需要掌握的知识(数据标注流程三)(1)

· 关系标注

关系标注就是从一段文本中首先找出实体,然后判断两者之间所存在的实际关系,例如:人与人之间的“同事”关系、“同学”关系、“师生”关系,再进行标注。

数据标注需要掌握的知识(数据标注流程三)(2)

· 事件标注

事件是特定的人、物在特定的时间、地点相互作用的客观事实。通常来说,在事件标注中需要抽取的要素主要包括事件的主体、客体、时间、地点、原因、结果等。

数据标注需要掌握的知识(数据标注流程三)(3)

· 分类标注

分类标注是自然语言处理的一个基本任务,是指试图推断出给定的文本(句子、文档等)的标签或标签集合。

数据标注需要掌握的知识(数据标注流程三)(4)

· 问答标注

原始文本中的内容是标注者标注的依据,从文本中抽取问题和对应的答案。分为半抽取半生成的混合式问答和抽取式问答。

数据标注需要掌握的知识(数据标注流程三)(5)

· 对话语料构建

对话语料构建是指根据规定的对话路径、要求描述以及知识库等模拟真实的应用场景,构建真实的对话,并在构建对话的过程中,针对每句对话所涉及的知识点进行查找并关联和回填槽值。

数据标注需要掌握的知识(数据标注流程三)(6)

除此之外,文本标注还包括依存句法标注、意图标注、知识图谱验证等...

语音标注

语音标注是把语音中包含的文字信息、各种声音标记提取出来,再进行转写或者合成的过程。人工智能通过学习这些标注后的数据,从而具备“听力”,使计算机可以实现精准的语音识别能力。

· 语音切割转写

语音切割要求标注人员需要考虑语境、语法和语义,将语音按照规定的时间间隔进行分割,标注过程中通过打点剪切的方式得以实现;语音转写是指将音频中的内容转写成文字的过程,以手动录入的方式实施。

数据标注需要掌握的知识(数据标注流程三)(7)

· 语音校对

语音校对的任务难度低于语音切割转写,是针对原始的语音转写结果进行检查和修改,是对不标准的发音进行校正的过程。

· 拼音和停顿标注

对照音频和文本为文本添加拼音和声调。这要求标注人员对停顿时长有准确的感知,对拼音的轻声和儿化音有良好的语感。

数据标注需要掌握的知识(数据标注流程三)(8)

· 语音采集

语音采集主要是语音录制,看似简单,实则对环境因素要求较高。底噪过大、喷麦等情况都会影响语音采集的质量。

· 字幕时间戳校正

字幕时间戳校正主要是确保音频与文字内容相对应,保证声音和文字同步展示。简而言之,声音停止时,文字在屏幕上消失。

数据标注需要掌握的知识(数据标注流程三)(9)

图像标注

图像标注就是将标签附加到图像上的过程。这可以是整个图像的一个标签,也可以是图像中每一组像素的多个标签。

· 拉框标注

拉框标注是图像标注中常见的一种任务类型,主要是指用 2D 框、3D 框、多边形框等标注出图像中的指定目标对象。通常来说,在拉框后还需要针对每个框加上类别标签。

· 语义分割

语义分割是计算机视觉中非常重要的标注任务,它实际上是从像素级别进行图像识别,也就是说,要针对图像中的每个像素标注出对象类别。这样做的目的是预测图像中每一个像素的类标签。在这一过程中,我们会将从视觉角度看起来不同类的部分按照语义分到不同的类别中,从而实现图像的 “语义理解”。

数据标注需要掌握的知识(数据标注流程三)(10)

· 关键点标注

关键点标注是指在目标对象的规定位置加上关键点,例如,在人脸图片上用点标注出眼角、鼻尖、嘴角等关键位置或在人体图像上标出骨骼或穴位的位置等。

关键点标注技术在人脸识别、情感分析、人脸追踪、动作分类、行为识别等方面都有重要的作用。模型借助关键点标注理解各个点在运动中的移动轨迹,从而实现更复杂的判断。

数据标注需要掌握的知识(数据标注流程三)(11)

· 3D点云

3D 点云是一种非常适合 3D 场景理解的数据,通常被认为是表示三维世界的一种较好的方法。相对于真实的 3D 图像,点云有着特有的深度表达优势。换言之,3D 点云直接给出了物体长度、宽度和深度三个维度的数据,而不需像真实 3D 图像那样,需要通过透视几何来反推三维数据。3D 点云数据可以清晰地表示所有的物体,小到几毫米,大到几十米甚至成百上千米。

数据标注需要掌握的知识(数据标注流程三)(12)

除此之外,图像标注还包括线标注、目标跟踪、图像分类、OCR识别等...

数据标注的类型除了上面几种常见的,还有很多个性化的。根据不同的需求则需要不同的标注方法。随着AI智能时代的到来,数据标注越来越被需要,也有越来越多的人加入该行业,希望标注菌的分享能让作为数据标注新人的你有所收获。

公众号【数据标注星球】,欢迎交流学习~

,