语料库是语料构成的集合,要进行语料库的处理和应用离不开语料工具。接下来,小编为大家介绍一下语料处理步骤中所需的几类常用工具。

如何获取国内语料库(国内外常见语料工具一览)(1)

如何获取国内语料库(国内外常见语料工具一览)(2)

1、语料采集工具

我们建语料库所需的语料可能有多种来源,如:网页、电子文档、纸质材料等。因此在采集不同来源的语料时我们需要使用不同的工具。

其中,ABBYY FineReader、天若OCR文字识别等OCR识别软件可用于处理纸质材料或其他不可编辑的材料;Teleport Ultra, TextForever等软件常用于处理网页材料。

1)ABBYY FineReader

ABBYY FineReader是一款专业OCR软件,可以进行文件识别、自动保留排版格式,后台批处理识别等功能。用户可以利用ABBYY FineReader进行对不可编辑文本的扫描,如图像、PDF等格式的语料(如下图所示),以获取Microsoft Word等格式的可编辑的文档。

官方下载地址:https://abbyy.store/

如何获取国内语料库(国内外常见语料工具一览)(3)

ABBYY FineReader软件标志

如何获取国内语料库(国内外常见语料工具一览)(4)

ABBYY FineReader软件界面

2)天若OCR文字识别

天若OCR文字识别是一款界面简洁、功能强大的OCR识别软件,可将图片中的文本转换成可编辑文本,将表格识别后转换成可编辑表格,进行识别翻译、截图及截图标注等,处理图像或PDF等格式语料极为方便,基本操作如下图所示。

官网软件下载:https://ocr.tianruo.net/

如何获取国内语料库(国内外常见语料工具一览)(5)

天若OCR文字识别软件标志

如何获取国内语料库(国内外常见语料工具一览)(6)

天若OCR文字识别软件界面(可参见官网教程)

3)Teleport Ultra

Teleport Ultra拥有直观的界面,可以在一个项目中处理多个服务器,使用正则表达式指定要爬行的包含区域和排除区域,批量获取网页数据信息。在语料搜集过程中,我们可以利用Teleport Ultra软件搜集网站中语料资源,根据软件向导的提示,经过简单的操作,便可以迅速获取大量资料。

官网软件下载:

https://www.tenmax.com/company/downloads.htm

如何获取国内语料库(国内外常见语料工具一览)(7)

Teleport Ultra软件图标

如何获取国内语料库(国内外常见语料工具一览)(8)

Teleport Ultra软件批量采集特定网址中的语料

4)TextForever

TextForever可以用来进行文本HTML到TXT 的转换、文件切分、文档合并、文本提取、TXT 文件分行、HTML 代码整理等功能。在使用Teleport Ultra软件提取网页中的语料后,我们可以使用TextForever软件对所获取的语料进行格式处理,搜集所需格式的语料,两个软件的搭配使用使得语料搜集过程更加方便快捷。

下载途径参考:

https://pc.qq.com/detail/8/detail_3448.html

如何获取国内语料库(国内外常见语料工具一览)(9)

TextForever软件图标

如何获取国内语料库(国内外常见语料工具一览)(10)

TextForever软件界面

如何获取国内语料库(国内外常见语料工具一览)(11)

2、语料清洗工具

语料清洗指去除语料中的噪音,包括不符合规范的格式、符号、内容等。北京外国语大学中国外语教育研究中心专职研究员许家金博士,将格式清洗错误分为文字符号类、空格段落类、标点符号类。

语料清洗过程中可涉及的软件有Microsoft Word、EmEditor、Notepad 、文本整理器、库酷、斑斓科技小助手等。

1) Microsoft Word

微软Word是微软公司开发的一款文字处理软件。相信大家日常办公都会或多或少用到它,其实它还有许多隐藏技能,今天为大家介绍其中之一——语料清洗。

具体来说,利用Ctrl H快捷键调出查找与替换对话框(如下图所示),点击“更多”,单击勾选“通配符”,借助通配符快速清洗语料。

Word通配符学习参考:

https://www.zhihu.com/question/334555512/answer/748239801

如何获取国内语料库(国内外常见语料工具一览)(12)

“Ctrl H”快捷键调出查找与替换对话框

2) EmEditor

EmEditor是一个轻量级、可扩展、易于使用的Windows文本编辑器,适用于Windows系统。EmEditor在64位和32位版本中都可用。我们可以在EmEditor软件中利用正则表达式快速清洗语料,具体操作是导入文本后,点击“搜索”,单击“替换”,再勾选“正则表达式”(如下图所示),利用正则表达式清洗语料。

正则表达式学习参考:

https://www.runoob.com/regexp/regexp-tutorial.html

在线正则表达式测试平台:

https://tool.oschina.net/regex

如何获取国内语料库(国内外常见语料工具一览)(13)

EmEditor软件图标

如何获取国内语料库(国内外常见语料工具一览)(14)

EmEditor软件中利用正则表达式

3) Notepad

Notepad 是一款与EmEditor类似的软件,Notepad 是Windows操作系统下的一套免费的文本编辑器,有完整的中文化接口及支持多国语言编写的功能(UTF8技术)。同样,我们也可以借助它,并利用正则表达式清洗语料,操作与EmEditor类似。

官网软件下载:https://notepad-plus-plus.org/downloads/

如何获取国内语料库(国内外常见语料工具一览)(15)

Notepad 软件标志

如何获取国内语料库(国内外常见语料工具一览)(16)

Notepad 软件利用正则表达式

4)文档整理器

文档整理器是一款使用方便的语料清洗软件,内含多种快捷键(如下图所示),不需要手动输入正则表达式或通配符进行语料清洗,功能丰富,操作简单,是一款较好语料清洗工具。

如何获取国内语料库(国内外常见语料工具一览)(17)

文档整理器标志

如何获取国内语料库(国内外常见语料工具一览)(18)

文档整理器软件界面

5)库酷

库酷是一款功能丰富的语料清洗软件,含多种快捷键(如下图所示),用户只需要根据自身需求点击对应快捷键即可,清洗语料速度快,也是一款不错的语料清洗软件,值得推荐。

如何获取国内语料库(国内外常见语料工具一览)(19)

库酷软件标志

如何获取国内语料库(国内外常见语料工具一览)(20)

使用库酷软件清洗语料界面

6)斑斓科技小助手

斑斓科技小助手是一款基于VBA的Word小工具,与库酷和文档整理器不同的是,它可以直接在word中使用,功能丰富,提供各种快捷键(如下图所示),操作简单方便,为语料处理提供极大的帮助。

官方软件下载:http://edu.bon-lion.com/bon-lion-helper/

如何获取国内语料库(国内外常见语料工具一览)(21)

斑斓科技小助手在word中的显示

如何获取国内语料库(国内外常见语料工具一览)(22)

3、语料对齐工具

语料对齐一般指的是双语或多语文本的平行对齐,一般以“一对一”对齐为主,也存在“一对二”或“一对多”平行文本的对齐,目前应用最为广泛的语料对齐是句级语料对齐。

常见的语料对齐工具包含两类:一类是CAT软件自带的工具,包括Trados的对齐文档、memoQ的Livedocs等,另一类是独立的工具,包括ABBYY Aligner、Tmxmall等。一般来说,CAT自带的语料工具有些局限,这里主要介绍独立的语料对齐工具。

1)ABBYY Aligner

ABBYY Aligner 2.0是一个专业的工具对齐并行文本和创建翻译记忆数据库,提供了编辑对齐结果的功能,并可以保存为TMX格式,以便在CAT工具中进一步使用,可以提高工作效率。

如何获取国内语料库(国内外常见语料工具一览)(23)

ABBYY Aligner软件标志

如何获取国内语料库(国内外常见语料工具一览)(24)

ABBYY Aligner界面

2)Tmxmall

Tmxmall是一款在线语料对齐工具,语料对齐方便用户调整对齐结果,其自主研发的智能对齐算法可以自动对齐原文,支持46种语言,2070种语言对,极大提高语料对齐效率。

官方下载地址:https://www.tmxmall.com/

如何获取国内语料库(国内外常见语料工具一览)(25)

Tmxmall工具标志

如何获取国内语料库(国内外常见语料工具一览)(26)

Tmxmall 工具界面

如何获取国内语料库(国内外常见语料工具一览)(27)

4、语料检索工具

语料检索指的是对语料中的词、句或结构进行检索,可以获得词频、词密度、词表、搭配、关键词单等,以便对语料进行分析研究。在此过程中有AntConc, ParaConc等可供使用。

1)AntConc

AntConc是一款免费的单语语料检索工具,支持Windows, MacOS等系统,具有索引、索引定位、词丛、搭配、词表和关键词单等多种功能,界面简单,方便用户操作,可以极大提高语料检索的效率。

官方下载地址:

https://www.laurenceanthony.net/software/antconc/

如何获取国内语料库(国内外常见语料工具一览)(28)

AntConc软件标志

如何获取国内语料库(国内外常见语料工具一览)(29)

AntConc软件检索界面

2)ParaConc

ParaConc是一款双语或多语平行语料库建设与检索工具,具有语料对齐、平行文本预览功能、平行文本检索、检索行排序、词频统计、搭配提取等功能,可以用于语料检索、对比分析、语言学习和翻译研究培训等。

官网下载地址:https://paraconc.com/

如何获取国内语料库(国内外常见语料工具一览)(30)

ParaConc软件标志

如何获取国内语料库(国内外常见语料工具一览)(31)

ParaConc软件界面

如何获取国内语料库(国内外常见语料工具一览)(32)

5、总结

语料工具有很多,在语料采集、清洗、对齐、检索等各个过程有不同的软件可供我们使用。面对形形色色的工具,我们不需要贪多,要选择适合自己的工具并熟练运用,形成自己的一套语料处理体系,无论是对日常学习,还是对学术研究,都有重要的意义。

如何获取国内语料库(国内外常见语料工具一览)(33)

关注微信公众号“语言服务行业”,“翻译技术教育与研究”,了解更多语言服务行业与翻译技术相关的资讯和洞察~

如何获取国内语料库(国内外常见语料工具一览)(34)

如何获取国内语料库(国内外常见语料工具一览)(35)

,