OCR——简单的说就是文字识别技术,将电子文本转为可编辑文本

OCR(Optical Character Recognition)

是将打字、手写或印刷文本的图像电子或机械转换为机器编码文本,无论是来自扫描文档、文档照片、场景照片(例如风景照片中标志和广告牌上的文字)或叠加在图像上的字幕文字。

广泛用作从印刷的纸质数据记录中输入数据的一种形式——无论是护照、发票、银行对账单、计算机收据、名片、邮件、静态数据的打印输出,还是任何合适的文件——这是一种将印刷数字化的常用方法文本,以便它们可以进行电子编辑、搜索、更紧凑地存储、在线显示,并用于机器过程,例如认知计算、机器翻译、(提取的)文本到语音、关键数据和文本挖掘。OCR 是模式识别、人工智能和计算机视觉的研究领域。

ocr报告是什么东西(OCR是什么具体能做什么)(1)

电子文本转可编辑文本

诞生历程

早期的光学字符识别可以追溯到涉及电报和为盲人创建阅读设备的技术。 1914 年,伊曼纽尔·戈德堡( Emanuel Goldberg)开发了一种读取字符并将其转换为标准电报代码的机器。同时,Edmund Fournier d'Albe 开发了Optophone,这是一种手持扫描仪,当它在打印页面上移动时,会产生与特定字母或字符相对应的音调。

在 1920 年代后期和 1930 年代,伊曼纽尔·戈德堡开发了他所谓的“统计机”,用于使用光学代码识别系统搜索缩微胶卷档案。1931 年,他的发明获得了美国专利号 1,838,389。该专利被IBM收购。

1974 年,Ray Kurzweil创办了 Kurzweil Computer Products, Inc. 公司,并继续开发全字体OCR,它几乎可以识别以任何字体打印的文本(Kurzweil 经常被认为发明了全字体 OCR,但它被1960 年代后期和 1970 年代的公司,包括 CompuScan )。库兹韦尔决定,这项技术的最佳应用是为盲人创造一台阅读机,让盲人可以用电脑大声朗读文本。该设备需要发明两项智能技术 - CCD 平板扫描仪和文本到语音合成器。1976 年 1 月 13 日前,在由库兹韦尔和全国盲人联合会领导人领导的广泛报道的新闻发布会上,成功地揭开了面纱。1978 年,Kurzweil Computer Products 开始销售光学字符识别计算机程序的商业版本。LexisNexis是首批客户之一,并购买了该程序以将法律文件和新闻文件上传到其新生的在线数据库中。两年后,Kurzweil 将他的公司卖给了施乐,后者对进一步商业化纸张到计算机的文本转换感兴趣。施乐最终将其剥离为Scansoft,与Nuance Communications合并。

在 2000 年代,OCR 作为在线服务 (WebOCR)、云计算环境以及移动应用程序(如智能手机上外语标志的实时翻译)提供。随着智能手机和智能眼镜的出现,OCR 可用于连接互联网的移动设备应用程序,这些应用程序提取使用设备相机捕获的文本。这些操作系统中没有内置系统 OCR 功能的设备通常会使用 OCR API从设备捕获和提供的图像文件中提取文本。OCR API 将提取的文本以及有关检测到的文本在原始图像中的位置的信息返回给设备应用程序以进行进一步处理(例如文本到语音)或显示。

各种商业和开源 OCR 系统可用于最常见的书写系统,包括拉丁文、西里尔文、阿拉伯文、希伯来文、印度文、孟加拉文(孟加拉文)、梵文、泰米尔文、中文、日文和韩文字符。

ocr报告是什么东西(OCR是什么具体能做什么)(2)

Ray Kurzweil

ocr报告是什么东西(OCR是什么具体能做什么)(3)

早期的平板扫描仪

应用范围——OCR引擎已经发展成多种特定领域的OCR应用,如收据OCR、发票OCR、支票OCR、法律帐单OCR等。

具体应用于以下领域:

ocr报告是什么东西(OCR是什么具体能做什么)(4)

OCR识别类型

技术实现步骤

【预处理】—— OCR 软件通常会“预处理”图像以提高成功识别的机会。技术包括:

【文字识别】—— 有两种基本类型的核心 OCR 算法,它们可以生成候选字符的排序列表。

ocr报告是什么东西(OCR是什么具体能做什么)(5)

通过机器学习的方式,更快速的进行识别并输出结果

,