公元前1000年,人类所有知识加起来不足100万字,现在人类知识已经无法用字数来统计:2016年仅SCI论文就多达189.67万篇,而中国每年各层次论文数量更是超过1000万篇;全球每年出版新书60-100万册;据科研机构估计,全球现存各类书籍达2万亿本!

通用文字识别ocr全称(五种文字识别效率对比)(1)

中国科举时代,一个人需要学习的知识主要是四书五经,共计62万多字,这已经是当时世界最庞大的知识体系了。按照古人的学习进度,一般3-5年就可以把四书五经学完,剩下的就是练习书法、博览群书、诗词歌赋、写作策论等个人修行为主了。

现在人类的知识比以前多的多,小学到高中毕业一共需要学习100-150册书籍,阅读量超过1000万字,是科举考试知识量的30-50倍!随着人类对世界探索的深入,形成的知识会越来越多,学习的负担会越来越重。今天的学生,学习量已经是40年前的3-5倍!而高中毕业后,还有更多、更深、更难的专业知识等待学习。

通用文字识别ocr全称(五种文字识别效率对比)(2)

知识传承不仅考验的是学生,也是对语言文字效率的考验,尤其是文字!知识传承的主要工具是文字,因为文字的识别效率是语音的3-5倍,即使未来人类发明脑机接口,也无法取代文字在知识传承中的地位。

文字的识别效率,决定不同国家人民在未来学习中的效率,学习效率决定知识水平,知识水平决定国家科技和文化水平,最终决定国家的未来。在知识继续爆炸的未来,国与国之间的竞争将不仅仅是技术的竞争,更是学习效率的竞争,文字效率的竞争。

通用文字识别ocr全称(五种文字识别效率对比)(3)

世界主流文字哪些效率更高?

文字效率取决于以下因素:1、字符数;2、字符长度;3、字符识别速度;4、助词、介词等辅助词数量;5、语法复杂度;6、语句结构复杂度。

让我们以一段例句为例,看看不同文字的效率。

一、英文

通用文字识别ocr全称(五种文字识别效率对比)(4)

英文内容共计239个字母,长度2.8行(A4纸,标准页面设置,下同),识别效率平均3-5个字母/每秒。有介词、助词10个,语句撕裂感较重。语法非常复杂。全文信息识别需要20-25秒。

通用文字识别ocr全称(五种文字识别效率对比)(5)

英文是线性文字,单词较长,篇幅较长,对视野有较高要求,在人类有限视野宽度内,想提高识别效率有点难。而且长单词较多,有些复杂的单词需要延迟0.5秒才能识别。总的来说,英文的结构影响了其信息识别效率。

二、中文

中文内容共计60个汉字,长度1.8行,有助词、介词1个,识别效率平均每秒3-5个汉字。全文分为5句,语意清晰无滞涩感。语法非常简单。全文信息识别需要10-15秒。

通用文字识别ocr全称(五种文字识别效率对比)(6)

中文是最高效的文字:首先是信息密度非常高,字符最少最短;其次是文字是块状而非线性,进入视野的速度快,不需进行目光的游移;第三,汉字以词汇形式出现较多,信息识别是以词汇为单位,不需要细看就能识别,效率翻倍。汉字即使词序错位,也对信息识别不会造成太大影响,如:

研表究明,汉字的顺序并不定一能影阅响读,比如当你看完这话句后,才发现这里的字全是乱的。

三、韩文

韩文内容共231个韩字,长度3.4行,识别效率平均每秒2-4个韩字。有助词、介词5个,语意有一定滞涩感。语法较为复杂。全文信息识别需要30-35秒。

韩文是比较低效的文字,因为其文字是表音,但词汇却大多来源于表意的中文,同音歧义单词很多,需要通过上下文意进行猜测,在阅读复杂度比较高的科技、法律类文章时,效率非常低下。

通用文字识别ocr全称(五种文字识别效率对比)(7)

四、越南文

越南文内容共254个字母,长度2.8行,识别效率平均每秒2-3个单词。语意有一定滞涩感,语法比较简单。全文信息识别需要25-30秒。

越南语也是一种孤立语,文字是表音文字,语法简单,没有各种时态、单复数的变化,但由于受中文影响,许多词汇来自中文,汉字词汇变成表音文字后,在单词识别上效率稍低。

五、日文

这段内容共228个汉字和假名,长度3.4行,识别效率平均每秒3-4个字符。语意有一定滞涩感,语法非常复杂。全文信息识别需要25-30秒。

日语语法是世界上最复杂的语法之一,变化多端,而且词序不走寻常路,学习起来难度还是比较大的。但是由于引入了汉字,大大提高了日文的识别效率,否则日文的学习效率并不高。

通用文字识别ocr全称(五种文字识别效率对比)(8)

六、效率排名

五种文字信息识别效率排名如下:中文100%>英文45%>日文35%=越南文35%>韩文30%

未来随着人类知识越来越庞大、复杂、困难,中文将体现出更高的学习效率,让中国在学习和知识传承上独步世界。一些低效率文字国家,为了提高知识学习效率,不得不学习更高效的中文。

欢迎关注猴军集,城市、地理、经济、文化!

,