发布时间:2022-09-11 23:30
本文分析、比较和对比了彩色图像中文本检测和识别研究的技术挑战、方法和性能。 它总结了基本问题,并列举了在处理这些问题时应考虑的因素。 现有的技术被归类为分步的或集成的,并突出显示子问题,包括文本定位、验证、分割和识别。 还讨论了与加强退化文本和处理视频文本有关的特殊问题,多面向、透视扭曲和多语种文本。 说明文本的类别和子类别,列举基准数据集,并比较最具代表性的方法的性能。 本次审查对实地遗留问题进行了根本性的比较和分析。
造成这一趋势的几个主要原因,包括越来越多的应用程序的需求。 文本是最具表现力的传播手段之一,可以嵌入到文档或场景中,作为信息传播的手段。 这样做的方式使它“引人注目”和/或被他人阅读。 收集大量的“街景”数据只是一个驱动应用程序。 第二个因素是高性能移动设备[26]的可用性增加,[77]具有成像和计算能力。 这为图像的随时随地获取和处理创造了机会,使在各种环境中识别文本变得方便。 第三是计算机视觉和模式识别技术的进步,使解决具有挑战性的问题更加可行。
虽然许多研究人员认为光学字符识别(OCR)是一个解决的问题,但图像中的文本检测和识别与由低质量或退化数据驱动的计算机视觉和模式识别问题具有许多相同的障碍。 正如[189]、[204]和[206]的最先进方法的低检出率(通常小于80%)和识别率(通常小于60%)所表明的那样,存在着大量的研究空间。 相反,OCR通常在扫描文档[100]上达到高于99%的识别率。 复杂的背景、文本布局和字体的变化,以及光照不均匀、分辨率低和多语言内容的存在,比干净、格式良好的文档提出了更大的挑战。 解决这些问题需要应用先进的计算机视觉和模式识别技术。
已经提出了许多方法来检测和识别场景图像中的文本,但我们不知道在过去五年中对这一主题进行了全面的调查。 对文本信息提取[32]和基于相机的文档分析[40]进行了两次调查,但大多数已审查的文献是在2003年之前发表的。 自那时以来发表的许多工作已逐步提高了技术水平,因此为今后的工作确定一个基线仍然很重要。
本文试图通过提供文本检测和识别研究的综合文献调查来建立这一基线。 我们总结了问题和子问题,回顾了应用程序,并分析了挑战。 然后,我们定义了各种分类,以比较有代表性的方法和方法。 我们还通过在公开可用的数据集中报告具有代表性的方法的性能来强调最先进的状态。
论文组织如下。 第1节的其余部分概述了过去十年来的问题和取得的进展。 相关背景在第二节中进行了分析。 方法、子问题和相关问题分别载于第3、4和5节。 数据集和评估在第6节中给出,论文是在第7节中总结了关于剩余问题和未来方向的讨论。
问题概述
虽然文本的识别产生了许多应用,但其基本目标是确定给定图像中是否存在文本,如果存在,则检测、定位和识别文本。 在文献中,这些基本任务的各个阶段都被不同的名称所引用,包括文本定位[14],其目的是确定候选文本的图像位置,文本检测,使用定位和验证程序来确定是否有文本,以及文本信息提取[32],[85],其重点是定位和二值化。 文本增强等任务被用来纠正扭曲的文本或提高识别前的分辨率。 其他参考文献包括场景文本识别[100]和野生[173]中的文本识别,这限制了对自然场景中图像的分析。 只需说文本检测、定位和识别的主要目标对于“端到端”系统是必不可少的。
过去十年的进展摘要
早期的文本检测和识别研究是文档分析和识别研究的自然延伸,从扫描的页面图像转移到相机捕获的图像,重点是基本的预处理、检测和OCR技术[17]。 最近,复杂的计算机视觉和学习方法的应用是由于认识到这些问题并不适合于一系列独立的解决方案。 趋势是将检测和识别任务集成到一个“端到端”的文本识别系统[118]中。
在早期,研究人员广泛地研究了视频中的图形覆盖文本作为视频内容索引的一种方法。 场景文本,特别是视频场景文本,已经被认为是一个更困难的挑战,但很少有工作做它的[32]。 最近,研究人员探索了证明在各种配置中捕获的文本有效的方法,特别是在复杂背景下的附带文本。 这种方法通常来源于先进的机器学习和优化方法,包括无监督特征学习[123]、卷积神经网络(CNN)[173]、[176]、可变形的基于零件的模型(DPMs)[195]、信念传播[100]和条件随机场(CRF)[96]。
2 BACKGROUND
为了了解文本检测和识别方法的总体价值,提供关于潜在问题、应用和技术挑战的背景信息是有用的。
2.1 Text in Imagery
图形文本和场景文本被认为是文本的两个基本类,前者是指机器打印文本以图形方式覆盖,后者是指对象上的文本,在其本机环境中捕获。 图形文本通常是机器打印的,在标题、字幕和注释中找到视频和出生数字图像在网络和电子邮件[129]。 然而,场景文本包括自然场景中的标志、包装和服装上的文本,更有可能包括手写材料[117]。
最近的研究主要集中在场景文本上,为了更准确地描述挑战,它有助于进一步区分图像的主要目的是捕获文本的图像和嵌入场景中的文本的图像。 虽然两者之间存在一个连续体,但我们将前者称为点和拍摄文本,后者称为附带文本,如图所示。
在过去的二十年里,图像和视频都有许多与文本相关的应用,大致可分为多媒体检索、视觉输入和访问以及工业自动化。
多媒体检索。 网页图片中的文字与网页内容相关。 视频标题通常注释有关发生事件的地点、时间和谁的信息[8][49]。 在这样的多媒体资源中识别文本和提取关键字增强多媒体检索。
可视化输入和访问。 含有数码相机的移动设备的扩展使成像设备广泛可用。 带有嵌入式模块,移动设备自动输入名片,白板和幻灯片演示[10],[40],[41]。 在不被键盘强制输入的情况下,用户感觉更舒适,工作效率更高。
自然场景中的标志携带着重要的信息。 自动手语识别和翻译系统使用户能够[26]克服语言障碍。 卡内基梅隆大学开发了一种早期基于PDA的符号识别器[26],最近的平台包括iOS和Android,它们可以立即识别并将文本翻译成另一种语言[202]。
根据世界卫生组织的资料,1全世界约有3900万名合法失明者和2.85亿视力受损者。 开发个人文本到语音设备有助于他们理解杂货店标志、产品和药品标签、货币和ATM指令[37],[77]。 马里兰大学[77]和纽约城市大学[174]已经为正在学习的人开发了文本识别原型视障。 Kurzweil全国盲人联合会(KNFB)阅读器2在移动平台上运行,使视障人士能够从室内场景“阅读”文本。
工业自动化。 识别包装、容器、房屋和地图上的文本具有与工业自动化相关的广泛应用。 例如,信封上的地址识别应用于邮件排序系统。 集装箱号自动识别,提高物流效率[39]。 识别地图中的房屋编号和文本有利于自动地理编码系统的[168]。
2.3 挑战
环境的复杂性、灵活的图像采集风格和文本内容的变化带来了各种挑战,如表1所示,分析如下。
场景的复杂性。 在自然环境中,许多人造物体,如建筑物、符号和绘画,与文本具有相似的结构和外观。 文本本身的布局通常是为了便于可读性。 场景复杂性的挑战是,周围的场景使文本与非文本难以区分。
光线不均匀。 在野外捕捉图像时,由于光照和感官设备的不均匀响应,不均匀的照明是常见的。 不均匀的照明引入了颜色失真和视觉特征的恶化,从而引入了错误的检测、分割和识别结果。
模糊和退化。 在灵活的工作条件和无聚焦相机的情况下,文本图像的离焦和模糊[40]发生。 图像/视频压缩和解压程序也降低了文本的质量,特别是图形视频文本。 散焦、模糊和退化的典型影响是它们降低了字符的清晰度,引入了感人的字符,这使得分割等基本任务难以[40]。
比例。 交通标志等文本可能是简短的,而视频标题等其他文本可能更长。 换句话说,文本有不同的纵横比。 为了检测文本,需要考虑与位置、规模和长度有关的搜索过程,这引入了较高的计算复杂度。
扭曲。 当摄像机的光轴不垂直于文本平面时,会发生透视失真,如图所示。 1b。 文本边界失去矩形形状和字符失真,降低了在未失真样本上训练的识别模型的性能。
字体。 斜体字体和脚本字体的字符可能相互重叠,因此很难执行分割[132]。 各种字体的字符具有较大的类内变化,形成了许多模式子空间,使得当字符类数较大时,进行精确识别是困难的。
多语言环境。 虽然大多数拉丁语言有几十个字符,但汉语、日语和韩语(CJK)等语言有数千个字符类。 阿拉伯语有连接字符,这些字符根据上下文改变形状。 印地语将字母组合成数千个形状,代表音节[99]。 在多语言环境中,扫描文档中的OCR仍然是一个研究问题[99],而复杂图像中的文本识别则更加困难。
在本节中,我们分析了完整文本检测和识别系统中常用的两种方法:逐步和集成。 如图所示。 逐步方法将检测和识别模块分开,并使用前馈管道来检测、分割和识别文本区域。 相反,集成方法的目标是识别单词,其中检测和识别过程与字符分类共享信息和/或使用联合优化策略,如图所示。 2b。 一些逐步的方法利用文本识别的反馈过程来减少错误检测,一些集成的方法使用预处理步骤来定位感兴趣的区域。 关键的区别在于后者使用识别作为关键焦点。
3 METHODOLOGIES
逐步方法有四个主要步骤:定位、验证、分割和识别。 定位步骤对组件进行粗分类,并将其分组为候选文本区域,在验证过程中将其进一步分类为文本或非文本区域。 基本假设是,各种文本区域可能被视为一种统一的模式,因此,必须存在在该模式上不变的属性或特征。 分割步骤将字符分隔开来,使其具有排他性,图像块的准确轮廓仍然是识别步骤。最后,识别步骤将图像块转换为字符。 在某些方法中,可以忽略验证和/或分段步骤,或者可以包括其他步骤来执行文本增强和/或校正。
[126],提出了一种逐步的方法,包括检测、跟踪、分割、识别和校正,如图所示。 3. 对原始像素值进行训练的卷积神经网络[67]进行文本检测,并将检测到的局部最大响应分量分组为文本。 集成了一个跟踪过程,以确定本地化文本的开始和结束框架。 提出了一种基于最短路径方法的分割步骤来计算分离,从而实现基于CNN的字符识别。 然后使用语言模型来消除识别歧义和分割错误。
Yao等人。 [175],[197]开发了一种面向健壮的多语文方法。 笔画像素被分组为连接分量(CCs),通过对形状、占用比、轴比、宽度变化和分量密度的分量特征进行训练的决策林进行滤波。 然后,用分层聚类算法将过滤后的连接组件聚合成多方向链,并通过对区域特征(包括颜色、密度、笔画和结构)进行训练的决策森林分类器进行验证。 通过验证的链由低秩结构恢复算法增强,然后被馈送到OCR模块以产生识别结果。
通过一种集成的方法,字符分类响应被认为是主要的线索,并与检测和识别模块[51]共享。
3.2综合方法
通过一种集成的方法,字符分类响应被认为是主要的线索,并与检测和识别模块共享。 使用字符分类响应作为主要特征需要从背景和相互之间识别字符,这是一个复杂的多类问题。 解决方案不仅需要稳健的字符识别模型,而且还需要适当的集成策略,如整体匹配,即“单词检测”148、联合优化173和/或决策延迟102 188。
通过字符和单词模型,发现单词的目的是将特定词汇与图像补丁相匹配。 如图所示。 第四,王和归属提出了一种通过训练具有定向梯度(HOG)特征直方图和最近邻分类器[118]([148]中的随机蕨类分类器)的字符模型来识别单词的方法)。 它们使用多尺度滑动窗口分类来获得字符响应,而非最大抑制来定位字符候选。 他们使用图形模型,以字符的分数和位置作为输入,以确定一个特定单词的最佳配置从一个小词典。
Wang等人。 [173]提出将多层CNN与无监督特征学习相结合来训练字符模型,并将其用于文本检测和识别过程。 如图所示。 他们运行基于CNN的滑动窗口字符分类,并使用响应来定位候选文本行。 然后,他们将字符响应与字符间隔和定义的词汇集成在一起,使用波束搜索算法[15]识别单词。
诺依曼和马塔斯[188]提出了一种决策延迟方法,将每个字符的多个分段保持到每个字符的上下文已知的最后一阶段。 它们使用极值区域检测字符分割。 在分段的基础上,利用字符分类分数、字符间隔和语言先验构造有向图。 采用动态规划算法对得分最高的图形上的路径进行选择。 最优路径诱导的区域序列及其标签是输出,即一个单词、一个单词序列或一个非文本区域。
逐步的方法通常采用粗到细的策略,它首先定位文本候选,然后是验证,分割,并识别它们。 一个吸引人的特点是,大多数背景在粗定位步骤中被过滤,这大大降低了计算成本,从而保证了计算效率。 另一个吸引人的特点是,它处理定向文本,因为文本方向是在定位步骤中估计的。 给定语言独立的特性或多语言OCR模块[12],[45],[80],它处理多语言文本。 缺点有两方面。 第一种是从所有步骤集成不同技术时复杂性的增加。 其次是所有步骤的参数优化困难,这可能会引入错误积累。
相比之下,综合方法的目标是用字符和语言模型来识别图像中的特定单词。 集成方法可以避免具有挑战性的分割步骤,或者用字符和单词识别来优化它,这使得它对复杂背景和低分辨率文本不太敏感。 缺点在于,多类字符分类过程在考虑一个大的字符类号和大量的候选窗口时计算成本较高。 此外,词类数量的增加会显著降低检测和识别性能,因此通用性往往仅限于单词的小词典。
在本节中,描述了包括文本定位、验证、分割和识别在内的子问题。 对每一种方法的主要贡献进行了审查。 对每一种贡献进行了分析。