与文档分析相关的博文目录

从化学结构式识别竞赛看小模型的前景

化学结构式识别竞赛（Competition on Recognition of Chemical Structures，CROCS）作为2024年文档分析与识别国际会议（International Conference on Document Analysis and Recognition，ICDAR）的一部分，其竞赛报告已经公开。作为本届的其中一个参赛者，我开发的超轻量系统仅以0.61个百分点之差不敌知网而领先季军高达8个百分点。值得注意的是，知网集成了多个参数量高达约350M的模型，而我只用了4个参数量约只有1.3M的模型就取得了相当有竞争力的成绩。可见，虽然采用大模型是一种趋势，但小模型的潜力并未充分发掘。

从CROHME 2023看手写数学公式识别在过去四年的发展

文档分析

联机手写数学公式识别竞赛（Competition on Recognition of Handwritten Mathematical Expressions，CROHME）一直是公式识别领域认受性最高的评测平台。作为文档分析与识别国际会议（International Conference on Document Analysis and Recognition，ICDAR）的一部分，2023年这个竞赛继2011-2014、2016和2019年后再度举办。作为本届的其中一个参赛者，我有幸在全部三个任务上夺冠，现在是时候总结一下本次参赛的经验，并展望手写公式识别领域的前景。

联机手写文档分析的现状与未来

文档分析

随着触摸屏和笔式输入设备的普及，人们可以用电子设备代替传统的纸张作为书写的介质，从而更便于共享。不过，仅仅记录书写的轨迹并未充分体现电子化的优势，为了更好地支持编辑、搜索和各种自动化处理，还需要把手写的内容转换为更结构化的形式。与通过扫描或拍照等方式获取的手写文档图片相比，轨迹不但提供了时间、坐标和其它信息（如压感、倾斜角），而且夹杂了更少的的背景噪声，这就使得联机手写文档分析有比脱机手写文档分析做得更好的可能性。然而，做到完美仍然不太可能，所以如何利用不准确的结果就成为实用化的关键。

基于笔划提取的脱机手写数学公式识别

图像处理文档分析

手写体识别传统上被分为联机识别和脱机识别，前者识别动态的笔迹而后者识别静态的图片。与联机识别相比，由于缺乏动态信息和存在背景噪声，脱机识别的准确度通常较低，同时往往占用更多资源。于是，把脱机识别问题转化为联机识别问题是一个有吸引力的想法。本文以由于具有紧凑的二维结构而极具挑战性的数学公式识别问题为例，探讨了基于笔划提取的脱机手写识别的可行性和实用性，这方法夺得了国际性权威竞赛CROHME 2019中有关任务的季军。

局部自适应二值化方法的内存高效快速实现

图像处理文档分析

二值化被广泛用作识别前从背景分离出文本等对象的预处理步骤。通过逐个像素计算阀值，局部自适应二值化方法能较好地分割光照不均或带噪声的受损文档图片。由于阀值往往依赖于矩形窗口中灰度值的一些基于矩的统计量如均值和方差，过往人们常用积分图像去加速计算，代价则是需要额外占用大量内存空间。注意到按行主序，矩形窗口中矩和直方图都可以增量地计算，进而容易得到局部平均、标准差以至分位数，积分图像实际上是不必要的。特别地，这个想法导致Bernsen方法和Niblack型方法如Sauvola方法的新串行实现，它们的时间复杂度与输入图像的大小成正比且与窗口大小无关，而辅助空间关于输入图像大小次线性。