OCR文字识别的数据集有哪些?

OCR文字识别的数据集主要可以分为以下几类:

  1. 模拟数据集

模拟数据集是人工合成的图像,与真实场景中的图像类似,但可以控制其光照、干扰、字体等因素以达到特定的研究目的。常用的模拟数据集包括SynthText、Synthetic Chinese String Dataset等。

  1. 自然场景数据集

自然场景数据集是采集自真实世界中的图像,一般有许多复杂的噪声因素(例如运动模糊、遮挡、背景复杂等),这些因素会导致OCR算法的性能下降。这类数据集包括ICDAR、COCO-Text、Total-Text等。

  1. 视觉差异数据集

视觉差异数据集主要是为了研究OCR算法对于不同语言、不同字体、不同字号、不同颜色等因素的适应性。这类数据集包括SVT、SVTP、IIIT5K等。

以下是两个示例说明:

  1. ICDAR2013数据集

ICDAR2013是一个用于场景文本识别的数据集,其包含1000张训练图像和500张测试图像, 注释包含文本框的位置和对应的文本内容。其中还包括一些挑战性样本,如歪斜和弯曲的文本,对比度较低的文本等。

  1. Synth90k数据集

Synth90k是一个用于英文识别的合成数据集,其包含了94127张训练图像和9033张测试图像。数据集中的文本都是在自然场景中合成的,包括了不同大小、不同字体、不同配色的文本,提供了大量的样本来训练OCR算法。