汉字文本平面ocr数据集有哪些?

797科技网 0 2024-08-25 06:14

一、汉字文本平面ocr数据集有哪些?

扫一扫识别文字、拍照翻译、拍照搜题、车牌自动识别……这些随处可见的功能,给我们的工作和生活带来了极大的便利,其背后都离不开OCR技术的支持。

随着深度学习技术的发展,智能OCR算法与应用也越来越丰富,对相关数据的需求也增加。

许多小伙伴反馈中文OCR数据集不好找,今天我们贴心地帮大家整理了8个常用的中文OCR数据集资源,记得收藏。

No.1

MSRA-TD500 (MSRA Text Detection 500 Database)

下载链接:https://opendatalab.com/MSRA-TD500

MSRA-TD500由华中科技大学于 2012 年在 CVPR 发布,是一个用于测试和评估多方向、多语言文字检测算法的自然图像数据集,包含500幅拍摄于室内(办公室和商场)和室外(街道)场景的自然图像。室内的图像主要包括标识、门牌和标牌等,室外的图像主要是路牌和广告牌等。图像的分辨率较高,介于1294*864和1920*1280之间。

该数据集由两部分构成:训练集、测试集。训练集中一共有300幅图像,通过随机抽样的形式从原始数据集中抽取出来。余下的200幅图像构成测试集。

数据集中的所有图像都经过完整标注。数据集的基本单元是文本行而非单词。

MSRA-TD500数据集样例(图源:参考资料[1])

MSRA-TD500数据集中的典型图像以及文字的标准矩形框 每一个矩形框对应一个文本行。红色的矩形框表示其中的文字被标记为“困难”。在MSRA-TD500数据集中,难以检测的文字(一般由低分辨率、模糊和遮挡等因素造成)会被标记为“困难”。

No.2

Chinses Text in the Wild(CTW)

下载链接:https://ctwdataset.github.io/

由清华大学与腾讯共同推出的一个大型中文自然文本数据集(Chinese Text in the Wild,CTW)。该数据集包含 32,285 张图像和 1,018,402 个中文字符。

每张图像尺寸为2048*2048,数据集大小为31GB。CTW以(8:1:1)的比例将数据集分为:

  • 训练集(25887张图像,812872个中文字符);
  • 测试集(3269张图像,103519个中文字符);
  • 验证集(3129张图像,103519个中文字符);

这些图像源于腾讯街景,从中国的几十个不同城市中捕捉得到。数据多样、复杂,它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。

CTW数据集样例示意(图源:参考资料[2])

对于每张图像,数据集中都标注了所有中文字符。对每个中文字符,数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化,和手写体等。

No.3

Reading Chinses Text in the Wild(RCTW-17)

下载链接:https://rctw.vlrlab.net/dataset.html

ICDAR(国际文档分析和识别大会)在2017年发起了一项专注于中文检测和识别比赛项目(RCTW),RCTW-17为竞赛数据集,它由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。图像尺寸不规则,数据集大小为11.4GB。

数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。

数据集划分为两部分:训练集和验证集。训练集包含8034张图片,测试集包含4229张图片。

RCTW-17数据集样例示意(图源:参考资料[3])

No.4

ICPR MWI 2018挑战赛

下载链接:https://tianchi.aliyun.com/competition/entrance/231685/information

ICPR MWI 大赛提供的包含2000张图像的官方数据集,主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。数据集大小为2GB。其中训练集10000张,测试集10000张。

ICPR MWI 2018数据集标注样例,红框代表标注的文本框(图源:参考资料[4])

No.5

ShopSign

下载链接:https://github.com/chongshengzhang/shopsign

该数据由河南大学科研团队发布的,是一个大规模中英文自然场景文本数据集,其包含25770张街景中文招牌图像,196010条文本行。

ShopSign中的图像是在不同的场景(市中心到偏远地区)中使用50多种不同的手机拍摄。相比于CTW,其包含了4000张夜间图像,同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率,包括3024*4032、1920*1080、2180*720等。

CMT主要包含了几个主要发达城市,而ShopSign包含的地理范围广(北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇),包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度,而ShopSign使用了多种角度进行拍摄。[5]

ShopSign数据集中广告牌样例示意(图源:参考资料[5])
ShopSign数据集中广告牌分类示意(图源:参考资料[5])

注释包括了每个文本行的四边形边界框的坐标(顺序:左上、右上、右下、左下)以及相对应的文本行的相应文本。ShopSign仅仅处理广告牌上的文本。

No.6

ICDAR2019-LSVT

下载链接:https://github.com/chongshengzhang/shopsign

ICDAR 2019-LSVT(Large-scale Street View Text with Partial Labeling,弱标注大规模街景文字识别)国际学术竞赛公开的大规模弱标注场景文字数据集。

数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。是首个提出弱标注数据的场景文字数据集,其中包括5万张精标注街景图像、40万张弱标注街景图像,总计45万张。

所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片。

LSVT数据集精标注示意(图源:参考资料[6])
LSVT数据集弱标注示意(图源:参考资料[6])

No.7

TotalText

下载链接:https://opendatalab.com/TotalText

Total-Text是最大弯曲文本数据集之一-ArT(任意形状文本数据集)训练集中的一部分。该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。其中训练集有1255张图像,测试集有300张图像。

TotalText数据集样例示意(图源:OpenDataLab)

No.8

Caffe-ocr中文合成数据

下载链接:https://github.com/senlinuc/caffe_ocr

共360万张图片,图像分辨率为280*32,文件大小约为8.6GB。数据利用中文语料库(新闻+文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,字典中包含汉字、标点、英文、数字共5990个字符(语料字频统计,全角半角合并)。

每个样本固定10个字符,字符随机截取自语料库中的句子。按9:1分成训练集、验证集,测试集约6万张。

Caffe-ocr数据集样例示意(图源:参考资料[7])

参考资料

[1]http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf

[2]https://ctwdataset.github.io/

[3]https://arxiv.org/pdf/1708.09585v2.pdf

[4]https://tianchi.aliyun.com/competition/entrance/231685/information

[5]https://arxiv.org/pdf/1903.10412v1.pdf

[6]https://rrc.cvc.uab.es/?ch=16

[7]https://github.com/senlinuc/caffe_ocr

更多数据集上架动态、更全面的数据集内容解读、最牛大佬在线答疑、最活跃的同行圈子……欢迎添加微信opendatalab_yunying加入OpenDataLab官方交流群。

二、paddle ocr 与paddle hub关系?

应该就是普通的朋友关系吧,或者就是同学关系的,具体什么关系都是没有影响的

三、捷安特Ocr3500与Ocr3700的差别有什么?

aluxx是捷安特的铝合金车架成型技术,除此之外还有aluxx sl及aluxx slr。

捷安特从山地的atx全车型到公路车早已停产的ocr3系列全车型都使用aluxx成型技术。还有些休闲通勤车型,如汉特系列也在使用aluxx。

这么多的车型里虽然都在用这个aluxx,但对应不同级别的车架规格却有很大差异。

先从山地类的车型讲起,汉特这类车型基本都是外置碗组的v刹或碟刹车架;atx6系列则是44mm标准直管,26轮径。并依据不同年款从最开始的v刹到碟刹等经过了很多代的架型演变;atx7 series(这里特指零售版本的atx7车架)和atx pro同样是直管26规格,但至今同时保留了v刹和碟刹坐;而atx7系列整车车架虽然都是26轮径,但至今仍有更新,也经过了很多规格变化,头管规格从最开始的直管到捷安特od1规格再到现在的直管,走线方式也从最开始的上外走改成现在的变速内走油管下外走,并从xtc系列下放了很多代架型及不同涂装;atx8系列车架的规格变化更大,从当年26高端车型的铝合金和半碳车架(前三角铝合金,后三角碳)到现在的275低端整车车架,逐渐占据atx7和中端atx6系列整车的份额,头管也经历了直管、od1到直管的变化,车架走线也从最开始的外走线变成现在的全内走,也从xtc下放了很多代架型,目前最新已经更新到了2020款(atx830);arx系列(275轮径硬叉山地车)和arx20(20轮径硬叉山地车)也是aluxx级别车架。

这其中与atx车型同数字编号的rincon系列,是老款atx车型的配置升级版整车,车架工艺与同编号atx相同。

talon系列分老款talon,和现在的欧版talon。老款talon主要以26直管快拆为主,根据年款不同有些还留有v刹坐,还有29er直管规格,相对少见,外走线车架;现在欧版talon为275版本,依旧为直管快拆,基本不在国内销售,直装规格前拨全内走线车架。

还有款talon w,低跨点女士山地车,和26talon同级。

liv系列中捷安特meme系列,捷安特cate(凯特)系列以及捷安特rove(以芙)女士山地车也都是使用aluxx级别低跨点车架,大致与26的atx同级,其中还有部分24轮径车型。

公路车型中(700c轮径为主),700c旅行车捷安特帝柏系列,平把公路fcr及escape系列还有liv的aimez系列(均不带sl或slr字样)都是aluxx级别车架,弯把公路里从停产的ocr3系列到目前还在产ocr2系列均为aluxx级别车架,按年款和车型级别不同分内走线和外走线版本,其中ocr w是ocr3700同级女子公路车型,也为aluxx级别,除此之外还有一款escape 0(快拆碟刹)是700 c的弯把公路车型,aluxx级别车架。针对青少年设计的公路车型tcr24和tcr26(指轮径规格)也都是使用aluxx级别车架;女子公路中还有osia(奥西娅)和fresa(妃莎)既有弯把也有平把公路车型,还有部分单速铝合金车架的莫曼顿系列,以及fuuri(芙蕾)20寸小轮车,再到expressway的20寸折叠车都使用了aluxx级别的成型技术。

这里还有很多我没说到的型号,涉及车型非常繁杂,没有考证过的铝合金车型就没有算在aluxx级别车架中,欢迎补充指正。

四、图像识别技术与ocr

图像识别技术与OCR (Optical Character Recognition) 是当下炙手可热的话题,不仅在科技领域中拥有广泛的应用,也在各个行业带来了革命性的影响。图像识别技术指的是计算机通过对图像进行分析和处理,从图像中提取有用信息的能力,而OCR则是指通过图像识别技术将文本内容从图片中准确地转换成可编辑的文字。

图像识别技术的应用领域

随着图像识别技术的不断发展和突破,它已经被广泛应用于多个领域。其中之一是医疗行业。通过图像识别技术,医生可以更准确地诊断疾病,实施手术,并提供更好的治疗方案。另外,图像识别技术还可以用于智能交通系统,包括车牌识别、交通监控等。此外,图像识别技术还可以用于安防领域,如人脸识别、行为分析等,提升安全性和监控效率。

OCR在商业领域的应用

OCR技术在商业领域中的应用也十分广泛。随着电子商务的兴起,越来越多的企业需要将纸质文档转换成可编辑的电子格式。例如,通过OCR技术,电商平台可以实现快速、准确地将供应商的产品目录转换为可供在线搜索和编辑的电子数据库。此外,OCR技术还可以用于银行业,实现自动化的票据处理和客户信息识别。这样不仅提高了工作效率,还减少了人工错误。

图像识别技术的挑战

尽管图像识别技术在各个领域中具有广泛的应用前景,但是仍面临一些挑战。首先,图像识别技术对图像的质量要求较高。当图像的清晰度低或者有噪音干扰时,识别的准确性会大大降低。其次,图像识别技术还需要大量的训练数据才能达到较高的准确率。而获取大规模的标注数据是一项耗时耗力的工作。此外,图像识别技术还需要高性能的计算资源和算法才能实现实时性和准确性的平衡。

OCR技术的发展趋势

随着人工智能技术的快速发展,OCR技术也在不断改进和突破。首先,OCR技术的准确率不断提高,可以更精确地识别各种文字和字符。其次,OCR技术也在不断增加对其他语言的支持,不限于英文。这使得OCR技术在国际化和多语言环境下的应用更加广泛。另外,OCR技术还在不断融合其他技术,如自然语言处理和机器学习,进一步提升其应用能力。

图像识别技术和OCR的前景

可以预见的是,图像识别技术和OCR将在未来继续发挥重要作用,并在各个领域中带来更多的革命性应用。随着科技的不断进步,图像识别技术和OCR的准确率将更高,速度将更快,应用场景将更加丰富。图像识别技术和OCR的发展也将推动其他相关技术的进步,如人工智能、大数据和物联网等。

结语

图像识别技术和OCR的发展展示出人工智能和科技的无限潜力。它们让我们的生活变得更加智能、高效,为各行各业带来了新的机遇和挑战。我们期待未来,图像识别技术和OCR将不断进步,为人类社会带来更广阔的发展空间。

五、捷安特ocr5300车架与身高?

您好,捷安特OCR5300的车架大小应该选择根据个人身高来确定。以下是建议的车架大小与身高的对应关系:

- XS:155-165cm

- S:165-175cm

- M:175-180cm

- L:180-185cm

- XL:185-190cm

这只是一个建议,最好还是去实体店试骑一下,感受一下舒适度和适合度,选择最适合自己的车架大小。

六、夸克文稿与数据为什么这么大?

夸克文稿与数据这么大是因为夸克是基本粒子中最小的单位,只有极小的体积,同时在高能物理领域中,对夸克的研究需要使用大型粒子加速器等设备,产生的数据量十分庞大,并且需要经过复杂的数据处理和分析。此外,夸克作为物质构成的基本单位,对人类认识物质结构、科学理论发展和实际应用等方面都有着重要的意义,因此对夸克的研究也是一项复杂而重要的工作。

七、身份信息与ocr信息不一致?

因为外国身份证与国内身份证的位置也不一致。

八、捷安特OCR3500大概价钱是多少?

ocr2600 全铝合金最低端套件 ocr3500 全铝合金sora套件 ocr5300 铝合金车架加半碳前叉sora套件 价格这个看车子状况,以全新来说ocr2600最便宜,ocr3500次之,ocr5300最贵,因为是淘汰老款所以价格都不会超过4000。 最后推荐的话是ocr5300碳前叉减震效果确实不错。

九、图像识别与ocr字符识别

图像识别与OCR字符识别是当今技术领域中备受关注的两个重要领域。随着人工智能和机器学习的快速发展,图像识别和OCR技术正日益成为许多行业的核心需求。本文将介绍图像识别和OCR字符识别的概念、应用场景以及相关技术。

图像识别

图像识别是指通过计算机对图像进行分析和理解,识别出图像中的对象、场景或特征等信息的技术。图像识别可以分为图像分类、目标检测与定位、图像分割和图像语义理解等几个方面。

图像识别的应用场景

图像识别技术在各个领域都有广泛的应用:

  1. 安防领域:图像识别技术在视频监控、人脸识别和车辆识别等方面有着重要作用。通过图像识别技术,可以对监控画面中的异常行为进行检测和预警,提高安全性。
  2. 医疗领域:图像识别技术可以用于医学影像诊断、疾病预防和追踪等方面。通过对医学影像进行分析,可以帮助医生快速准确地判断病情。
  3. 交通领域:图像识别技术可以用于交通监控、交通违法检测和智能交通系统等方面。通过对交通摄像头拍摄的图像进行处理,可以实现车辆识别、交通流量统计等功能。
  4. 零售领域:图像识别技术可以用于商品识别、货架监测和购物体验改进等方面。通过图像识别技术,商家可以准确识别出顾客选择的商品,并提供个性化的推荐。

OCR字符识别

OCR字符识别(Optical Character Recognition,光学字符识别)是指将印刷体字符图像转换为可编辑文本的技术。OCR字符识别可以分为文字定位、分割、识别和校正几个步骤。

OCR字符识别的应用场景

OCR字符识别技术在许多场景中有广泛的应用:

  1. 文档管理:OCR字符识别技术可以将纸质文件转换为可编辑的电子文档,提高文档的检索和存储效率。
  2. 票据识别:OCR字符识别技术可以用于票据的自动识别和处理,提高票据的管理和结算效率。
  3. 车牌识别:OCR字符识别技术可以通过识别车辆的车牌号码,实现道路交通管理和违法行为的监测。
  4. 身份证识别:OCR字符识别技术可以用于识别身份证上的文字信息,快速准确地进行身份验证。

图像识别与OCR字符识别的相关技术

图像识别与OCR字符识别的技术基础主要包括以下几个方面:

  • 深度学习:深度学习是图像识别和OCR字符识别的核心技术之一。通过构建深度神经网络模型,可以实现对图像和字符的高效识别。
  • 卷积神经网络:卷积神经网络是深度学习中常用的模型,可以有效提取图像和字符的特征。
  • 循环神经网络:循环神经网络可以处理序列数据,适用于OCR字符识别中的字符序列识别。
  • 目标检测算法:目标检测算法可以用于图像识别中的目标定位和OCR字符识别中的文字定位。

总结起来,图像识别与OCR字符识别是两个在人工智能领域具有重要影响的技术。它们在各个行业的应用场景非常广泛,为提高效率、减少人工成本、改善用户体验等方面带来了巨大的价值。随着技术的不断进步和创新,相信图像识别和OCR字符识别技术将在未来发展出更多的应用,并为我们的生活和工作带来更多便利。

十、抖音的文稿与数据怎么这么大?

抖音的文稿和数据太多了,只需要删除该应用,重新下载,就可以清理文稿和数据了。

1.打开设置图标,进去设置页面后,找到通用选项,打开

2.进去通用页面后,找到iphone储存空间选项,打开

3.进入iphone储存空间页面后,找到抖音的图标

4.进去抖音页面后点击底部的删除应用,可以看到,删除应用之后,抖音的文稿和数据就清空了,之后重新下载就可以了。

dts产品介绍?
如何免费访问国研网数据库?国研网数据库免费入口大揭秘
相关文章