范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

常用验证码标注ampampamp识别(数据采集预处理字符图切割)

  来源:Python爬虫与数据挖掘
  作者:Python进阶者一、前言
  上一篇文章小编给大家讲解了需求分析和实现思路,Python项目实战篇——常用验证码标注和识别(需求分析和实现思路),这篇文章继续沿着上一篇文章的内容,给大家讲解下数据采集/预处理/字符图切割内容。二、数据采集
  数据采集:根据图片验证码链接进行批量下载图片,最开始时下载个20张先进行手动改文件名进行标注,下载这块代码编写不难,这里不贴代码了,见image_download.py文件。三、预处理
  预处理:根据需求分析中的字符切割描述,针对笔者的图片验证码案例情况,需要先进行常规验证码图片预处理,预处理通过OpenCV库实现,处理过程为:原始图->灰度图->中值滤波->二值化->轮廓检测绘制(部分情况才可以加)->字符切割填充
  大概过程功能简单描述如下,详细原理可以参考OpenCV相关文章和视频,引用链接:[3.OpenCV文章专栏](https://blog.csdn.net/yukinoai/category_9283880.html) [4.OpenCV-Python视频](https://www.bilibili.com/video/BV1tb4y1C7j7)
  原始图(RGB)转灰度图:去除颜色信息,减少图片大小,单通道值方便滤波处理。读者可以脑洞一下,不去除颜色信息,能提取到指定字符颜色的轮廓吗?
  灰度图中值滤波:进行噪音去除,取中间像素平均值
  二值化:只留下0、255二种值,方便轮廓检测
  轮廓检测:这一步主要用于提取字符轮廓矩形坐标,不适合字符挨得特别紧的情况
  字符切割填充:根据生成的字符轮廓图片矩形坐标进行切割再填充对齐到指定宽高
  具体执行效果如下:
  下面是预处理过程部分核心代码,详细代码见image_split.py文件。def pre_process_image(img, file_name):     # 去除边缘     img = img[2:-2, 2:-2]     # print(img.shape)       #得到灰度图     gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)     # show("gray", gray)       #去除噪音     blur = cv2.medianBlur(gray, 3)     # show("blur", blur)       temp = gray.mean().item()     #二值化     ret, threshold = cv2.threshold(blur, temp, 255, cv2.THRESH_BINARY)     # show("threshold", threshold)       #保存二值化图片     if IS_SAVE_FILE:         cv2.imwrite(DST_IMG_DIR + file_name + "_threshold.png", threshold)     return threshold
  执行图片预处理程序后具体效果图1-3如下:
  轮廓检测绘制结果1:
  根据图片轮廓进行字符切割结果2:
  根据字符切割图片进行文件分类结果3:
  以上就是字符图片切割的全部过程了,核心过程代码如下:def split_image(file_path):     file_name = get_file_name(file_path)     img = read_image(file_path)       #验证码预处理     threshold = pre_process_image(img, file_name)       #查找轮廓边界列表     contours = find_counters(threshold)       #过滤合适的轮廓矩形列表     rect_list,result_rect = get_filter_rect(contours, img, file_name)       #分割矩形图片     return split_rect_img(file_path, threshold, rect_list, result_rect)
  详细代码可以阅读源码,这里说一下这个过程中笔者编写预处理代码遇到的几个问题:部分图片轮廓检测可以检测到多个轮廓,部分图片只有1-2个轮廓,部分可能一个轮廓都没有,这里代码进行了相应的调整处理,比如过滤大的外部轮廓和较小的内部轮廓,根据剩下的轮廓进行坐标排序,根据部分坐标得到所有字符轮廓得到4个字符轮廓图片后,每个图片大小不一致,需要进行大小补齐,这个宽高参数需要根据数据集进行调整
  以上就是数据采集/预处理的实现过程了,这里稍微说下学习OpenCV相关知识过程的情况,笔者是采用文章+视频间断性学习,大概是20-40个小时左右,然后再开始写具体字符图片切割的代码,读者可根据自己的时间安排学习速度,建议工具类的东西是快速学习,现学现用。好的,接下来介绍高效率、可复用的通用图片验证码数据标注功能实现。四、总结
  我是Snowball。这篇内容主要讲解了常用验证码标注&识别的数据采集/预处理的实现过程。下一篇文章,小编给大家介绍高效率、可复用的通用图片验证码数据标注功能实现。

留给后来者的比特币不多了今天第1900万个比特币被挖出,当前仅剩200万枚未产出,而1200万枚BTC已经超过1年未移动,被长期持有者占有。华尔街投行CowenCEO表示客户对数字资产的需求很大,高盛将于安卓版手机微信接龙如何发起日常生活中,手机微信中拥有一个接龙功能,可以帮助我们统计微信群众的一些信息和情况,所以很多用户想要知道微信接龙怎么发起,这样就可以帮助自己更好的了解微信群众的所有详情,下面就分享给苹果iPhone7plus升级iPhone13proMax体验心得,有惊喜也有失望笔者手中的iPhone7plus已经使用了4年多时间,其中更换了一次电池,最近一年因为手贱升级了is15系统后,手机出现明显的卡顿杀后台app闪退等问题,因为用习惯了iOS系统,换三星GalaxyS21降2100元你还不买吗?4800mAh骁龙888前不久三星分别召开了三星S22系列手机和三星A系列手机的新品发布会,虽然说今年三星给广大消费者带来的诸多新品,整体配置还算是比较不错的,但是溢价非常严重,所以小芳我是不建议大家用首中兴Axon40Ultra升级20G1TB存储,5200mAh120W快充,太强了中兴今年发布了中兴Axon40Pro,ultra版本和标准版都还没有上线,但是根据曝光的消息,中兴Axon40Ultra已经开始积极准备了,还有中兴Axon40依旧沿用屏下设计,而小米MIXFOLD2黑科技泄露,小米11沦为牺牲品价比老人机让路4月3日消息据小米网消息,小米MIXFOLD2的关键功能已经泄露,根据小米码的代码信息,小米MIXFOLD2将是全球首款可360折叠的双屏折叠手机相反的方向。值得一提的是,由于小米关于iPhone13,我来说一下真实的使用感受吧iPhone曾经是让很多人,望尘莫及的手机。曾经一度受很多人的追捧,我记得以前iPhone刚流行不久的时候,有那么一些人觉得手里有iPhone手机,走出去很有面子。其实,这样想的人美团2021年亏损155亿钱到底让谁赚走了?骑手?商家?3月25日晚,美团公布2021年第四季度财报和2021年报。2021年,美团全年营收1,791亿元,同比增长56。但盈利状况却很糟糕,全年净亏损155。7亿元。消息一出,很多人都不人类下巴竟是从鱼鳃进化而来?下巴强壮敏捷有利处理多样食物据最新一期科学进展杂志刊发的论文,英国科学家发现,古人类的第一个下巴从鱼鳃进化而来,变得强壮和敏捷。研究人员认为,咬合的进化非常迅速,这被证明对人类和动物至关重要,因为它使他们能够中国量子计算啥水平?比日本快了100亿倍,甩了美国好几条街量子量子计算已经成为未来计算机发展的新方向,因此美欧的发达国家都开始在这一领域进行研究,那么如今的中国量子计算啥水平?足足比日本产品快了100亿倍,直接甩了美国好几条街,中国之所以华为5000mAh新机亮相,鸿蒙3。0100W,处理器是亮点鸿蒙3。0亮了,自2022年3月之后,鸿蒙的下一步计划也随之浮出了水面,并且这次计划还是由央视透露的。现在鸿蒙3。0已经成为网友热议的话题,它会给消费者带来怎样的表现确实很值得期待
下架三个月仍无法恢复运营,滴滴遭遇慢性死亡对于一家企业而言,被人骂不是最惨的,惨的是连骂的人都没有!特别是互联网行业,悄无声息是最大的惩罚。滴滴,这家长期占据出行市场份额90以上的独角兽企业,在7月初出事之后,到现在为止已七大智能产品力加持MGONE引领燃油车智能化新时代在汽车圈,谈到智能化,大家脑海中率先浮现的往往是纯电动高价位蔚小理等关键词,确实蔚小理们推出的电动车产品,特别是高端电动车产品,让不少消费者享受到了最新智能科技,这也是造车新势力给高通倾心5G毫米波技术研发,毫米波在5G时代拥有不可替代地位高通是行业内最早开始推进毫米波技术研发的无线科技企业之一,目前,高通已经能够提供高度优化的5G终端半导体解决方案,涵盖了SoC调制解调器完整的射频前端到天线,且支持6GHz以下频段乌镇观察乌镇批发的无人车,推开了5G商业化时代大门钱江晚报小时新闻记者张云山2015年,百度Apollo无人车亮相乌镇,曾是第二届世界互联网大会的热点之一。当时乘坐的记者,下来后有点站不稳,心脏砰砰跳,因为急刹车会把人晃晕,体验堪聚焦2021年世界互联网大会乌镇峰会张勇为共同富裕提供更多可复制可衡量可持续机制9月26日,由国家网信办和浙江省政府共同举办的2021年世界互联网大会乌镇峰会召开。开幕式之后,举行了全体会议,来自全球各地的嘉宾通过线下视频和线下两种方式,围绕迈向数字文明新时代马云,马化腾捐款也不少,为什么说只有曹德旺是真正的慈善家?很简单,他们的企业名称都是高科技,并且是外资股份,那么你干的是与企业名称相符的高科技工业没有!若企业作的事与名称不符,是收割国家和老百姓的血汗钱,是害国害民,那么所得不应属个人所有未来出行大禹云治城市体检中国电科创新成果亮相互联网大会一网统管平台智慧气象系统展示。中国电科供图中新网北京9月26日电(孙自法李晓辉)记者26日从中国电子科技集团有限公司(中国电科)获悉,在2021年世界互联网大会乌镇峰会期间,作为网三种家用空调形式大PK随着时代的发展,消费者使用空调的方式有了新的变化,有选择家用分体空调的,有选择家用小多联的,也有选择户式水机的。为了分清楚家用空调家用小多联和户式水机在耗电量方面的区别,分别对这三首位iPhone13碎屏用户已出现AppleCare重要性凸显9月24日,iPhone13系列首批订单正式全面开始发货,果粉们已陆续收到新手机。有些果粉新机到手爱不释手开心晒单,也有果粉晒出乐极生悲的心情。据报道,目前已经有网友喜提首碎,在刚2021年最值得买的笔记本华为MateBook13s14s将开售工欲善其事,必先利其器。PC作为生产力工具,在日常办公教育和娱乐等场景都有不可替代的作用。在华为的全场景智慧生活战略中也是极为重要的发动机角色,依靠多屏协同的互联优势,构筑起了属于世界互联网大会热议数据开放流通释放数据价值难在哪?数据共享与流通越来越成为数字经济发展的焦点问题。9月26日,2021年世界互联网大会网络数据治理论坛在乌镇召开。会上,多位专家分享了对于此话题的看法。有专家认为,数据的管理和使用权