童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

OCR文字识别在股票查询的运用逻辑

7月27日 发如雪投稿
  本文将以行业AI的角度,介绍OCR技术在证券业务中的运用,且详细介绍功能背后的AI技术和技术选型思考。
  一、需求分析
  1。需求背景
  对于股票服务类软件,添加自选股是用户的高频需求,自此之前查询股票是前置步骤,APP中批量查询股票并添加自选股一直是一个无法解决的痛点问题,如果添加几十只股票,需要一只一只的查询添加,操作非常麻烦。
  另一方面,股票业务经过多年的互联网线上发展,线上新手用户已经很难开拓,获客方式是通过提供差异化的服务,吸引其他股票产品用户,并提高用户转化留存,培养用户使用自己产品的习惯。此场景中老用户都有自己的自选股池,批量导入自选股,是提高用户留存的必经之路和关键环节。对于运营转化提升,有非常重要的价值。
  2。为什么使用OCR
  添加自选股的第一步是查询股票,查询股票可以通过三种方式操作:手动输入查询、语音查询、图片识别查询。
  三种查询方式对比如下表:
  从表中可以看出图片识别查询在进行批量操作有绝对的优势。此外,灵活的使用场景,便捷的操作方式,未来可能会逐步成为用户查询股票的高频行为之一。
  3。确定场景和需求
  1)移动端主流场景分析
  在新用户首次使用过程中,会将已经的自选股进行截图,通过相册获取截图进行OCR文字识别查询股票。
  老用户对网上的推荐股票进行截图或拍照,通过相册或相机获取截图或照片进行OCR文字识别查询股票
  在新闻、热点文章中会多只关联股票,通过对相应文本进行截图或拍照,获取图片进行OCR文字识别查询股票。
  2)功能需求及非功能需求
  基于需求场景,OCR识别的图像,多是截图和照片,图片中会有长文本,会有场景复杂的拍照文字识别。
  基于产品功能定义,OCR技术识别语言目前只需支持A股市场股票名称识别,未来随着业务发展有可能要支持港美股。所以,OCR文字识别技术首先要识别中文和数字,未来需要扩展英文识别。手写字体识别是一个发生概率比较低的小场景,所以对手写体识别率要求不高。
  OCR识别出的文字,需要从文本中提取股票名称,文字提取也是必要的过程。
  对于非功能性需求,需要基于使用场景考虑,查询股票虽然是一个高频需求,但用户使用场景不像下单购买那么急迫,对识别的速度、并发量行业平均水平即可,在2秒左右可以接受。识别失败是体验中比较受挫的事情,对用户体验影响大,对常用的印刷体识别准确率要高,至少达到90以上。
  二、产品方案规划
  1。整体功能架构
  〔21图片识别股票名称框架图〕
  基于图片查询股票功能,主要由三部分构成:第一部分是前端交互流程,第二部分是OCR文字识别,第三部分是文字提取。
  1)前端界面交互
  〔22图片识别股票名称界面流程图〕
  2)OCR文字识别
  相比于传统OCR场景(印刷体、扫描文档),移动端OCR场景主要是针对手机拍摄的照片或手机截图进行文字信息提取和识别,考虑到线下用户的多样性,因此主要面临以下挑战:
  成像复杂:噪音、模糊、光线变化、变现
  文字复杂:字体、字号、色彩、磨损、笔画宽度不固定、方向任意
  背景复杂:版面缺失,背景干扰
  以上问题,普遍使用基于深度学习OCR进行解决。
  3)文字提取
  股票名称提取,涉及到从识别的文本中提取文字。
  股票名称有维护中的数据表单,A股市场整体也就2000多只股票,数据量不大,所以通过正则表达式,进行股票名称提取即可。如果从大数据中提取文字,用NLP技术是当前比较普遍的方式。
  2。功能流程图
  〔23图片识别股票名称功能流程图〕
  3。服务接入方式
  批量添加自选股功能是以APP为载体,除了必要的功能及交互之外,大量计算都是服务端进行处理,适合以接口形式获取OCR文字识别和文字提取服务。从性能和体验的角度考虑,相比API接口,通过SDK的调取方式是最好的。
  三、OCR文字识别技术选型
  OCR文字识别是产品方案的核心技术。
  对于OCR文字识别技术,可以从两种途径获得:
  是公司内部自建AI团队,搭建技术框架,准备数据,训练算法,并包装成接口供业务层调用。
  是从外部得到技术支持,调用AI开放平台提供的云服务接口,获得通用OCR文字识别技术。
  实践过程中,两种方案各有利弊,需要从公司资源和业务规划层面评估,哪种方案是最好的,下面来介绍两种方案的实现。
  1。自研发OCR文字识别
  自己团队研发OCR技术,实践中的关键点在于如何设计网络结构和合成训练数据。虽然有公开数据集,但是数据集并不一定完全吻合自身业务,可能需要自建数据集,或多个数据集筛选整合到一起,如何获取高质量的数据集和训练出高识别率的网络结构,是AI技术的团队的核心工作。
  1)数据集
  OCR算法训练最有难度的是数据,一方面是训练数据集大。普遍应用的深度学习OCR技术,需要大量的数据来保证训练效果,此外,中文汉字库非常大,一级字库有3755个汉字,再加上三级字库,就有上万个汉字,印刷体汉字还有9种常用的字体,手写体汉字更是千人千面,这些组成一个庞大的数据集。
  另一方面数据集图片种类多,数据标注成本高。OCR场景图片识别会有很多因素影响识别效果,如复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符变现、多语言混合、文本行复杂版式、检测框字符残缺等等,有效的数据集需要包含这些关联因素。
  根据功能定义,OCR文字识别技术需要识别中文和数字,兼容印刷体识别和手写体识别,未来需要扩展英文识别。
  对于手写体识别数据集,选择中科院自动化研究所的公开收集。对于印刷体识别数据集获取方式是:公开数据集合成数据,公开数据集主要来自ICDAR比赛和AI研究机构。
  除此之外,需要自己合成数据,来进行数据增强,对于数据增强需要考虑字体、形变、模糊、噪声、背景变化等因素。合成数据可以弥补深度学习数据量和数据多样性不够的问题,使训练出来的模型泛化能力更好。
  一般我们获取到的是最原始的数据集,会有不同的格式,在图像深度学习训练中我们一般都会把原始数据集转化为统一的数据格式以方便后续的网络训练。
  2)框架工具
  OCR技术已经从传统OCR发展到深度学习OCR,并已成为主流趋势,所以需要选择深度学习框架和工具进行算法训练。
  常用工具有下面几种:
  Tesseract:
  Tesseract是一款很流行的开源OCR引擎,它的特点是开源、免费、支持多语言、多平台,是一直以来使用比较普通的OCR工具,可以快速搭建图文识别系统。它可以读取各种格式的图像并将它们转化成超过60种语言的文本,但是中文的识别效果不理想,需要使用自己的库进行训练,开发符合自身需求的OCR引擎。
  以前的Tesseract是基于传统机器学习的引擎,现在Tesseract(v4)最新版本支持基于深度学习的OCR。底层的OCR引擎使用的是一种循环神经网络(RNN)LSTM网络,准确率显著提高,更符合当前的深度学习OCR趋势。因为使用的是别人的OCR引擎,所以自己优化网络结构提高识别率的灵活性差。
  Tensorflow:
  Tensorflow是非常流行的深度学习框架,尤其是对图像处理有很好的效果,基于其深度学习库,可以很好的进行OCR文字识别训练。
  使用Tensorflow虽然没有Tessract效率高,但是有更高的灵活性和探索性,基于深度学习库的使用,可以设计出更适应业务需求的网络结构,更好的提高OCR识别效率。对于研发能力强的团队,更倾向于使用基础框架,自己设计网络结构。
  OpenCV:
  OpenCV是一个跨平台的开源计算机视觉库,提供基本的计算机视觉、图像处理和模式识别的开源项目,实现了图像处理和计算机视觉方面的很多通用算法。
  OpenCV模块支持Caffe、TensorFlow、Torch、PyTorch等深度学习框架应用于OCR领域,可用于检测、识别自然场景图像中的文本。OpenCV在数据增强方面价值尤其突出,通过合成数据集,训练算法,提高OCR识别率。
  3)框架设计
  设计网络结构是OCR实践中的另外一个关键点。识别文字建模为一个多分类任务,比如3755个文字识别就需要3755个类别的分类任务,实际训练中可能有上万个分类。
  深度学习OCR框架通常包括文字检测和文字识别2个模块,文字检测是通过检测算法定位到文本行,然后通过文字识别算法阅读出文本行的内容。
  【31深度学习OCR框架】
  文字检测是场景文字识别的前提条件,要在杂乱无序、千奇百怪的复杂场景中准确地定位出文字的位置,需要高效合理的文字检测框架支持。适用于通用场景的主流文字检测框架有两种FCN和CTPN,对广泛应用的FasterRCNN框架适用于特定场景文字检测,如身份证识别、银行卡识别、发票识别等场景。
  FCN:
  FCN是基于全卷积网络的文字检测方法,在通用场景的文字检测领域有很好的效果,尤其是背景复杂的户外广告牌识别。
  FCN框架基于全卷积网络的方法,同时使用分割(Segmentation)和边界框回归(BoundingBoxRegression)的方式对场景文字进行检测,直接产生单词或文本行级别的预测(旋转矩形或任意四边形),通过非极大值抑制产生最终结果。
  【32基于FCN的文本检测流程图】
  【33基于FCN的文本检测网络结构图】
  CTPN:
  CTPN是基于联结文本建议网络的文字检测方法,与传统文字定位方法相比,通过CNN提取深度特征,并结合RNN进行序列学习提升文本检测效果,大幅提高文本框边界检测精度,尤其对于长文本(水平及具有一定倾斜角度的长文本)的检测。
  CTPN算法框架主要思路是:将文本行识别看做一个序列识别问题,通过在卷积网络的特征图上提取Anchors,并计算每个Anchor的得分,并在计算得分的过程中,综合利用上下文信息、每行的文本序列特性,采用RNN进行建模以判断文字的得分。
  【34基于联结文本建议网络的文本检测模型架构图】
  【35经典的CTPN网络模型架构图】
  在文字识别过程中,将整行文字识别问题归结为一个序列学习问题。
  基本思路是:CNN与RNN结合,CNN被用于提取有表征能力的图像特征,而RNN处理序列问题,学习上下文关系。
  文字识别框架近两年比较受关注的主要有两种:一种是CNNRNNCTC的方法,另一种是AttentionmodelCNNRNN。
  CNNRNNCTC:
  文字识别可建模为时序依赖的词汇或者短语识别问题,基于联结时序分类训练RNN的算法。
  相比于传统OCR,其识别效果更好。CNNRNNCTC网络结构包含三部分,从下到上依次为:
  卷积层,使用CNN,作用是从输入图像中提取特征序列。
  循环层,使用RNN,作用是预测从卷积层获取的特征序列的标签(真实值)分布。
  转录层,使用CTC,作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。
  【36CNNRNNCTC算法模型架构图】
  AttentionmodelCNNRNN:
  AttentionmodelCNNRNN是基于注意力模型的文字识别方法,其实这两大方法主要区别在于最后的输出层(翻译层)即怎么将网络学习到的序列特征信息转化为最终的识别结果。
  这两大主流技术在其特征学习阶段都采用了CNNRNN的网络结构,CRNNOCR在对齐时采取的方式是CTC算法,而attentionOCR采取的方式则是attention机制。注意力模型在广告图像、自然场景图像等极具挑战性的场景取得了很好的端到端识别效果。
  4)算法测试
  衡量一个OCR算法性能的常用指标包括精准率、召回率、F值和识别速度。
  精准率与召回率:
  精准率可以理解为:模型识别字符“A”,最终识别成功的数量占所有被识别为字符“A”的比例。精准率是算法最重要的标准之一,精准率测试除了对字符进行测试外,还对条目进行测试。在印刷体识别中OCR的识别率比较高,普遍达到90以上,但在自然场景文字识别中,获得理想的准确率面临着非常大的挑战。
  计算公式为:
  精准率TP(TPFP)
  召回率可以理解为:模型识别字符“A”,最终识别成功的数量占所有字符“A”的比例。召回率与精准率在一般情况下是矛盾的。
  计算公式为:
  召回率TP(TPTN)
  F值(也称F1值):
  精准率和召回率是互相影响的,理想情况下肯定是两者都高最好,但是一般情况下准确率与召回率是矛盾的。召回率高、准确率低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。
  当精准率和召回率矛盾的情况下,单一依靠某个指标并不能较为全面地评价一个模型的性能。如何评估一个模型,常见的方法是FMeasure(又称FSorce),通过引入F值作为综合指标,评价模型的性能,F值是精准率和召回率的加权调和平均值。
  FMeasure方法中,常用F1值作为精准率和召回率的加权调和平均值,实践中如果我们想创建一个具有最佳的精度召回率平衡的模型,那么就要尝试将F1值最大化。
  F12精准率召回率(精准率召回率)
  举例说明精准率、召回率、F值:
  OCR模型的测试方法为比较图片中识别字符与标注的字符是否一致。例如:识别100个字符,标注是“A”识别为“A”的情况有30次,标注是“A”没有识别为“A”的情况为5次,标注不是“A”被识别为“A”的次数有8次。综上所述:TP为30次,FN为5次,FP为8次。
  【37文字识别精准率、召回率与F值】
  通过公式计算字符识别的精准率、召回率、F1值:
  精准率:303080。79
  召回率:303050。86
  模型的综合评价F1值:20。790。860。790。860。82
  在OCR识别中,不管是FN和FP都是识别错误,对业务场景的影响没有区别,不像人脸识别,高召回率意味着模型风控更严格,所以OCR应该更关注模型的F值,尽可能取最大F值。
  识别速度:
  深度学习OCR的识别流程是输入图片,进行文字检测识别文字位置,然后进行文字识别,输出识别文本结果。整个过程算法识别速度,一般在200ms2s,真实场景中识别速度会受图片大小、字数多少及网络环境影响。
  5)模型封装
  模型训练好,通常还需要对模型进行裁剪迁移到实际运行环境中并封装成SDK接口供前端调用,其中还涉及到模型在真实环境中参数的跳转和优化。
  2。第三方OCR云服务接口
  分析完自研发OCR技术的实现流程后,接下来分析第二种实现方案,接入外部AI开放平台的OCR接口实现产品功能。对于接入外部接口,要从多个方面来衡量OCR系统,除了关注指标识别准确率、识别速度、接口的稳定性、抗压性、易用性及用户界面的友好性等因素外,还要关注成本因素。
  1)OCR技术比较
  对行业知名的AI开放平台百度、腾讯、阿里、有道,进行通用OCR文字识别分析比较:
  百度通用文字识别:
  腾讯通用印刷体识别:
  有道通用OCR:
  阿里云通用文字识别:
  2)通用OCR服务选择
  根据功能定义、产品规划、场景需求和成本费用,比较后,选择百度通用文字识别接口。因为其常用文字的印刷体中文识别率比较高,识别速度和并发量都是可接受的范围,对于文字位置识别,生僻字识别等功能没有太强需求。
  同时,百度通用OCR价格也是比较有有优势的,根据每日的接口请求数据估算,提供的免费额度很充分,性价比很高。
  最重要的因素之一是:其提供移动端SDK接口,可以更灵活的设计前端界面和交互。
  3)小结
  使用第三方技术接口,有很多局限性,OCR技术的优化升级依赖第三方公司,无法根据自己的业务场景优化OCR识别效果。另一方面,使用第三方接口,产品测试主要是常规的接口、整个系统联调测试,OCR文字识别算法测试精细度受限。
  四、方案选择
  通过两个技术方案的分析,自己建立AI团队,训练出的算法会跟满足自身产品的需求,识别效果更好。但整个AI开发过程的周期是比较长的,同时团队的算法工程师大多是做大数据和量化投资方向的,没有专门OCR技术经验,无法保证短时间内设计出合理的OCR网络结构。
  在综合考量了时间成本、人力成本、技术难度等各方面的因素后,决定通过第三方云服务接口来获取OCR技术。
  五、总结
  行业AI方向的业务中,由于人才和成本的限制,大多数是没有自建AI算法团队,很大程度上依赖AI开放平台上的技术能力。这个时候需要产品经理去了解各种AI开放平台的技术能力,各自的技术优劣势,做好技术选型。
  作为业务层产品经理虽不参与AI技术研发,还是要了解AI技术实践,一是为功能规划选择最有利的,便于业务层功能的设计开发;二是对领导可以阐述清楚,获得领导层的支持。
  参考资料
  《AIin美团》深度学习在OCR中的应用
  OCR技术浅析吴兆阳
  OCR检测与识别
  【OCR技术系列之七】端到端不定长文字识别CRNN算法详解
  ICDAR2013文本检测算法的衡量方法(一)EvaluationLevels
投诉 评论

AI产品经理思考:智能保顾现状讨论本文主要讨论了智能保顾概念、现状和未来发展。开始之前我们先思考三个问题:什么是智能保顾?智能保顾现处于什么阶段?智能保顾的发展方向是什么?一、什么……白话大数据:大数据与机器学习在产品设计中的应用作为产品经理我们要明确自己不是在从事一种机械式的劳动,我们要不断去思考新技术与产品结合的可能性,来不断提升用户效率降低用户成本。通过学习与接触新知识,我们将会不断提升自己的认知……OCR文字识别在股票查询的运用逻辑本文将以行业AI的角度,介绍OCR技术在证券业务中的运用,且详细介绍功能背后的AI技术和技术选型思考。一、需求分析1。需求背景对于股票服务类软件,添加自选股是……不了解“安防AI”的这些痛点,怎么能切实落地?“安防AI”要实现规模性落地,首先要搞清楚落地场景中的痛点需求,然后再切实地去解决这些痛点,找准痛点下手往往能更加有用。有人说,2019是AI场景落地应用元年,从当前AI……智能化转型,传统办公模式变革继续发酵在移动化趋势还在继续的同时,办公智能化的趋势又开始出现,传统办公模式正在经历多级跳。2019年6月11日,为期三天的第五届亚洲消费电子展(CESAsia)在上海召开,展会……机器学习特征工程特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。简单来说就是算法的前期处理阶段,经过特征工程处理后的……趋势声音的未来:即将永远改变的行业语音技术的发展越来越迅速,并且越来越智能,亚马逊的Alexa、谷歌的智能助手、微软的Cortana等语音服务,这些都正在影响着我们的生活语音用户界面技术变得越来越智能、越……AI老师“搅局”在线少儿英语行业,真人外教要被替代了吗?教育可以分成两件事,教和育。“教”是指教学,让孩子们掌握技能;“育”是指孩子们怎么学会更好地运用技能,帮孩子们育人。在教学环节里AI可以代替90的工作,在育人环节里系统很难起到……如何让算法解释自己为什么“算法歧视“?人工智能作为一项新技术,正在改变着人类社会的原有规则和运作方式,人类也逐渐衍生出了害怕被AI支配的恐惧心理,在某种程度上来说,这种恐惧正是源于算法的不透明性。一、算法的可……企业应用历程回顾及未来展望(二):AI技术的结合本文具体分析了企业应用和人工智能产业结合的一些关键要素,从行业整体现状,流程和人才培养上提供了一些可以思考的要点,同时以企业级聊天机器人为例,阐述了具体的应用场景落地方式,希望……如何做一名AI产品经理AI这个概念在这几年都非常火,风口之下,有许多人都想跻身这个领域,成为一名AI产品经理。笔者通过自身经验告诉我们,想要做一名AI产品经理,系统掌握数学和算法知识是必备步骤之一。……AI能听懂你的情绪了,人机交互会变得更好吗?AI识别情绪主要有两种途径,一是视觉情绪识别,二是语音情绪识别,除了这两种识别途径之外,文本识别和生理信号(脑电波、呼吸、皮肤阻力等)也是AI进行情绪识别的方法。第一次使……
BOSS直聘三季度财报:营收月活保持稳定付费企业客户数达40【TechWeb】11月24日盘前,BOSS直聘(NASDAQ:BZ)发布了2021年三季度未经审计的财报。财报显示,BOSS直聘三季度实现营收12。11亿元,同比增长105,……电商行业之风往哪吹?“小鹅种草号”给出了最好的答案!电商还能怎么做?小鹅种草号开启了私域运营新模式“不玩直播带货,还做什么电商?”最近微博上一位店主的话,引起不少电商从业者的共鸣。的确,这两年直播带货是越来越火……一年运营巨变:许多品牌正考虑重新开始做私域!见实正在完成自己的调研报告,在进行4万多家企业的私域需求调研后看到,许多企业在重新讨论自己的私域策略和架构搭建,在快速往前跑的时候,这些越听起来务虚的东西,越掣肘着业务的速度。……丝芙兰借品牌小游戏2个月获客50万!小游戏和游戏化互动玩法越来越深度介入到私域运营中来,尤其是加粉环节。如丝芙兰曾通过一款可嵌入小程序商城的小游戏,用两个月时间带来50万新注册用户,拉新成本从此前最低的5元……一年运营巨变:许多品牌正考虑重新开始做私域见实正在完成自己的调研报告,在进行4万多家企业的私域需求调研后看到,许多企业在重新讨论自己的私域策略和架构搭建,在快速往前跑的时候,这些越听起来务虚的东西,越掣肘着业务的速度。……支付宝内测App首页智能服务卡片功能有望面向景区行业开放站长之家(ChinaZ。com)11月11日消息:今日,站长之家从2021环球旅讯峰会上获悉,支付宝正在内测App首页智能服务卡片功能,可基于用户场景聚合展示多种服务信息,并有……流量的终局是私域各位村民好,我是村长!公众号的打开率真的越来越低了。这已经是绝大多数博主公认的事实,虽然我们不排除一小部分作者依旧在继续涨粉,甚至保持10万的阅读量。但普遍来……像闺蜜一样运营超级用户:美事说KOC才是私域关键仅就私域而言,当下有许多显性结论,如女性左右了私域电商绝大部分商业模式、发展进程。左右了绝大部分行业和业务的业务增长。KOC也是当下私域的关键节点,在此之上(我们平时也习惯用“……月新增用户70万、客单价提高30、支付宝小程序“收藏”、“安站长之家(ChinaZ。com)11月15日消息:11月15日,新希望乳业支付宝小程序数据显示,最近3个月其小程序月均新增70万用户,且会员用户的复购率高达70。在同品类的商家……腾讯开放了!微信支付小程序支持云闪付功能上线快科技获悉,微信支付今日宣布,可支持用户通过云闪付付款至微信支付商户,用户可以在微信支付商户平台开通云闪付付款到商家”功能,并可以对该功能进行相应管理。此举也意味着,腾讯……腾讯视频、微信读书之后腾讯又一款APP全面支持云闪付11月16日,腾讯动漫App宣布全面支持云闪付,成为继腾讯视频、微信读书之后第3个抢先开启互联互通的腾讯系App。当用户在腾讯动漫App进行充值或付款时,可自行选择微信支……做私域前,先问自己五个问题。各位村民大家好,我是村长。村长我在《流量的终局是私域》一文中和大家说到,不管外部的流量如何多姿多彩,最终都难逃流量投放的竞争。在兴趣算法和交易额的影响下,纵然你有几……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界