范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

通讯地址查询邮政编码系统设计论文

  随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。
  1 现状分析
  随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,这些数据都需要用户提供,当前一些电子商务网站和物流行业的主要的做法如下:
  (1)让用户手工输入完整的地址和地址对应的邮编。
  (2)通过下拉列表提供省,省下面地级市和地级市下面的区县,这些比较固定的地址让用户选择,余下的地址和邮编由用户手工输入。
  (3)保留用户输入的地址和邮编,方便下次再次使用,即如果本次输入的地址和邮编之前已经有了一份,直接选中,就避免了让用户重复输入。
  这些做法主要存在的问题如下:
  (1)很多情况下用户未必知道自己输入的地址对应的邮编。
  (2)由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字,多个汉字拥有相同的读音,多数基于拼音的输入法都是基于统计的语言模型),再加上地址中存在的一些生僻字的原因会导致输入的地址存在错别字。
  (3)由于地名存在别名现象,即同一个地名有多种叫法,例如"广东省"的别名有"广东"和"粤",因此他们识别不了对同一个地名的不同描述。
  (4)有些情况下用户无法输入完整的地址,当输入的时候一脸茫然和无助。
  (5)由于地址存在变更和搜集不完全的问题,这些网站的数据往往得不到更新。
  当前一些其他的网站能够解决第一个问题,即帮助用户得到地址对应的邮编。但是他们往往采用数据库技术来实现的系统,对于低于区县级别的地址,往往采用字串模糊查询(like %XXX%)的方式参与检索,由于性能的原因此种方式对于大数据量的查询效率很差。另外基于数据库实现的查询使得用户的输入格式和内容受到了很大的限制,比如:
  用户首先选择省级行政区(包括省、特别行政区、自治区和直辖市)的名字,其次是选择地级行政区(包括地级市、自治州、地区和盟)级别的名字,然后再县级行政区(包括市辖区、县、旗、特区、林区、自治县和自治旗等)级别的名字,最后用户输入乡镇级别及村庄道路等。查询的输入过程非常机械。
  另外基于数据库的查询模式,要求地址格式全部满足四级,即省级,地级市级,区县级,然后是其他具体地址。但是并不是所有的地址都满足此种情况,例如直辖市下和省与直辖县或省直辖县级市之间就没有地级市级,一些特殊的地级市没有区县级,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市;他们的解决办法,起个其他的名字代替,例如"直辖区县","市辖区","省直辖县"等,但是查询的结果中一般也包含这些非真正地址的数据。
  本方法尝试解决如下问题:
  (1)帮助用户输入,即提供输入提示功能(类似Google Suggestion)。
  (2)采用基于搜索引擎技术使得用户输入的查询格式更加自由,并且通过一个比较短的地址片段就可以找到完整的地址。
  (3)基于命名实体识别技术能够识别出用户输入地址元数据的级别,从而实现地址的逐级查询(例如已知一个地级市,给出该地级市下所有县级行政区的名字和对应的邮编;已知一个省的`名字,给出该省下所有地级行政区的名字和对应的邮编等)。
  (4)自动从互联网上抓取地址数据,完成参考数据的更新。
  (5)对不用来源的参考数据进行校验,识别出有问题的参考数据,使得参考数据更加准确。
  (6)有时候由于参考数据在乡镇级行政区级别及以下级别上收录得不是很全,本方法可以通过地址补全方式完善查询结果。
  (7)实现查询结果地址的切分和级别标注,方便用户灵活使用结果。
  (8)将地址和对应的邮编加密到二维码中,方便用户通过二维码扫描软件直接获取完整的地址和邮编。
  (9)将用户的检索结果链接到知名的地图厂商(百度,谷歌,搜狗地图等)获取相关地址的经纬度数据。
  2 系统设计
  2.1 总体架构设计
  本系统的总体架构如图1所示。
  从图1邮编查询系统的总体架构图可以看出,该系统需要三种数据:
  (1)用于通过通信地址查询邮政编码的通信地址和邮政编码对应关系的数据。
  (2)用于输入地址提示的标准化的通信地址数据。
  (3)用于地址切分,地址标注,命名实体识别和Query语句生成的地址元数据字典数据。
  第一种数据:通信地址和邮政编码的对应关系,可以从一些数据比较新而且数据比较标准和完整的邮编查询网站上,利用基于种子的网络爬虫和信息抽取技术抓取相关数据。
  第二种数据:标准化的通信地址数据,一种来源是第一种数据去掉邮政编码后的通信地址数据,第二种来源,从维基百科和国家统计局网站上,最新的有关中国行政区划上的网页上利用爬虫技术和信息抽取技术抽取得来。
  第三种数据:地址元数据字典数据,源自维基百科和国家统计局有关中国行政区划的地址元数据,以及通过地址切分和识别技术从完整的通信地址中获得。
  地址元数据包含的数据主要有:省级行政区名(包括省、自治区、直辖市和特别行政区)、地级行政区名(地级市、自治州、地区、盟)、县级行政区名(包含市辖区、县级市、县、自治县、旗、自治旗、特区和林区)、乡级行政区名(包括乡、镇、街道、苏木、区公所),其他地址数据(包括道路名、村庄名、小区名、建筑物名和广场名)等。
  2.2 地址查询编码过程设计
  地址查询邮编索引结构如图2所示。
  其中地址的最低等级域(Level Field)包含的数据值如下:
  (1)省级行政区级(包括省、自治区、直辖市和特别行政区),用province表示。
  (2)地级行政区级(包括地级市、自治州、地区、盟、直辖市辖区),用city表示。
  (3)县级行政区级(包括市辖区、县、旗、特区、林区、自治县和自治旗等),用district表示。
  (4)乡级行政区级(包括乡、镇、街道、苏木、区公所),用town表示。
  (5)低于乡级行政区级,用all表示。
  一个地址文本,其对应的最低地址等级域的值计算如下:
  (1)首先对地址文本做预处理,预处理包括删除多余的空格,全角字符转换成半角字符。
  (2)其次是地址切分和地址标注。
  (3)接着是地址命名实体识别,获取最终的地名实体标注序列。
  (4)然后根据规则计算出此地址文本的最低地址等级的值。
  (5)将最低地址等级映射到最低地址等级域的值:1 province;2 city;3 district;4 town;0 all。
  2.3 地址解析过程
  本系统是基于开源的全文搜索引擎工具包Lucene实现的系统,中文分词模型采用的是二元模型(bigram)。为了提高搜索的精度和排序的质量,需要对输入的文本进行解析,解析的结果是生成相关的Query语句。因此整个流程为首先对用户输入的文本进行预处理,切分,标注和地名实体识别,识别出不同级别的地名,然后对不同级别的地名分别用半角的双引号"""括起来生成PhraseQuery查询语句,并赋以不同的权值,权值的设定应遵循如下原则,已被收录到字典里的地名(即确定被识别的地名)其对应的权值要大于未知的地名。举例如图3所示。
  图3中"29号"是不能识别的地址,因此其对应的权值W5设置的值要比其他的权值小。通常情况下W5的值一般设置成1.0,其他确定已被识别的地址对应的权值的值一般大于1.0。
  接着用地址的标注等级序列获得地址的最低标注等级,为了能够支持地址的分级查询(仅限四级以上的地址),即:搜索的结果首先是当前地址的标准形式,其次是当前地址等级下的直属行政等级(即子等级)的所有地址,然后才是更下一级的地址。例如:当输入"深圳市"时,排在第一个的应该是"广东省深圳市",其次是"深圳市"下的直辖区县,然后是区县下的乡镇街道,最后是道路,小区,村庄等。系统在最低标注等级映射到最低等级域上要做分级查询处理,具体做法是:获得当前最低等级及下属的等级域的值,然后按照逐级递减的方向赋上递减的加权值。规则如下:
  (1)1 province city;
  (2)2 city district town;
  (3)3 district town。
  当用户提交查询请求后,系统会返回查询的结果,并把与用户输入的地址文本最相似的地址排在第一位。由于参考数据搜集的不是太全,加上每年都有新增的建筑,道路,小区等,还有一些行政区划的变更等等,使得排在第一位置上的地址中区县位置之后的地址和用户输入的地址有出入,本系统采用地址补全技术,对最相似的返回结果进行改造,使得更接近用户的要求。
  2.4 地址补全
  地址补全是根据用户的输入来完善查询结果的技术,使得结果更贴近用户的需求。地址补全主要用在某一级别的地址很难搜集全,而且新增量比较大,主要集中在四级和五级地址上。地址补全的条件时用户输入的地址文本其地址级别的顺序是正常的,即不存在一二三级地址出现在四级或者五级地址之后。识别出用户输入的地址级别中四级地址及以后的部分,拼接到搜索结果最相似的那条地址中三级地址之后。
  3 总结
  本文设计的系统是用来实现地址查询编码这一功能的。在分析了现有系统情况之后,使用了地址解析、补全、查询等技术,来满足实际生产的需要。实际使用情况显示本文提出的诸多解决方案能够很好地满足需求。

关于律师事务所文化建设的几点浅探及思考引言律师事务所怎样才能保持稳定和持续发展,并最终走上司法部提出的规模化专业化品牌化国际化的发展方向?这是一个一直萦绕在司法行政和所有律师脑海中的话题。正所谓仁者见仁,智者见智,每个从语言学角度谈上海话保护一引言1956年2月6日,国务院发出全面推广普通话的指示,定义普通话为以北京语音为标准音,以北方话为基础方言,以典范的白话文著作为语法规范的现代汉民族共同语。普通话从此成为国家法定夜晚的精神分析90年代以来夜上海的空间构造和文学想像摘要本文通过对上海宝贝欲望的旗帜等90年代上海作家的文学作品和上海的文化景观进行文本分析和精神分析,简要谈讨了90年代以来夜上海的空间构造和文学想像问题。夜晚复兴着上海居民的往日情中国古典思想中的政治正当性问题中国古代思想存在着一个强大的天命论传统。它为政治的正当性这个古老的论题提供了一种深邃而独特的解释,由此可以进一步揭示中国古典思想对政治生活本性的理解。一天命与政治的正当性现有的研究电影剧作分析及其要领作者老笨学习电影剧本写作有五个很重要的事情要做一多观察和思考生活二多做构思,勤写勤练三多增加艺术修养(包括音乐绘画戏剧众多方面的)四多对影片进行剧作分析。前边三项也许人们谈得很多,阿姐鼓与90年代文化作者肖鷹内容提要本文以歌曲阿姐鼓为对象,剖析90年代中国文化的基本特征,探讨在深入全面的社会改革开放之后中国文化的可能和困惑。主题词阿姐鼓流行歌曲中国文化90年代由何训田作曲,朱哲试论院线制下的电影市场竞争环境院线公司的形成改变了电影市场内部的市场环境,形成了多元竞争的态势,传统意义上的制片商发行商电影放映商以及消费者均因此赋予了各自明确的市场定位,均有各自的利益驱动和价值取向,并通过在教会音乐的省思(初论)作者施琦萱一教会音乐的现况在讯息爆炸的世代中,时间成为人抓取的对象。文明科技创造许多产物,为使人在凡事上更加便利,并讲求其经济效益然而,过度依赖这些产物,并讲求速成或仅仅是走马看花基督教与西方音乐作者王忠欣一。中世纪前期的西方音乐就是基督教音乐西方音乐起源于古希腊。但是由于古希腊的音乐史料存留下来的极少,人们通常又把中世纪作为研究西方音乐的一个重要起点。中世纪指的是欧洲封建论莫扎特根据莫扎特的书信作者罗曼罗兰我最近把莫扎特的书信重新读了一遍,那是由亨利特居仲先生译成法文,而所有的图书馆都应该置备的那些信不但对艺术家极有价值,并且对大众都有裨益。你一朝念过以后,莫扎特就能成为探究中国器乐即兴之美作者lulu历史发展到21世纪,为世人展现出一幅多元的文化图景。很多原有的文化局面在新世纪新观念的冲击下重组再生同时,随着这一文化格局的改变,人们对多元文化现象的思考日趋深入。秋问
谈美国电影中的癫狂之美一疯癫者与癫狂行为界定在中世纪时期,麻风病给整个人类社会蒙上了难以散去的阴霾,大众对于麻风病的畏惧不仅仅在于疾病本身,还在于麻风病被赋予的负面意义,许多人认为麻风病人应该被隔离出人浅析电视纪录片的拍摄风格与民生新闻的渗透一前言随着我国经济的发展,科学技术水平的提高,电视已经普及到了每一个家庭之中,电视纪录片应运而生,并通过独特的手法为人民群众展现了深刻的内容,而纪录片画面思维的出现,也弥补了文字思艺术社团在素质教导中的适用性艺术社团在素质教导中的适用性艺术社团在素质教导中的适用性艺术试论美的追求与人的解放我对美学方法学科定位及审美价center艺术社团在素质教导中的适用性文章来源自3edu教育网培养大探析我国民营电视发展的市场前景摘要20世纪后期,民营电视节目制作机构开始出现,并且在电视节目市场上产生了一定影响,但是在市场中只有少数公司能够顺利发展,大多数公司还是处于艰难的谋生中,对电视节目市场的客观分析,探析电视媒体在多元化社会纠纷解决机制中的作用摘要完善的多元化社会纠纷解决机制是实现社会和谐的有力保障。电视媒体具有强大的影响力冲击力和说服力,在多元化社会纠纷解决机制中可以发挥社会整舍,化解纠纷,引导舆论和舆论监督等作用,成探析电视散文诗的虚实艺术摘要电视散文诗诞生于传统文学日渐被人冷落而电视媒体日趋强势的大背景下。它在化合文学与影视虚实艺术后形成了独特的虚实艺术样式。其虚实艺术的特征主要表现在电视散文诗的创作来源于生活之实浅谈合唱指挥应具备的素质摘要合唱指挥是集音乐理论知识与音乐表演技能于一身的职业,是音乐专业中的复合型人才。本文就合唱指挥应具备的音乐理论基础音乐感知能力音乐技能文化素养组织能力音乐感染力和人格魅力等六个方回家之旅,成长之旅恐龙当家评析摘要恐龙当家是2015年由迪士尼和皮克斯公司发行制作的第16部动画长片,讲述了一个另类的丑小鸭故事。该影片讲述的故事虽落入俗套,但从面向低龄观众的角度看,该电影极富教育意义和艺术价论中国电影的诞生和未来发展从电影传入中国到现在,中国电影的发展已有一百多年的历史,期间经历了不同的历史阶段,肩负了不同的历史使命。如今随着全球经济一体化文化多元化的到来,中国电影的多样化,新颖化创新化成为全从歌剧丑角浅谈真实主义歌剧的艺术特征一真实主义歌剧19世纪末意大利文学界掀起了真实主义思潮(Verismo),文学家在艺术创作中,取材发生了改变,即由充满浪漫色彩的神话传说贵族爱情转而描写中下层的小人物市井百姓。此类思想政治教育社会哲学范式与人学范式的关系摘要思想政治教育的理论硬核即社会哲学范式是不能改变的,人学范式可以作为思想政治教育理论硬核的新保护带,因为它契合了改革开放以来的社会需要和个人需要,需要与满足需要正是范式转换的逻辑