范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

实操小微风控报告中的地址信息的清洗与照面和司法数据使用

  在中小微企业的大数据风控体系中,工商数据与司法数据是最基本也是最常见的两类信息维度,在企业大数据体系的应用场景中扮演着重要角色。由于企业工商与司法数据的多部分内容属于社会公开化信息,因此在行业市场内也是非常容易获取的,可以通过国家或地方相关的工商司法公共服务系统,或者企查查、天眼查、启信宝等商用平台,直接查询了解企业的基本信息与风险状况。若作为数据需求方的公司单位有一定资质,可以与工商或司法数据相关机构或平台进行合作,引入工商司法更为详细的底层数据,以便加工得到更丰富的特征指标,从而为企业风控的架构与完善赋予更多的效能。
  1、工商与司法数据的应用背景
  企业工商与司法数据在实际业务中的重要性不言而喻,对于银行、小贷等金融机构开展企业信贷业务的审批环节必然不可或缺,同时对于企业融资的助贷机构也是金融科技的重要元素。无论是产品风控的策略应用,还是业务运营的信息周转,企业工商数据可以认为最基础的信息体系,在风控准入策略、风控评估报告、客户画像分析等方面,必然会有工商与司法数据的展示及其信息描述的体现,在实际场景应用中发挥着非常重要的数据参考价值。
  企业工商数据从细化维度来区分,可以包括照面信息、股东信息、对外投资信息、分支机构、变更信息、主营业务、社保信息、网址信息、主要人员对外投资信息、联系方式信息、社会组织信息、司法信息等。其中,工商照面信息是企业的基本数据,可以理解为企业的一张"名片",由此提取或加工出的特征字段,往往可以作为客户画像或风控准入等场景的分析指标。
  企业司法数据包括开庭公告、法院公告、裁判文书、执行公告、案件流程、执行公告、拍卖公告、曝光台等维度。司法数据作为企业风险评估的重要组成部分,可以详细地展示企业经营涉诉等信息,能够很直观地量化企业的整体风险状况,不仅可以将司法统计指标用于产品准入条件,而且为企业风险模型提供了较多的特征维度。
  为了便于大家对企业的工商照面信息、司法涉诉信息有更全面的理解与熟悉,本文将结合具体的报文数据实例,依次来介绍下企业这两类重要数据在企业风控体系中的应用思路与实现方法。
  2、工商照面信息的数据分析
  2.1 工商照面信息的报文样例
  企业的工商照面信息数据,可以在某些工商数据提供平台,根据企业全名、社会信用代码、注册号其中之一作为查询ID,通过API接口精确获取企业相关的工商信息。这里以"小米科技有限责任公司"为例,调用并返回对应的工商照面信息报文样例如图1所示。从实例数据结果中可以大体了解到,返回的企业照面数据都是企业的最基本信息,似乎与OCR识别企业营业执照获取的信息非常类似,但此处需要注意的是,这里获取的企业照面数据比营业执照的信息更为全面。
  编辑
  添加图片注释,不超过 140 字(可选)
  图1 企业工商照面信息
  2.2 工商照面信息的数据挖掘
  通过图1展示的数据报文样例,可以很清晰的了解到企业工商照面信息的指标结构,接下来我们按照指标顺序,来依次介绍下各字段的业务含义,以及部分特征在风控流程中的应用逻辑。
  (1)id:企业主键的加密id,非企业工商数据,仅为数据机构方的内部标识。
  (2)name:企业名称,与"社会信用代码(creditNo)"组合可用于"企业二要素"信息核验,一般作为产品风控的准入条件,若"企业名称"与"社会信用代码"信息不对应则拒绝。
  (3)econKind:企业类型,常见的可以分为有限责任公司、股份有限公司、无限公司、两合公司、股份两合公司,本例为"有限责任公司"类型的细分维度"自然人投资或控股"。
  (4)econKindCode:企业类型代码,这里以常见的"有限责任公司"类型为例,列出企业类型代码的对应含义,具体如图2所示。
  编辑
  添加图片注释,不超过 140 字(可选)
  图2 企业类型代码含义
  (1)registCapi:注册资本,一般情况下公司的注册资金越高有利于外部对企业实力的认可,但同时需要承担的风险也越大;对于一定规模的中小微企业,注册资金在合理范围内较高可以初步认为较好。
  (2)historyNames:历史名称,是一个数组形式,可以有多个名称;名称较多在一定程度可反映出企业历史的不稳定性。
  (3)address:详细地址,可重点解析省、市、区的具体名称,对于企业融资产品,往往适用于线上产品的准入条件;若企业的地址不在定义区域范围内则拒绝。
  (4)regNo:企业注册号。
  (5)scope:经营范围,可了解企业的主营业务情况,主要用于企业征信报告中对公司的基本信息介绍。
  (6)termStart:营业开始时间,与"当前时间"加工出"经营年限",可用于产品风控的准入条件,当企业"经营年限"小于产品的年限标准则拒绝。
  (7)termEnd:营业结束时间,与"当前时间"加工出"剩余年限",可用于产品风控的准入条件;当企业"剩余年限"小于产品的年限标准则拒绝;若"营业结束时间"的值为"长期"时则无需加工新指标。
  (8)belongOrg:所属工商局,可与企业"详细地址"的省市区进行对比,验证企业所属工商所辖区域是否异常;例如本例的企业地址(北京市海淀区)与工商局地址(北京市海淀分局)是对应的。
  (9)operName:企业法定代表人,与"企业名称(name)"、"统一社会信用代码(creditNo)"组合,可用于"企业三要素"信息核验,一般作为产品风控的准入条件,若三者信息不对应则拒绝。
  (10)startDate:成立日期,与"当前时间"加工出"成立年限",可用于产品风控的准入条件,当企业"成立年限"小于产品的年限标准则拒绝,与上文的"经营年限"逻辑类似,实际情况通常二者相同。
  (11)endDate:注销日期,若取值有具体时间则说明企业当前未正常营业。
  (12)checkDate:核准日期,若具体时间距当前时间较近,说明企业近期存在法定登记信息的变更,例如法人、股权、经营范围等信息,可进一步根据历史变更信息了解详情。
  (13)status:经营状态,可分为8种状态,分别为"续存、在业、吊销、注销、迁入、迁出、停业、清算",其中"在业、续存"等状态属于正常情况,若取值为"吊销、注销、停业、清算"等情况,在风控准入条件中直接拒绝。
  (14)orgNo:组织机构号。
  (15)creditNo:统一社会信用代码,作为企业通用的主键标签,类似自然人的身份证号,与"企业名称"、"法定代表人"组合,可用于"企业二、三要素"信息核验。
  (16)districtCode:地区代码,由6位数字表示具体省市区(县),其中第1-2位是省级编码,第3-4位是地级编码,第5-6位是县级编码;可通过国家统计局进行查询,这里以北京市为例,具体地区代码与含义如图3所示。
  编辑
  添加图片注释,不超过 140 字(可选)
  图3 企业地区代码含义
  (1)actualCapi:实缴金额,可与"注册资本(registCapi)"进行对比,通常情况若"实缴金额"占"注册资本"的比例越高,体现出的企业风险越低。
  (2)domain:四级行业,可通过国家统计局的"国民经济行业分类"标准进行查询,行业四级组合依次指门类、大类、中类、小类;以本例"M7590"说明,M指门类,表示"科学研究和技术服务业";75指大类,表示"科技推广和应用服务业";759指中类,7590指小类,表示"其他科技推广服务业"。此外,这里以M75大类为例,介绍下内含的中小类型,具体如图4所示。
  编辑
  添加图片注释,不超过 140 字(可选)
  图4 企业四级行业(M75)
  (1)tags:企业资质,取值是一个数组结构,可以取多个值,例如为高新企业、上市公司等;此特征的取值越多,说明企业的资质能力越好。
  2.3 工商照面信息的风控应用
  围绕以上对企业工商照面信息的指标解读,大体熟悉了各字段的业务含义与应用方向,也可以看出多数字段是对企业整体情况的介绍,而对其风控应用主要集中在其中部分指标,下面我们以图1报文数据作为样例,来进一步描述下重要特征的实际场景应用。
  (1)企业要素二要素核验:企业名称(name)、统一社会信用代码(creditNo),判断二者是否对应,返回布尔型值(例1/0);当企业主体"小米科技有限责任公司"与"91110108551385082Q"相对应则信息验证通过。
  (2)企业要素三要素核验:企业名称(name)、统一社会信用代码(creditNo)、企业法定代表人(operName),判断三者是否对应,返回布尔型值(例1/0);当企业主体"小米科技有限责任公司"、"91110108551385082Q"、"雷军"相对应则信息验证通过。
  (3)企业经营时长(duration):当前时间(currTime)-营业开始时间(termStart),以年为单位;本例2022-2010=12(年),与产品准入经营年限years进行比较,当前者大于等于后者则通过。
  (4)企业成立时长(estabTime):当前时间(currTime)-成立时间(startDate),以年为单位;本例2022-2010=12(年),与产品准入成立年限years进行比较,当前者大于等于后者则通过。
  (5)企业经营状态(status):作为风控准入核验企业当前的经营状态,当取值为"在业、续存"则通过,当取值为"吊销、注销、停业、清算"则拒绝,当取值为"迁入、迁出"则待定。
  (6)企业地址-省(province):根据企业详细地址(belongOrg)提取省级名称(含直辖市),可通过关键词"省/市"实现指标加工,指标用于产品适用地区范围(省级)的准入校验。
  (7)企业地址-市(city):根据企业详细地址(belongOrg)提取市级名称(含直辖市所辖区),可通过关键词"市/区"实现指标加工,指标用于产品适用地区范围(市级)的准入校验。
  (8)实缴资本比例(capiPct):实缴金额(actualCapi)/注册资本(registCapi),通常情况下比例值越大越好,可作为企业评分卡模型"企业资本"维度的模型指标。
  以上各指标均为企业工商照面信息的常见应用思路,在实际场景中可以根据情况综合考虑。此外,对于企业类型(econKind)、经营范围(scope)、企业资质(tags)、历史名称(historyNames)、四级行业(domain)、注册资本(registCapi)等信息,往往作为企业数据征信或风控评估报告的描述内容,便于对企业进行全面多方位的了解,作为信审人员的信息参考。
  2.4 企业地址信息的省市提取
  在企业工商照面信息中,"企业地址address"是一个可深入探索的特征字段,尤其是根据详细地址信息提取出"省、市"名称,可以便于我们进一步加工出"城市发展等级"、"区域经济指数"等特征,从而为产品适用地区范围的准入条件、企业风控模型的环境影响评价等方面,提供相关的特征标签或字段来源。
  为了便于大家对地址信息有更好的理解与应用,我们结合具体的数据样例,来实现围绕地址来提取省市名称的过程,我们通过图5所示python代码来构造一份数据,得到的样本数据如图6所示,包含企业序列号(id)、企业名称(name)、企业地址(address)共3个字段。
  编辑
  添加图片注释,不超过 140 字(可选)
  图5 企业地址数据构建
  编辑
  添加图片注释,不超过 140 字(可选)
  图6 企业地址数据样例
  围绕以上样本数据,我们需要对企业地址(address)进行详细信息的提取,包括省、市、区的具体名称。在实际场景的Python语言环境中,本次在知识星球中介绍的工具,可以智能解析出地址信息的省市区地址,还可以同步输出地址对应的地区代码,应用较为方便且广泛,具体实现过程 详见知识星球代码详情。 。按照这种方法对图6的地址数据进行批量解析,最终输出结果如图7所示。
  编辑
  添加图片注释,不超过 140 字(可选)
  图7 企业地址解析结果
  当然在常规的地址信息的清洗过程中,我们更多的依赖地址中划分的信息进行划分,比如参考下此份的地址汇总信息:
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  此份相关内容也一起同步至知识星球平台,可以一起前往下载查阅。
  3、司法涉诉信息的数据分析
  企业的司法诉讼信息数据,可以根据企业全名或社会信用代码,通过相关系统或平台进行查询。企业司法信息虽然包含了多个细化,常见的有开庭公告、法院公告、裁判文书、司法拍卖等,但数据信息结构与司法属性理解都是比较类似的,因此本文将选取裁判文书、开庭公告这两个维度作为样例来进行描述。
  3.1 裁判文书信息的风控应用
  裁判文书是记录人民法院对案件的审理过程和结果,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。图8为某企业涉诉的实际裁判文书案例,现按照前边开庭公告、法院公告的解析思路,对裁判文书的分析进行简单介绍。
  编辑
  添加图片注释,不超过 140 字(可选)
  图8 企业裁判文书样例
  本例涉及企业主体名称为"重庆越通贸易有限公司",解析指标如下:
  (1)文书类型:"执行裁定书"。根据裁判文书常见类型,可以分为民事调解书、民事裁定书、行政裁定书、行政判决书、执行裁定书、刑事裁定书等。一般情况下,当裁判文书属于民事调解书时,说明案件风险系数较小,而执行裁定书相对来说,有一定风险属性;具体风险定义是相对来讲,若主体企业是原告且胜诉,则此裁判文书是风险较低类别;
  (2)距今时长:"8年"。根据立案时间"2014年09月11日",以及当前日期年份2022,可以算出相隔年份数为8年,事件发生时间窗距今较长,风险系数较低;
  (3)法院类型:"中级法院"。示例中的"重庆市第四中级人民法院",属于中级法院,从案件属性与发展形态方面分析,事件有一定风险;
  (4)审理结果:"执行异议"。具体状态包括一审、二审、执行等,若此案件状态为执行,说明案件审理已结束,而二审状态相比一审状态,更能体现出案件的风险。
  综合以上指标分析,若以此例裁判对企业进行描述可以概括为:企业主体在此执行案件中,身份为申请执行人,审理结果为胜诉,同时事件发生时隔较久,风险程度表现很低。
  3.2 法院公告信息的风控应用
  法院公告是指由独立行使审判权的国家机关向社会公众公布的法律文书,按程序可分为诉讼公告和非诉讼公告。现以某企业涉诉的实际法院公告案件为例(如图9),来介绍如何解析法院公告具体的数据报文内容,并将挖掘生成的相关指标应用于风控决策流程中,以及实现的效果。
  编辑
  添加图片注释,不超过 140 字(可选)
  图9 企业法院公告样例
  本例涉及企业主体名称为"华易租赁股份有限公司",与"开庭公告"案例类似,可以重点分析以下几个指标:
  (1)案件身份:"原告"。这是案件需要优先关注的一个属性指标,主体"原告"身份相对"被告"来讲,往往可以体现风险程度较低;
  (2)距今时长:"4年"。根据立案时间"2018年07月24日",以及当前日期年份2022,可以算出相隔年份数为4年;一般情况下,当案件发生的时间在3年内,可以认为具有一定风险,若涉诉事件在1年内发生,则风险系数更大;
  (3)法院类型:"基层法院"。示例中的"杭州市西湖区人民法院",属于基层法院,相对中高级法院来讲,在案件发展形态方面来讲,初步可以认为此案例的风险程度较低。
  (4)案由类型:"普通民事风险"。从法院对案件处理的类型角度出发,可以判定案件的风险程度一般。
  结合以上各指标的分析,若以此样例的法院公告信息对企业进行描述可以概括为:企业主体涉及的法院公告为普通民事案件,原告身份,法院为基层人民法院,且案件发生在三年以前,风险程度很低。
  当企业涉及多个法院公告案件时,可以根据相关指标进行统计汇总,如近1年法院公告案件数量、近3年法院公告案件数量、历史法院公告案件数量、历史法院公告案件身份为被告的数量、历史法院公告中级以上法院审理案件数量等,这些指标展示在企业风险评估报告中,可以很直观地体现出企业司法涉诉风险的高低,同时部分指标也可作为企业评分模型的字段。
  以上对"开庭公告"、"法院公告"、"裁判文书"案件类型的分析思路,都是通过解析案件内容加工出"案件身份"、"距今时长"、"法院类型"、"案由类型"等指标,然后进一步将所有涉诉案件的指标进行统计汇总,便可以得到每个司法涉诉维度下的综合指标,并最终用于企业信用评分模型的字段,或者展示在企业信用风险评估报告中。除了以上司法维度的举例说明,其他几个司法涉诉类型原理逻辑类似,如"执行公告"、"拍卖公告"、"案件流程"等。
  综合以上内容,我们围绕企业的工商照面信息与司法涉诉信息,先后通过具体的数据报文样例,介绍了各维度下的特征提取逻辑、风控应用思路、企业风险评价等,并在现有字段的基础上衍生部分风控指标,以及对企业风险信息的概况总结,从而为企业的风控准入与征信描述提供必要的数据应用价值。为了便于大家对企业工商照面与司法涉诉信息的进一步了解与熟悉,本文额外附带了企业工商司法信息更多维度的报文数据样例,详情请移至知识星球查看相关内容。
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  【企业工商司法信息示例】
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  【地址清洗代码示例与地址库信息汇总】
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  【知识星球相关资料预览】
  另外关于中小微财税票中的模型内容,有兴趣的童鞋可关注:
  编辑切换为居中
  添加图片注释,不超过 140 字(可选)
  ...
  ~原创文章

米卢很幸运曾执教了那支有实力的中国队,他们是令人难忘的一代直播吧1月27日讯在接受2022年卡塔尔世界杯组委会官方微博采访时,米卢回顾了当年他带领国足征战12强赛的难忘经历。回顾自己执教的那支国足,米卢表示我觉得我执教时能拥有这样一支有实北京冬奥会主媒体中心24小时运营1月26日,一名工作人员正在主媒体中心媒体餐厅查看运菜机器人工作。北京冬奥会主媒体中心已于1月24日起正式进入24小时运行,为全世界的媒体记者提供服务。新华社记者杨磊摄1月26日,CBA中职篮第二阶段结束后有两只球队提前无缘季后赛CBA中职篮比赛分为三个阶段,共二十家俱乐部二十支球队,在常规赛中排名前四的球队直接进入季后赛,5至12名的球队名次高低对位复加赛争夺另四个席位,最终产生季后赛正赛的8个队。而本赛刑侦剧我是刑警杀青,于和伟再演警察,丁勇岱马苏实力派云集经过近5个月的紧张拍摄,由于和伟主演的刑侦剧我是刑警终于全面杀青了。这部剧在筹备阶段曾曝光了好几个演员名单,一度传出邓超富大龙等人主演的新闻,不过最终开拍之后观众才发现是新晋的白玉比亚迪特斯拉打假,自媒体瑟瑟发抖汽车行业堪称是自媒体恰饭重灾区,只要钱到位,黑能给你说成白,白的能给你夸上天。当然,自媒体行业从业者各不一样,有不拿钱纯属凑热闹蹭热度的,也有为了恰饭针对车企写黑稿的,有真正为车主研究表明在德甲拜仁球员平均效力时间最长,门兴球员次之虎扑01月27日讯慕尼黑晚报援引网站Wedbureaus的研究报告,该报告分析了2021年德甲各俱乐部球员为各自球队效力的时间,其中拜仁慕尼黑的球员为俱乐部效力时间为德甲最长,平均费德勒纳达尔德约欣慰了!名宿世界第三很一般,比不了三巨头现世界排名第三的兹维列夫堪称网坛奇葩,他在大师赛年终总决赛和奥运会都有冠军斩获,唯独在大满贯比赛中从未有所建树,而且连前八都没进过,这是很让人无法理解的事情。在本届澳网比赛中,他0重回正轨!击败强敌外加核心复出!湖人低谷许久终于迎来好消息篮网队对阵湖人队的比赛堪称是本赛季的焦点大战,双方赛季首次对阵也被安排在了圣诞大战之中,在该场比赛里,哈登单核带队的篮网队最终在客场险胜了湖人队。而本场比赛篮网队依旧是哈登单核带队10!12强赛首支出线队诞生亚洲第1狂欢,第6次踢世界杯1月27日晚,世预赛12强赛A组,伊朗VS伊拉克。塔雷米打进唯一进球,伊朗10赢球!7场19分的伊朗,提前3轮锁定小组前2,获得2022年世界杯资格!伊朗成为12强赛首支出线的球队张常宁传来好消息,李盈莹激动了,中国女排加油我个人感觉自从经历过东京奥运会女排失利之后,很长一段时间球迷们都没有看比赛的热情了,也确实这段时间的排球也让人没有激情。首先就是在奥运会上没有进前八名,然后球员退役的退役,伤病的伤NBA各队队史犯规第一名都是哪些大神?犯规多都是狠人,NBA各队队史犯规王都是哪些大神?这里的队史犯规王我们只统计常规赛的总犯规数,太阳队队史犯规王是上古大神阿尔万亚当斯3214次,勇士队史犯规王也是上古大神保罗阿里金
打工人周末要想不虚度光阴要如何做以下是一些打工人周末可以做的事情,以充实自己的生活旅游或者探索当地景点。在周末的时候,可以选择去周边或者远一点的地方旅游或者探索当地的景点,这样既能够放松身心,同时也能够丰富自己的周末,恰野味去!惊蛰过后不久大地冒出了绿芽这个季节不仅是踏青的好时候把春天吃进肚子里才算过了一个完整的春天!扬州扬州人的春天从餐桌上的河鲜开始成堆的螺蛳肉满盆的河蚌肉鲜嫩肥美简直让人爱不释口春意满咳嗽的死对头找到了,反复咳嗽多喝它,清热润肺,早知少遭罪导语咳嗽的死对头找到了,反复咳嗽多喝它,清热润肺,止咳化痰,早知道少遭罪大家好我是傻姐美食,如果您阳后总是反复的咳嗽喉咙干痒不舒服,不妨可以多买一些梨子吃,梨子不仅能清燥热还有润肺金灶吃啥?来点酒香四溢软糯香甜,一口吃出小辰光俗话说过完元宵节,才算过完年。闹元宵,吃汤圆,是我们的传统习俗,本期金灶吃啥?就带大家尝尝,元宵节餐桌上的主角。圆圆的糯米团,象征着幸福团圆,寄托着人们对新一年美好的祝福。上海本地从陪跑者到领跑者!国产数据库占据半壁江山,A股细分龙头乘信创东风弯道超车财联社3月26日讯(编辑刘越)今年两会期间,国务院宣布组建国家数据局,引发特别关注。有研报指出,它的成立意味数字中国步入快车道也有分析认为,以数据库技术为核心的数据安全领域将迈上新体验过泰式按摩服务后,过程令人痛苦求饶,但结束后神清气爽现在很多人都喜欢去泰国旅游,尤其是经过了三年新冠疫情,人们都不敢外出游玩,现在政策放宽,人们都开始计划着自己的行程了,而去往泰国的人更是比先前更多。(此处已添加小程序,请到今日头条撞色的魅力挑染插画特辑想摆脱一成不变,但又觉得染整颗头太过显眼的话,或许可以试试看最新潮的挑染唷!挑染能让我们的头发同时拥有多种色彩,并藉由颜色的碰撞,迸发出时尚的活力与气息。今天为大家带来挑染插画特辑嘴巴周围发黄,长斑,嘴唇发黑,内分泌失调,拍拍打打可解决我之前推荐的很多美容养生的好办法都是知道好多年,使用了好多年的。而现在要讲的这个,是去年才发现的,也是意外发现的。现在毫无保留地告诉大家。我很少涂口红,嘴唇颜色一般都可以,可是去年戴维斯显然每场都想得高分,但我关心的只有赢球湖人以116111战胜雷霆。本场比赛,湖人球员安东尼戴维斯出战36分钟,21投15中,其中三分球1投0中,罚球11投7中,得到37分15篮板1助攻1抢断。赛后,戴维斯说今天我手感很如何提升正则表达式编写能力?我们经常在程序开发和数据处理过程中使用万能的正则表达式,来对字符串进行匹配查找替换过滤等等操作,以达到我们的命中结果。可以说我们在互联网上看到的任何文字信息都是字符串类型,都可以用香港知名女星高调结婚,在海边办婚礼,穿吊带婚纱大秀丰满身材本文编辑剧透社issac未经授权严禁转载,发现抄袭者将进行全网投诉恭喜,恭喜!香港知名女星TVB前签约女艺人2007年香港小姐选美季军获得者周美欣正式宣布结婚。从网上曝光的图片短视