通建泰利特网站LOGO
扫描关注通建泰利特微信公众账号

扫一扫获取最新动态

重庆:利用大数据技术升级公共信用平台

通建泰利特2019-06-04行业动态
近年来,党中央、国务院高度重视社会信用体系建设。党的十八届三中全会明确提出,加快建立国家信用数据统一平台,推进部门信息共享的决策部署。《国务院关于印发社会信用体系建设规划纲要(2014-2020年)》(国发〔2014〕21号)要求加快推进政务信用信息整合,形成统一的信用信息共享平台,为企业、个人和社会征信机构等查询政务信用信息提供便利。《国务院办公厅关于运用大数据加强对市场主体服务和监督的若干意见》(国办发〔2015〕51号)文件,要求以信用平台为基础,运用大数据推动社会信用体系建设,建立跨地区、多部门的信用联动奖惩机制,公平诚信的市场环境,提高政府治理能力。因此,在大数据时代背景下,探讨如何利用大数据手段升级信用平台架构,提升平台处理能力,开展大数据治理,实现信用数据融合应用具有重要意义。在此,以重庆市为案例,探讨如何利用大数据技术升级公共信用平台。


 

一期平台存在的问题

 

2016年,由重庆市发展改革委牵头,重庆市信息中心具体负责,启动了重庆市公共信用平台一期项目建设。项目按照“一云一库二门户三体系”的结构组织实施。经过平台一期建设,重庆市公共信用平台实现上联国家平台、横联59个市级部门和单位、下联所有区县,支撑信用信息跨层级、跨部门、跨行业共享共用和综合查询、在线管理等,平台“总枢纽”作用初步显现。“信用重庆”网站建成信息公示等七大功能模块。通过跨网链接实现“红黑名单”、行政许可、行政处罚等信用信息统一公示和“一站式”查询服务。平台共归集全市自然人、法人和其他组织基础信息、社保参保信息、机动车信息等超3.9亿条。企业法人及各类社会组织、个体工商户统一社会信用代码存量转换率达到100%,初步奠定大数据信用基础。

 

但是,重庆市公共信用平台一期建设尚存在一些问题:

 

一是平台处理能力不足。信用平台建设之初,根据当时实际情况,顶层设计采用“J2EE+关系数据库”的传统架构。随着后期数据源的不断扩大,数据量急剧上升,用户访问量剧增,平台运行压力快速增大,平台性能逐渐达到上限。按照信用业务的发展和规划,未来几年数据量预计将达到数十亿,现有的传统系统架构必将不堪重负,不能承载海量数据的处理和访问,将给系统的稳定、高效运行带来极大隐患。同时,未来信用应用的业务需求广泛,非结构化和半结构化数据较多,现有的关系数据库架构对这种海量、多样化数据处理能力较弱。

 

二是平台数据缺乏有效治理。平台缺乏对现有数据来源、标准、质量、使用情况等开展有效治理。随着各种信用数据的积累归集,从事信用工作的相关人员对数据逐渐缺乏清晰的认识:决策者不清楚仓库里放了哪些数据,价值何在,能否支撑未来的应用;系统设计师不清楚仓库存放的数据占多少存储,增长情况如何;程序开发人员不清楚开发需要的数据在哪里;数据运维人员,不同的人负责不同的应用,只了解自己负责部分的数据;数据提供者,不能及时掌握提供的数据种类和数量,哪些符合要求。

 

三是信用应用场景不多。信用应用创新和应用领域尚处于初级阶段,信用产品应用面窄、信用服务市场不活跃等问题突出。信用应用主要集中在联合奖惩和综合查询等功能上,全市仅在项目审批、政府采购、企业融资融债等部分政务领域展开了信息查询、信息对比等初级应用。信用报告、企业信用评级、个人信用评分等高层次应用还未开展。

 

平台升级的必要性

 

面对这些问题,利用大数据技术升级信用平台非常必要。信用大数据已经成为重要的国家资源,也是核心生产要素。大数据技术是社会的一种新型能力,通过对海量数据进行分析,获取有价值的产品和服务。区别于传统统计分析方法,大数据采用全面数据代替抽样、局部数据,通过数据分析揭示数据之间的相关性,对事物的发展趋势给出快速预测,正好可以解决重庆市信用平台存在的问题。

 

在此情况下,应用大数据技术升级信用平台,开展项目二期升级建设,通过数据治理,挖掘数据价值,开拓信用融合应用,有利于重庆市推动和加快社会信用体系建设;有利于全市各级信用平台一体化,促进全市信用体系建设共同发展;有利于扩大信用数据归集种类和数量,提高数据质量;有利于推进信用应用场景的创新和信用服务模式的创新,延伸信用信息服务的广度和深度。因此,项目升级建设必要而迫切。

 

平台升级的技术实现

 

针对重庆市信用平台一期的状况和问题,信用平台二期建设循遵“统筹规划、分步实施、需求导向,强化应用”的原则,按照以平台为基础、以数据为核心、以创新融合应用为导向进行大数据架构升级。

 

1、平台架构升级

 

平台二期在一期项目搭建的信用云平台框架下进行扩展,增强云平台计算和存储能力,充分利用已有的成果,经过对已有数据的再分析和深度挖掘,产生新的有价值信息,满足信用应用多样化、复杂化的需求,为业务系统运行提供基础保障。主要包括3个方面:

 

一是升级平台架构。以云平台、Hadoop等新技术为关键支撑,采用Hadoop分布式系统(HDP)进行建设,使用Hive数据仓库基础构架、HBase分布式列存储系统和Spark内存计算引擎等技术手段,构建信用大数据平台架构 ,实现平台PB级信用大数据处理。平台部署在云化基础设施上,采用多层技术架构设计。

 

二是提升数据计算能力。在大数据架构下,挖掘信用云平台弹性虚拟计算能力,为信用应用服务快速提供动态、灵活、弹性和高效的计算资源服务,提升数据存取响应和运算的效率。云平台高效的数据处理与分析性能,确保数十亿级记录的秒级在线查询,为数据治理和信用数据融合应用打下基础。

 

三是建立平台数据资源的生态体系。基于信用平台,面向各相关业务部门的上层应用,建立数据统一存、管、用的生态环境,实现数据资源的统一存储、统一管理和共享交换,同时提供统一的数据资源服务接口,实现数据和服务的高效利用,基于平台形成一个生态体系。

 

2、大数据治理

 

信用平台的建设核心是对来源广泛、海量化、异构化的信用数据,通过大数据治理,实现数据开放共享、高效开发、简化运维和便捷使用。数据治理即是将数据从归集清洗、规划生产、质量管控、资产注册到使用进行全过程、全生命周期和全景式“三全”治理,最大限度发掘信息的价值,支撑平台上层各类融合应用场景。通过大数据治理,实现数据采集、加工、交换、共享及数据血缘的可视化等高效管理,数据可用率从50%提升到98%,数据修正率提升80%,缩短数据应用开发周期节约人力成本30%。主要工作包括以下6个方面:

 

一是扩大信用数据归集范围和数量。一方面,按照国家标准梳理市级、区县和公共事业单位信用目录,建立全市统一的目录管理体系,依据目录向全市开展信用数据归集,避免同一数据重复归集,确保“一数一源”;另一方面,应用大数据人工智能技术,扩大数据归集的范围,开展电子商务、社会舆情、社交等新领域的数据采集,拓宽数据的来源渠道,丰富数据种类。

 

二是强化数据标准管理。根据《公共信用信息标准体系框架》等六项工程标准,建立本地信用数据标准规范,对数据字典、表空间、字段等进行规范管理,汇聚整合采集数据,进行标准化及编码转换,形成可用的信用数据。

 

三是实施元数据管理。元数据是描述数据特征的任何信息。对信用元数据的管理,是数据治理的基础。首先,需要创建一个体现关键大数据术语的业务词库,并标记数据敏感性;其次,从相关的大数据存储中定义元数据,将相关的数据源与业务词库中的术语进行链接;最后,使用元数据监测大数据的流动。

 

四是强化数据质量管理。基于已封装好的基础函数,对数据清洗、检查和质量稽核规则进行配置,让数据清洗人员通过简单配置操作,完成归集数据的自动清洗。所有来源数据经过自动清洗系统,完成补码去重、规则检查和关联比对等流程,合格数据分类入库,不合格数据自动反馈给各信源单位纠正。质量系统从征集数量、及时率、成功率、合格率等不同维度反映全市信用数据实时归集的情况,支撑平台数据的进一步挖掘应用。

 

五是实现数据资产管理。根据元数据构建数据资产族谱,覆盖数据的采集、加工、存储、利用各环节。资产管理系统提供关键字模糊匹配、快速搜索、逐层下钻、向导式数据查询和分析功能,确保各类人员通过治理平台都能够及时准确的监控各类数据血缘关系、生命周期及利用情况,实现数据价值的快速发现,信用知识的积累传承。

 

六是深化数据模型管理。构建数据模型管理系统,以信用应用为导向,围绕数据加工需求,设计多样化的数据建模规则,并形成图形化组件,让开发、运维和管理等不同需求的人员,以可视化、拖拽、组合方式快速实现数据加工组合等配置操作,屏蔽数据底层的差异,降低开发、运维和管理难度。

 

3、信用数据融合应用

 

新的大数据信用平台是一个以服务应用为根本目标的创新性平台。通过大数据平台,强化信息资源整合,建设便捷高效的应用功能,有效构建政务信息资源应用服务新体系。为此,我们建立了新的应用架构,以信用信息融合为核心,建设各种不同的专题应用数据库(专题库),挖掘分析信用大数据,推动信用信息与各行业融合,开展各种形式的失信联合惩戒和守信联合激励创新应用,同时实现信用信息“以用促归、以用促建、以归促用”。主要工作包括以下4个方面:

 

一是建设信用专题库。在融合创新应用时,基于信用平台核心数据库(基础库),重庆市信用平台汇集合作部门自有数据后,形成专题库。由合作部门负责大数据建模,通过调用市信用平台上的专题库数据进行模型计算,形成企业信用评级、个人信用评分等运算结果,再将结果推送给合作部门相关业务系统使用,以支撑“信易贷”“信易游”等信用激励场景。融合应用全过程让双方人员对使用的数据“可用不可见”,并且通过应用,合作单位又将新产生的数据反馈到专题库乃至核心库中,进一步丰富模型和基础数据,产生未来新的应用(如上图所示)。

 

二是建立信用主体档案库。以自然人和法人基础数据库为核心,挖掘分析各类信用数据,建立各类数据与信用主体资源目录明细的对应关系,形成信用主体档案库,并通过对海量的基础、业务、司法、行政执法、公共事业、信用评价和其他信息的交叉验证,识别并刻画各类信用主体的信用状况。

 

三是开展人工智能应用。针对互联网采集的信息,数据量巨大且增长迅速,我们在融合应用的系统中使用了机器学习技术辅助进行分词、聚类分析,提取文本特征等工作。通过自然语言解析,对入库文章内容再进行分词,根据关键字的相关性、词频等特征,归并到相应分类中,再把满足条件的数据抽取到专题库中。

 

四是不断验证升级算法模型。针对企业信用评价、个人信用评分和区县信用指数,应用层次分析法,分别建立评价指标和算法模型,不断验证指标与信用指数的关联度,采集大规模数据,经过大数据清洗、挖掘分析和运算,形成评价结果。

 

公共信用平台是信用信息归集共享的枢纽,也是信用体系建设的重要支撑。大数据时代的到来为公共信用平台提档升级,提高数据处理分析和增值应用能力提供了一种新的途径。重庆市公共信用平台采用大数据技术开展架构升级,以治理为基础,技术为承载,分析为手段,应用为目的,通过信用专题库与各行业领域开展信用融合应用,为信用平台升级建设提供了一种探索。

 

文章原载于 中国信息界智库

文章关键词