2021年第1期 返回首页
往期书刊
将海量数据转化为有效审计服务的实践与思考
发布时间:2021-03-27 15:32
访问次数:
信息来源:省审计厅
信息来源:
将海量数据转化为有效审计服务的实践与思考
□ 黄娴慧
近年来,温州市审计局深化大数据应用,在数据资源、数据规划、大数据应用平台建设、配套制度等方面不断完善,大数据审计项目覆盖率由2018年的27%提升到2020年的83%,做出了“大数据+医疗保险”“大数据+预算执行”“大数据+扶贫”等优秀项目,扩大了审计对象,提升了审计深度。
一、大数据审计发挥的作用
(一)有助于发现问题疑点。通过挖掘隐藏在大数据中的数字特征或比对识别出与反映事实之间的差异,有助于有效发现疑点,揭露重大违法违纪问题。如审查公务用车定点加油情况,采集某地区多家单位加油卡所有加油记录,发现存在同一辆车既加汽油又加柴油情况,明显违背汽车用油常识,经核实发现部分单位个别司机存在“私车公养”的情况。
(二)有助于发现共性问题。通过挖掘某种群体行为的共同特点或提示某种社会现象的潜在规律,督促相关部门完善制度。如利用统发工资、生育津贴数据关联比对,揭示某地区女职工生育津贴和产假工资重复享受合计超千万问题,推动此地区出台相关规定并调整规范了生育津贴申领方式。
(三)有助于研判总体。通过对相关领域多年累积形成的数据的宏观分析,研判总体情况和发展趋势。如对多个县(市、区)公安局同步审计前,利用折线图直观对比各出入境管理局近三年每年出入境非税总收入和上缴国库平均间隔天数,判断是否有县(市、区)存在收入异常和上缴国库不及时现象。
(四)有助于实现审计对象全覆盖。如该局连续三年借助大数据审计实现市本级200多家单位部门预算执行审计全覆盖。
二、实践中遇到的困难
(一)数据采集不完整、不全面。如温州市国库数据和核算账套已经采集了市、县两级,但尚未采集到乡镇数据,造成利用大数据分析专项资金在乡镇沉淀等问题不理想。
(二)数据治理力度不够。在数据分析前需要耗费较大精力进行数据清洗和整合,数据质量直接影响数据分析效果,如基于财政、社保等不同行业信息系统之间以及财政系统内部国库支付、会计核算等不同模块之间的关联字段不一致,造成关联分析比对准确度不高。
(三)大数据创新思维不够。审计人员对业务、信息系统和社会经济数据不熟悉,不能有效借助某些数据特性深度挖掘数据价值。如在某产业政策专项审计中,传统做法是抽查补助金额较多或补助频次较高的项目,大数据背景下可以直接采集全市所有产业政策审批集中化管理的数据,批量审查是否对同一家单位某一事项重复补助或受补助资金是否及时到位问题,但大部分审计人员仍使用传统做法。
(四)大数据技术应用不充分。只有少数审计人员能使用VBA、PYTHON、OCR文字识别技术以及TABLEAU可视化工具等,使某些审计思路苦于没有技术支持未能有效转化;一些数据挖掘算法先行探索不够,应用仍停留在医保等特定行业,尚未普及。
三、优化大数据审计的路径思考
(一)标准化工作日常化,建立“四个关联”。该局将数据采集、数据清洗和数据标准化工作日常化,避免单个项目一次性使用。借审计署电子审计数据报送的契机,统筹市县数据采集,强化多行业数据的报送机制,接入当地大数据局数据共享接口,推进数据集中管理,归集了财政、社保等40多项数据,重点标准化了全市财政、税务等行业90多张常用表。努力做好四个方面的关联。
一是做好全市财政数据的标准化,做到从市财政到县市区(包括街道)、从部门到项目具体执行单位资金使用的纵向关联;二是将与财政资金分配、支付、记账相关的预算指标表、用款计划表、支付申请表、资金支付表、总预算会计凭证表等关联起来,实现市财政到市预算单位各种资金的横向关联;三是将工商登记的企业、行政事业单位、民非组织等法人整理出来,将其与财政、税务、社保等部门的资金和业务数据关联,实现企业与企业之间、企业与政府之间、政府与部门之间的关系图谱建设;四是将自然人与其他自然人、自然人与法人之间的社会关系相关联,目前尝试用NEO4J图数据库引入公务员身份、税务、社保、工商等数据,但受限于人物社会关系相关数据的采集较为困难和较高的敏感度,基于资金往来、人物关系网络查询中的应用成效尚不突出。
(二)多视角研发模型,做好“三项分析”。随着数据共享的途径增多,审计机关可以多来源、多关系、多模式、多视角地研发分析模型,发现审计疑点线索。
一是财务数据之间的关联分析。如利用柱形图直观查看应付款年度变化,可发现账外坐支问题,引出小金库问题。二是业务数据和财务数据之间的关联分析。如在某医保审计中,通过对卫生系统医疗卫生机构收入、成本费用等财务数据与每百张病床药师人数、平均住院日、床位使用率等业务数据的关联、比对分析,揭示了费用控制不够等问题。三是内部系统和外部系统之间的关联分析。如根据业务处理逻辑关系,保障房享受类型有比较严格的条件限制,可通过其他部门业务数据佐证,利用身份证号将享受名单和房产、车辆持有信息数据、公积金数据等关联比对,分析是否存在违规享受保障房等情况。
(三)强化数据深度挖掘,探索“三方面”应用。大数据分析的另一特征就是各种深度挖掘、智能学习算法、可视化工具等先进技术的应用。
一是深度挖掘、智能学习算法的应用探索。近几年,审计人员利用SQL、PYTHON、R、MATLAB等语言实现聚类、分类、孤立点、决策树、逻辑回归、深度学习等数据挖掘算法,如在市本级国库支付数据上应用离群值、聚类分析法查找费用开支异常点,在市本级医保数据中利用APRIORI算法查找药店违规串换药疑点。二是可视化技术的深度应用。如利用PYTHON将某企业名下出租的车库分布和平均月租金在高德地图上展示,直观发现月租金明显低于周边车库的车库点,进一步核查是否存在与企业职员有利益输送。三是多工具的综合利用。在自然资源审计中,应用ARCGIS、CAD、百度实景地图、无人机测绘、平面遥感影像合成技术等,发现侵占基本农田、侵占林地、违法建设、土地闲置等问题;采用JAVA、PYTHON或八爪鱼等爬取招标信息、百度贴吧、网络问政、法院拍卖等网络数据用于比对或验证。
(作者单位:温州市审计局)