审计知识图谱的构建与研究 ——基于Neo4j 的图谱技术

王瑞萍刘峰杨媛琦邢春玉

摘要随着审计业务复杂性和数据体量的范围呈指数级别的增长，传统审计逐渐难以满足信息化查询和审计可视化的现实需求。知识图谱融合大数据和人工智能的前沿技术，为组织、管理和理解互联网海量信息等提供了强大的功能。本文基于Neo4j 图数据库进行审计知识数据的清洗、知识三元组的构建、存储，并完成审计领域的知识图谱，有助于企业和相关部门运用审计知识图谱，将传统的业务推动数据模式转化为数据推动业务模式，提高审计效率，挖掘不易发现的数据式审计证据，为审计需求相关方的决策提供参考价值。

关键词知识图谱三元组注册会计师图关系数据库 Neo4j

知识图谱（Knowledge Graph）是显示知识发展进程与结构关系的一系列各种不同的图形，又被称为知识域可视化或知识领域映射地图，是用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着大数据技术的发展以及海量数据转化为知识时代的到来，知识图谱技术能够从海量非结构化数据（如文本和图像）和结构化数据中进行知识获取、知识共享，并在大数据时代进行知识创新。知识图谱可以高效、直观地描绘出目标对象（如企业，事件等）之间的相关网络，并在多维视角实现对象的真实情况和错综复杂的关系。在企业的实际业务中，面对海量繁多的财务会计凭证、账簿、报表及电子数据等信息，审计人员常常通过抽查来发现问题。知识图谱技术的出现，提供了更高效的审计，提高审计工作效率，可以作为经典审计方法的补充，在理想情况下甚至可以做到全面排查总体，这样不仅能避免审计抽样的风险，同时也降低了审计工作的复杂性和总体风险。本文基于百度问答的数据，对审计领域的一些常见知识进行了收集，基于多源异构审计数据，构建了结构化审计数据库，并通过可视化工具，进行初步的可视化分析产生可视化图表，对审计信息进行分析和使用，有助于审计信息使用者快速了解特定领域的审计知识，为审计需求相关方的决策提供参考价值。

一、研究回顾

知识图谱的应用大概分为通用知识领域和行业知识领域。通用知识领域的应用主要包括智能问答系统，如Google。Google 知识图谱是在Freebase 的基础上研发的，Freebase 是由Kurt Bollacker,Robert Cook, Patrick Tufts(2007)提出的通用人类知识数据库。该数据库具有实用、可扩展、图形化、结构化的特点，其灵感来自于语义Web 研究和协作数据通信，如Wikipedia。Freebase 允许通过HTTP 的图形查询API 进行公共读写访问，用于研究、创建和维护结构化数据以及应用程序构建。近年来，国内学者还开发出一款类似Google 的大规模开放知识图谱---Zhishi.me。Zhishi.me 是从互动百科、百度百科和中文维基百科中提取实体信息，并协调来自各个来源的知识以获得规范的数据集，该图谱的规模虽不及Google 研发的知识图谱，但是却也包含大约1000 万个实体（周盛威，2018）。

知识图谱行业知识领域的应用主要有医学领域、金融领域等。医学领域方面，张崇宇（2019）提出面向临床医疗知识图谱的自动问答方法，主要依托于构建的临床医疗知识图谱的实体、关系及属性，通过数据冷启动机制生成语料，然后基于一种网格Bi-LSTM-CRF 算法的医疗实体识别和基于字-词编码CNN 模型的关系/属性映射方法来完成问题的语义解析任务。然后通过业务分流和查询逻辑转换为Neo4j 图数据库，最终实现医疗应用场景的知识图谱自动问答系统。在金融领域方面，张芸芸、方勇、黄诚（2018）提出基于Neo4j 图谱检测信用卡欺诈的方法，通过图数据库直观显示数据集的特征，并通过FICO评分标准建立FICO 模型，研究表明，该方法可以显著提高信用卡欺诈的识别率。

信息可视化在可视化技术中占有重要地位，通过将抽象数据进行可视化展示，从而加强人们对数据的认知及数据获取效率。Bernal 于1938 年绘制学科图谱，但知识图谱在我国于2005 年开始流行，相比于国外兴起较晚。目前，国内外关于知识图谱的可视化工具层出不穷。国外最为经典的知识图谱可视化分析软件是CiteSpace，它是一款针对科学文献的可视化分析工具，用于计量特定领域的文献，从而探寻该学科的发展方式和知识变迁。该软件适合复杂的网络关系可视化分析，但是CiteSpace被运行在java 平台，适合专业基础较高的人，使用门槛高。在国内，Plantdata 是一款较为成熟的知识图谱可视化平台。与传统知识图谱的可视化平台不同的是，Plantdata 加入了时间属性，支持仪表盘功能，并加入交互操作。其最为出色的一点是支持快速搭建高效精准智能深度搜索系统，并以不同的形态展现给用户，通过对多个维度进行分析，帮助用户做出决策（杨卓，2019）。

pagenumber_ebook=111,pagenumber_book=110

图1 csv 文件中部分数据

图2 节点查询示例图

图3 审计关系查询的节点示例

经过以上对国内外研究的分析和比较，可以看出知识图谱及其可视化服务正在迅猛发展，并开始逐步应用至各行各业。知识可视化的实质是将内容用图形的方式表示，更符合人们对信息的感知与理解，从而进行知识传播（刘琦，2018）。在企业审计领域中，由于审计知识领域涉及范围较广，审计知识之间的关系纷繁复杂，存储、组织和表达方式较为松散，缺乏有效的管理。另外，审计知识检索的效率不高，无法进行关联知识的深度检索。由此可见，将知识图谱与可视化技术运用至企业审计领域中，与检索者产生交互，显示地表达知识的整体性与关联性，将对知识的传播起到推动作用。同时，企业也可通过运用审计知识图谱，将传统的业务推动数据模式转化为数据推动业务模式，提高审计的效率，挖掘不易发现的审计数据，为企业决策提供参考价值（樊世昊，2018）。国内外对于实现信息化审计的研究仍处于起步阶段，由于审计领域涉及范围较广，实现全面的大数据审计仍有难度。目前，虽有一些学者将知识图谱应用在审计领域中，但尚无较为成熟的应用。

pagenumber_ebook=112,pagenumber_book=111

图4 “审计”知识谱图示例

图5 模糊查询

图6 模糊查询结果页面

二、基于Neo4j 图数据库的审计知识图谱的构建

由表3可以看出，南京中考题的知识深度和知识广度都比PISA题要高，说明中考题考察的知识内容比较多，并且需要学生有扎实的数学基础，而PISA题是用少量的知识点考察学生的数学能力.最后根据模型计算，假设α为0.5的前提下，PISA的难度为0.27，中考题的难度为0.31，中考题比PISA题难度高一些，PISA重视学生在不同问题背景下对所学知识和技能的灵活应用，而中考题注重考察学生对所学知识的掌握情况.

（一）审计数据的获取

经过对不同行业和领域对审计需求的调研，发现存在两类数据，第一类是审计领域内的直接数据，第二类是与审计相关联的通识数据。

对于直接数据，先从结构化数据源的相应本体模型出发，定义概念之间的分层关系，然后从多个数据源所定义的概念出发添加实体和属性。通过定义知识图谱的本体模式，以确保知识层次结构的正确性，然后再针对定义好的本体模式，对领域数据中的相关知识进行抽取，通过知识融合、质量评估等阶段，筛选出满足准确率要求的三元组进行企业审计知识图谱的构建，并将其存储于MySQL 数据库进行关联。另外，由于非结构化数据的知识是可信度相对低，抽取的精度也是有限的，这使得它难以满足可用性标准。因此，具有高可信度的半结构化的通识知识数据将被用作构建企业审计知识图谱，作为构建审计知识图谱的另一个层次的数据源，与审计数据互补。

对于通识知识数据，将抽取百科页面中的半结构化数据，作为关键性的知识，转换成三元组，然而，对于关键知识中部分冗余的信息仍然存在，例如，存在实体名称不一样，但实际对应现实世界中的同一实体，需要对这些冗余的知识进行知识融合，保证所构建知识图谱的准确性。由于企业审计知识图谱对准确性的要求较高，关系到企业的利益，因此将采用已有的算法，对这些冗余的知识进行筛选，然后再使用人工进行评估。这些冗余的知识，在百科数据中只是部分存在，而且比例很低，使用这种思路不会造成较高的人工成本，准确度和效率都是可接受的。

（二）审计数据处理

在审计领域中，由于审计知识领域涉及范围较广，审计知识之间的关系纷繁复杂，存储、组织和表达方式较为松散，缺乏有效的管理（刘琦，2018）。另外，审计知识检索的效率不高，无法进行关联知识的深度检索。对此，Neo4j 图数据库的存储结构与领域知识存储与查询功能，不仅能良好地支持知识库中实体关系的管理，还能对知识进行快速查询和清晰展示（叶帅，2019）。为了实现审计数据的信息化，知识图谱中的语义关联可以有效地整合多元异构审计数据。知识图谱的数据通常以三元组(S，P，D)的形式来表示实体、关系、属性之间的关系，因此，本文用Neo4j 图数据库实现实体及实体关系的存储，构建审计知识图谱。Neo4j 是一种图形数据库，是目前图形数据库中使用率最高的库，Neo4j 具备本地存储和数据处理的功能，与一般的数据库有显著的区别，它能够保证数据的完整性和高读写性。审计知识图谱构建的目的是将经典的审计方法与知识图谱可视化方法相结合，从大量的企业结构化和非结构化文本中自动提取三元组，构建审计的知识图谱，方便审计信息使用者快速抓取信息，有助于审计决策的制定和实施。因此，本文从以下几个方面入手，具体探讨审计知识图谱的构建过程。

将上述数据导入Neo4j，其逻辑为：(1)node 相关：CSV 文件首列为Source 节点，第三列为Target 节点，第二列为relation（关系）。消除完重复数据后，为每个节点生成唯一的id 和name 字段，方便查看节点的属性。（2）relation 相关：每种关系单独生成一个关系类型，这样在进行后续的查询操作时可以针对某个关系或节点直接进行查询。关系两端的node 用生成的id 进行标示。(3)数据导入生成知识图谱：清空Neo4j 现有的graph 并重启Neo4j 程序。若启动Neo4j 程序需要在cmd 中输入如指令，指令输入完成后打开Neo4j，利用Neo4j 的Cypher 语句进行查询。

（三）审计数据的导入

本文采用Python 与Neo4j 图数据库连接的方式，进行数据导入工作。首先需要将已有的CSV 格式的数据导入py2neo 库，需在Python中输入如下代码：from py2neo import Graph, Node, Relationship,Subgraph。随后建立时间模块与导入操作数据需要使用的模块。下一步需要在Neo4j 中运用Cypher 语句建立索引、提高查询速度，输入CREATE 语句：CREATE INDEX FOR (n: Entity) ON (n.name)。之后需在Python 中设置自己本地的url与Neo4j 库的用户名与密码，即可实现审计数据导入Neo4j，从而完成基于Neo4j 图数据库的审计知识图谱的构建。

三、审计知识图谱的实现

审计知识图谱的实现主要是通过信息抽取、知识融合、图谱的构建与储存等核心技术从大量的异构数据源出发，抽取其中的实体、属性等关键知识及其相互关系，再完成实体对齐与实体消歧等数据融合工作，然后采用符合质量要求的知识构建图谱，并利用MYSQL 数据库对构建好的知识图谱进行储存。在上一节中进行了数据导入工作并在Neo4j 图数据库中构建了企业审计领域知识图谱。Neo4j图数据库中，共设有两种节点类型，分别是Source 节点类型与Target 节点类型。用户可以根据自己的需求进行查询，进而清晰明了地了解节点以及节点与节点之间的关系。

比如，用户需要在Neo4j 中查询某一个节点（node）并且节点类型属于Source 类型时，以查询“中国投资服务网”为例，用户需输入如下查询语句：MATCH(n:Source{name:‘中国投资服务网’})return n，点击运行后会显示出节点‘中国投资服务网’，若用户需要查询节点类型为Target 的节点，只需把查询语句中的Source改为Target 即可进行查询。如图2所示。

再比如，当用户需要在Neo4j 中查询关系（relation）时，需要使用Match 语言进行查询，以查询“审计”关系为例，若想查询图数据库中所有关于“审计”关系的节点，查询语句如下:MATCH（n:Source）-[：‘审计’]-（m:Target）return n,m limit 20。这时图数据库会加载出所有以“审计”关系连接的节点，（其中limit 为控制节点显示数量的参数，可修改为任意数量），查询结果如图3 所示。

对审计领域的知识获得全局认识，亦可以借助知识图谱的手段。审计知识图谱的构建，有助于人们通过节点-关系-节点的方式，方便快捷、清晰明了地获取审计领域的相关知识，完成审计知识的查询和获取。比如对于初次接触审计领域知识的用户而言，可以通过知识图谱的方式查询“审计”相关领域，例如查询对于“审计（独立性的经济监督活动）”相应知识，查询结果如图4 所示，即可通过图谱的方式获得相应审计知识的展示，方便用户快速、系统、较为全面地获得审计领域知识。

另外，知识图谱也提供了强大的模糊查询的功能。当用户在搜索框内输入想要查询的词语，随后会出现下拉框，用户可通过点击某一词语或句子，这时会出现用户搜索的词语的网络关系图。以搜索“cpa”为例，如图5 所示，页面的搜索框下会出现所有包含cpa 字段的词语或语句，可通过点击自己想要查询的范围来进行查询。

例如，以选择以“cpa[注册会计师]”为例，用户点击此词语，页面会展示关于此词语的知识图谱，如图6所示。

除此之外，若用户需要在Neo4j中创建新的节点（node）类型、创建的节点类型与已有的节点建立新的关系（relation），以及删除图数据库中的任意节点等，都可以进行相应语句的编写与操作。这种通过图谱的形式展示出来的、区别于传统的百度搜索查找审计领域知识的方式，是大数据审计、信息化审计和智能化审计发展到一定阶段的产物，有助于用户对审计知识的查询、获取和使用，提高了用户的决策相关性。

通过审计知识图谱的构建，相关人员可以快速准确地了解到当前环境下审计知识的现状，精准抓取审计行业面临的问题等等。对于审计从业人员而言，需要不断加强大数据审计和智能化审计手段，提升审计信息化手段，不断提高审计效率以及准确性。对于被审计单位而言，审计知识图谱的构建有助于企业从内部审计出发，快速精准地挖掘企业面临的审计难题，提升公司内部的管理水平，防患于未然，以降低不必要的损失；并结合注册会计师（CPA）审计的相关知识，加强合作，确保审计意见的正确出具，并不断提升自我在行业中的核心竞争力。对于监管部门而言，通过对审计领域违规问题的查询，可以系统地通过知识谱图的方式展示审计异常的企业以及事务所的情况，实现审计违规的精准查处和精准治理。