2023年8月1日发(作者:)
瓤据庫技术信麵与电睡China Computer & Communication2021年第1期审计数据知识图谱的构建与实现-----基于Neo4j图数据库卢民军叶慕戎张高煜*(上海立信会计金融学院,上海2012〇9)摘要:基于Neo4:j图数据库的知识图谱技术能够将海量审计数据可视化,为高效存储、快速组织和精准表达审计
实体及其之间的数据关联提供支持。审计工作人员通过审计数据知识图谱能够快速获取审计实体信息并挖掘审计实体之
间的潜在数据关联,达到简化审计流程、提高审计效率的目的。基于此,本文重点探讨了审计数据知识图谱的构建与实现,
希望能够为相关研究提供借鉴。关键词:Neo4j图数据库;知识图谱;审计;审计数据中图分类号:G353. 1;
F239.4 文献标识码:A 文章编号:1003-9767 (2021) 01-154-04Construction and Implementation of Knowledge Map of Audit DataBased on the Neo4j Graph DatabaseLU Minjun, YE Murong, ZHANG Gaoyu*(Shanghai
Lixin
University
of
Accounting
and
Finance,
Shanghai 201209,
China)Abstract:
The
knowledge
graph
technology
based
on
the
Neo4j
graph
database
can
visualize
massive
audit
data
and
provide
support
for
efficient
storage,
rapid
organization
and
accurate
expression
of
audit
entities
and
their
data
associations.
Audit
staff
can
quickly
obtain
audit
entity
information
and
explore
potential
data
associations
between
audit
entities
through
the
audit
data
knowledge
graph,
so
as
to
simplify
the
audit
process
and
improve
audit
efficiency.
Based
on
this,
this
article
focuses
on
the
construction
and
realization
of
the
audit
data
knowledge
graph,
hoping
to
provide
a
reference
for
related
ds:
Neo4j
Graph
Database;
knowledge
map;
audit;
audit
data〇引言随着大数据和人工智能技术的快速发展,我国已从信
息化审计时代逐步进入智能化审计时代。知识图谱技术的数
据可视化功能能够高效、直观地构建审计数据源中海量结构
化与非结构化数据之间错综复杂的数据关联网络。传统人工
审计往往只能借助众多的会计凭证、审计报表来检验审计数
据的真实性与可靠性。知识图谱技术在财务数据审计领域的
应用,不仅能够有效提升审计工作效率并简化审计流程,还
能对审计数据进行全方位排查,能够大幅降低审计流程中的
抽样风险与审计工作的整体风险。通过将Ne〇4j图数据库与
Python的py2neo库相结合构建审计数据知识图谱,能够为审计工作者进行数据排查、做出相关决策提供有效的参考。1审计数据知识图谱的发展现状审计工作者利用知识图谱技术能够对抽象的审计数据进
行可视化,从而可以提升审计数据的获取及访问效率。侯洪
沄等运用综合可视化方法对绩效审计领域进行研究,从多元
和动态的角度对我国政府绩效审计领域的审计工作进行梳理
分析,认为政府绩效审计中的信息公开程度大幅提升,但是
政府绩效审计理论与实务结合不够紧密[1]。孟志华等运用知
识图谱技术探究我国知识审计的研究主体问题上,认为知识
审计作为跨学科的新兴领域,其理论基础有待夯实,同时在
构建知识审计模型时应注重系统性与应用性,才能更好地服基金项目:上海立信会计金融学院大学生创新创业训练计划资助(项目编号:S2)。作者简介:卢民军(1999一),男,江西分宜人,本科在读。研宄方向:大数据审计。通信作者:张高燈(1972—),男,湖北房县人,博士研宄生,副教授。研宄方向:大数据审计。E-mail:
zhanggydshfc.
edu.
cn〇154n与电雇2021年第1期China Computer & Communication教锯库妓术务于审计实践p]。樊世昊针对传统人工审计在医保审计过程 计实体与实体关联。中存在的弊端,借助知识图谱技术解决医保全数据模式下的
2.2审计数据的处理数据分散性高、査询结果复杂度高以及医保审计数据的利用
率偏低问题,能够避免传统医保审计流程中的抽样风险审计数据源经过初步清洗与预处理,得到审计数据的<
国内将知识图谱技术应用于审计领域的研究仍处于起步
实体■关系-实体 > 三元组,基于外部存储的方式存储在.xls
阶段。我国学者刘琦通过研究发现由于审计数据的体量巨大,
或者.CSV的文档中。将预处理完的程序导人Python相关程
审计数据之间的关系比较复杂,存储、组织和表达方式较为
序中,<实体-关系-实体>三元组中的元素分别存储在程
松散,缺乏有效的管理[4]。目前,国内虽有不少学者将知识
序内部的主体、关系、客体列表中,并按照<实体-关系-
图谱应用在审计领域中,但尚无较为成熟的应用。实体>的结构一一对应。导入内部存储完成后,对同名实体
进行筛选达到“去重复化”的目的,防止Ne〇4j图数据库在
2基于Ne〇4j图数据库的审计数据知识图谱的构建构建实体的过程中重复创建同名审计实体。2.1审计数据的获取与清洗2.3审计数据的导人经过对部分公司以及会计师事务所提供的相关审计数据
本文采用py2neo库中的Connect〇方法与Neo4j图数据
进行收集与整理,主要存在两种类型的审计数据:第一类是
库进行连接,将处理完的审计数据导人Neo4j图数据库。在
资产负债表、利润表、科目余额表等源于企业内部的结构化
创建审计数据知识图谱的流程中,首先会根据 < 实体-关系-
存储的审计数据;第二类是年报、证监会处罚名单、证监会
实体 > 三元组中的实体数据通过py2neo库中的Node〇方法
公告等源于各类网站、文本的非结构化存储的审计数据。构建审计实体,再根据关系数据通过RelationshipO方法将审
对于结构化存储的审计数据,直接基于结构化数据源的
计实体进行联结,最终通过GraphO方法在Neo4j图数据库
相对应审计实体定义审计实体的数量以及之间的关联层次,
中构成一张完整的审计数据知识图谱。再依据审计实体的相关数据源确定审计实体的相关属性,构
2.4审计数据知识图谱的实现成完善的审计实体与实体关联。对于非结构化存储的审计数
据,需要对审计数据进行预处理,通过自然语言处理技术从
审计数据知识图谱的实现主要源于审计实体与关系的抽
非结构化数据源中抽取相关审计实体、数据关联、实体属性
取、审计数据知识图谱的构建与存储,通过自然语言处理技
等数据源。由于通过自然语言处理技术抽取的相关数据源无
术从海量非结构化的审计数据中抽取其中有效的审计实体、
法有效保证可信度与精准率,因此抽取完成后可通过人工排
实体属性以及实体关联等关键信息进行结构化处理。结构化
査对数据源进行评估,筛査冗余数据与脏数据。最终构成结
处理后的审计数据能够在Neo4j图数据库中构建审计数据知
构化数据源,再依照结构化审计数据处理流程获得完善的审识图谱,如图1所示。imi..I—-
a〇i9/H/15图1审计数据知识ffl谱样例155教据彝技术苣■与电薦China Computer & Communication2021年第1期在构建完成的审计数据知识图谱中,审计数据知识图谱库,Ne〇4j图数据库具备传统数据库所不具备的完整性和高
中包含多种审计实体类型,如公司、凭证字号、摘要、科目读写性。审计数据知识图谱构建是将传统的审计方法与知识
名称、记账金额等。审计工作人员可以根据当前审计需求,图谱的数据可视化功能相结合,从海量的企业内部与外部的
点击相关审计实体节点延展相关节点信息,进而获取审计实结构化和非结构化数据源中自动提取三元组,并通过Python
体之间的直接或者间接关联。同时,审计工作人员也可以通中的py2ne〇库在Ne〇4j图数据库中自动构建审计数据知识图
过传统的Cypher语句进行査询,直接访问目标节点获取相关谱,辅助审计工作者快速访问目标审计实体的相关信息,提
信息,如图2、图3所示。
Ne〇4j升审计决策的制定和实施的效率。是目前所有图形数据库中使用比例最高的图数据图3审计实体相关佶息样例21562021年第1期信懇与电胭China Computer & Communication獻探專技术在审计数据知识图谱的维护方面,Ne〇4j图数据库同样
具备传统数据库所拥有的增、删、改功能。若审计工作者需
要在Ne〇4j中创建新的审计实体节点、审计实体节点的类型
或者在已经存在的审计实体节点之间建立新的关联,审计工
作者都可以通过Cypher语句进行相应编写与操作。同时,审
计工作者还可以直接在审计数据知识图谱中直接打开或者关
闭相关审计实体节点的视角,调整审计数据知识图谱的整体
结构,以满足当前审计数据的可视化需求。知识图谱的形式
所展示的查找审计数据的方式区别于传统的搜索引擎,不仅
兼顾审计数据的高访问性与抽象数据的可视化功能,而且提
供审计工作者挖掘审计实体之间潜在关联的手段,能够大幅
提升审计工作者决策的相关性。3结语作人员能够准确、高效地获取当前审计数据的全方位信息,
精准判断审计数据潜在的风险点与舞弊现象,为审计工作人
员做出相关决策提供更具有价值的参考。因此,将知识图谱
技术和审计领域相结合,将成为未来智能化审计发展的重要
方向。参考文献[1] 侯洪S ,孟志华,余瀚.国内政府绩效审计研究的知识图
谱——基于Citespace的计量分析[J].北京经济管理职业
基于文献计
学院学报,2017,32(2):15-20,29_[2] 孟志华,关瑞娣.国内知识审计研究述评——量和知识图谱的分析[J]•会计之友,2017(7):81-85.[3] 樊世昊.基于知识图谱的审计方法研究[D].南京:南京审
计大学,2018.[4] 刘琦.基于Neo4j的学科知识可视化检索系统的实现[D].
开封:河南大学,2018.虽然我国在知识图谱审计领域仍处于起步阶段,但是
近年来知识图谱审计技术不断更新,审计数据知识图谱的构
建技术也愈加成熟。通过审计数据知识图谱的构建,审计工157
2023年8月1日发(作者:)
瓤据庫技术信麵与电睡China Computer & Communication2021年第1期审计数据知识图谱的构建与实现-----基于Neo4j图数据库卢民军叶慕戎张高煜*(上海立信会计金融学院,上海2012〇9)摘要:基于Neo4:j图数据库的知识图谱技术能够将海量审计数据可视化,为高效存储、快速组织和精准表达审计
实体及其之间的数据关联提供支持。审计工作人员通过审计数据知识图谱能够快速获取审计实体信息并挖掘审计实体之
间的潜在数据关联,达到简化审计流程、提高审计效率的目的。基于此,本文重点探讨了审计数据知识图谱的构建与实现,
希望能够为相关研究提供借鉴。关键词:Neo4j图数据库;知识图谱;审计;审计数据中图分类号:G353. 1;
F239.4 文献标识码:A 文章编号:1003-9767 (2021) 01-154-04Construction and Implementation of Knowledge Map of Audit DataBased on the Neo4j Graph DatabaseLU Minjun, YE Murong, ZHANG Gaoyu*(Shanghai
Lixin
University
of
Accounting
and
Finance,
Shanghai 201209,
China)Abstract:
The
knowledge
graph
technology
based
on
the
Neo4j
graph
database
can
visualize
massive
audit
data
and
provide
support
for
efficient
storage,
rapid
organization
and
accurate
expression
of
audit
entities
and
their
data
associations.
Audit
staff
can
quickly
obtain
audit
entity
information
and
explore
potential
data
associations
between
audit
entities
through
the
audit
data
knowledge
graph,
so
as
to
simplify
the
audit
process
and
improve
audit
efficiency.
Based
on
this,
this
article
focuses
on
the
construction
and
realization
of
the
audit
data
knowledge
graph,
hoping
to
provide
a
reference
for
related
ds:
Neo4j
Graph
Database;
knowledge
map;
audit;
audit
data〇引言随着大数据和人工智能技术的快速发展,我国已从信
息化审计时代逐步进入智能化审计时代。知识图谱技术的数
据可视化功能能够高效、直观地构建审计数据源中海量结构
化与非结构化数据之间错综复杂的数据关联网络。传统人工
审计往往只能借助众多的会计凭证、审计报表来检验审计数
据的真实性与可靠性。知识图谱技术在财务数据审计领域的
应用,不仅能够有效提升审计工作效率并简化审计流程,还
能对审计数据进行全方位排查,能够大幅降低审计流程中的
抽样风险与审计工作的整体风险。通过将Ne〇4j图数据库与
Python的py2neo库相结合构建审计数据知识图谱,能够为审计工作者进行数据排查、做出相关决策提供有效的参考。1审计数据知识图谱的发展现状审计工作者利用知识图谱技术能够对抽象的审计数据进
行可视化,从而可以提升审计数据的获取及访问效率。侯洪
沄等运用综合可视化方法对绩效审计领域进行研究,从多元
和动态的角度对我国政府绩效审计领域的审计工作进行梳理
分析,认为政府绩效审计中的信息公开程度大幅提升,但是
政府绩效审计理论与实务结合不够紧密[1]。孟志华等运用知
识图谱技术探究我国知识审计的研究主体问题上,认为知识
审计作为跨学科的新兴领域,其理论基础有待夯实,同时在
构建知识审计模型时应注重系统性与应用性,才能更好地服基金项目:上海立信会计金融学院大学生创新创业训练计划资助(项目编号:S2)。作者简介:卢民军(1999一),男,江西分宜人,本科在读。研宄方向:大数据审计。通信作者:张高燈(1972—),男,湖北房县人,博士研宄生,副教授。研宄方向:大数据审计。E-mail:
zhanggydshfc.
edu.
cn〇154n与电雇2021年第1期China Computer & Communication教锯库妓术务于审计实践p]。樊世昊针对传统人工审计在医保审计过程 计实体与实体关联。中存在的弊端,借助知识图谱技术解决医保全数据模式下的
2.2审计数据的处理数据分散性高、査询结果复杂度高以及医保审计数据的利用
率偏低问题,能够避免传统医保审计流程中的抽样风险审计数据源经过初步清洗与预处理,得到审计数据的<
国内将知识图谱技术应用于审计领域的研究仍处于起步
实体■关系-实体 > 三元组,基于外部存储的方式存储在.xls
阶段。我国学者刘琦通过研究发现由于审计数据的体量巨大,
或者.CSV的文档中。将预处理完的程序导人Python相关程
审计数据之间的关系比较复杂,存储、组织和表达方式较为
序中,<实体-关系-实体>三元组中的元素分别存储在程
松散,缺乏有效的管理[4]。目前,国内虽有不少学者将知识
序内部的主体、关系、客体列表中,并按照<实体-关系-
图谱应用在审计领域中,但尚无较为成熟的应用。实体>的结构一一对应。导入内部存储完成后,对同名实体
进行筛选达到“去重复化”的目的,防止Ne〇4j图数据库在
2基于Ne〇4j图数据库的审计数据知识图谱的构建构建实体的过程中重复创建同名审计实体。2.1审计数据的获取与清洗2.3审计数据的导人经过对部分公司以及会计师事务所提供的相关审计数据
本文采用py2neo库中的Connect〇方法与Neo4j图数据
进行收集与整理,主要存在两种类型的审计数据:第一类是
库进行连接,将处理完的审计数据导人Neo4j图数据库。在
资产负债表、利润表、科目余额表等源于企业内部的结构化
创建审计数据知识图谱的流程中,首先会根据 < 实体-关系-
存储的审计数据;第二类是年报、证监会处罚名单、证监会
实体 > 三元组中的实体数据通过py2neo库中的Node〇方法
公告等源于各类网站、文本的非结构化存储的审计数据。构建审计实体,再根据关系数据通过RelationshipO方法将审
对于结构化存储的审计数据,直接基于结构化数据源的
计实体进行联结,最终通过GraphO方法在Neo4j图数据库
相对应审计实体定义审计实体的数量以及之间的关联层次,
中构成一张完整的审计数据知识图谱。再依据审计实体的相关数据源确定审计实体的相关属性,构
2.4审计数据知识图谱的实现成完善的审计实体与实体关联。对于非结构化存储的审计数
据,需要对审计数据进行预处理,通过自然语言处理技术从
审计数据知识图谱的实现主要源于审计实体与关系的抽
非结构化数据源中抽取相关审计实体、数据关联、实体属性
取、审计数据知识图谱的构建与存储,通过自然语言处理技
等数据源。由于通过自然语言处理技术抽取的相关数据源无
术从海量非结构化的审计数据中抽取其中有效的审计实体、
法有效保证可信度与精准率,因此抽取完成后可通过人工排
实体属性以及实体关联等关键信息进行结构化处理。结构化
査对数据源进行评估,筛査冗余数据与脏数据。最终构成结
处理后的审计数据能够在Neo4j图数据库中构建审计数据知
构化数据源,再依照结构化审计数据处理流程获得完善的审识图谱,如图1所示。imi..I—-
a〇i9/H/15图1审计数据知识ffl谱样例155教据彝技术苣■与电薦China Computer & Communication2021年第1期在构建完成的审计数据知识图谱中,审计数据知识图谱库,Ne〇4j图数据库具备传统数据库所不具备的完整性和高
中包含多种审计实体类型,如公司、凭证字号、摘要、科目读写性。审计数据知识图谱构建是将传统的审计方法与知识
名称、记账金额等。审计工作人员可以根据当前审计需求,图谱的数据可视化功能相结合,从海量的企业内部与外部的
点击相关审计实体节点延展相关节点信息,进而获取审计实结构化和非结构化数据源中自动提取三元组,并通过Python
体之间的直接或者间接关联。同时,审计工作人员也可以通中的py2ne〇库在Ne〇4j图数据库中自动构建审计数据知识图
过传统的Cypher语句进行査询,直接访问目标节点获取相关谱,辅助审计工作者快速访问目标审计实体的相关信息,提
信息,如图2、图3所示。
Ne〇4j升审计决策的制定和实施的效率。是目前所有图形数据库中使用比例最高的图数据图3审计实体相关佶息样例21562021年第1期信懇与电胭China Computer & Communication獻探專技术在审计数据知识图谱的维护方面,Ne〇4j图数据库同样
具备传统数据库所拥有的增、删、改功能。若审计工作者需
要在Ne〇4j中创建新的审计实体节点、审计实体节点的类型
或者在已经存在的审计实体节点之间建立新的关联,审计工
作者都可以通过Cypher语句进行相应编写与操作。同时,审
计工作者还可以直接在审计数据知识图谱中直接打开或者关
闭相关审计实体节点的视角,调整审计数据知识图谱的整体
结构,以满足当前审计数据的可视化需求。知识图谱的形式
所展示的查找审计数据的方式区别于传统的搜索引擎,不仅
兼顾审计数据的高访问性与抽象数据的可视化功能,而且提
供审计工作者挖掘审计实体之间潜在关联的手段,能够大幅
提升审计工作者决策的相关性。3结语作人员能够准确、高效地获取当前审计数据的全方位信息,
精准判断审计数据潜在的风险点与舞弊现象,为审计工作人
员做出相关决策提供更具有价值的参考。因此,将知识图谱
技术和审计领域相结合,将成为未来智能化审计发展的重要
方向。参考文献[1] 侯洪S ,孟志华,余瀚.国内政府绩效审计研究的知识图
谱——基于Citespace的计量分析[J].北京经济管理职业
基于文献计
学院学报,2017,32(2):15-20,29_[2] 孟志华,关瑞娣.国内知识审计研究述评——量和知识图谱的分析[J]•会计之友,2017(7):81-85.[3] 樊世昊.基于知识图谱的审计方法研究[D].南京:南京审
计大学,2018.[4] 刘琦.基于Neo4j的学科知识可视化检索系统的实现[D].
开封:河南大学,2018.虽然我国在知识图谱审计领域仍处于起步阶段,但是
近年来知识图谱审计技术不断更新,审计数据知识图谱的构
建技术也愈加成熟。通过审计数据知识图谱的构建,审计工157
发布评论