文/北京理工大学计算机学院史立彬
2025年开始执行的《中华人民共和国反洗钱法》把洗钱犯罪修订为:通过各种方式掩饰、隐瞒毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪、金融诈骗犯罪和其他犯罪所得及其收益的来源、性质的洗钱活动。在原七种洗钱上游犯罪后增加了“和其他犯罪”五个字。显然,这种修改揭示了洗钱犯罪的主要类型和危害,突出了反洗钱工作的重心和重点,扩大了洗钱上游犯罪的范围,对反洗钱工作提出了准确指引和更高要求。
由于缺乏认定可疑洗钱交易的量化标准、技术方法和富有经验的人员,可疑洗钱交易报告存在明显短板,一直都是反洗钱工作的重点、难点和焦点。可以预料,洗钱犯罪案件会大量增加,反洗钱工作压力也会增大,使建立可疑洗钱交易报告模型成为紧迫任务。
建立可疑洗钱交易报告模型的目标和步骤
建立模型的目标是:从海量的银行交易中发现、认定和报告隐藏的洗钱交易。从数学角度看,这显然是神经网络分类问题。但建立模型的基石在于反洗钱的业务需求,先要做好业务需求分析,确定简单、实用的数据结构。
1.数据准备:划分银行资金和账户性质。从防范洗钱风险角度,银行资金性质分为四类:洗钱资金、可疑资金(违法交易资金)、关注资金(违规交易资金)和正常资金。银行账户性质也分为四类:洗钱账户(有较大数量洗钱资金流动)、可疑账户(有少量洗钱资金流动,或有大量可疑资金流动)、关注账户(有一定数量可疑资金流动,或有大量关注资金流动)、正常账户。
这是建立防范洗钱模型的起始点,也是编制算法的基准点,要认真学习反洗钱工作的实践经验,如2018年8月中国人民银行发布的《可疑交易类型和识别点对照表》,总结了12类常见可疑交易类型及识别点,包括客户信息、资金交易的行为可疑特征,并提出了相关的量化指标。
2.建立模型的起点:认定洗钱账户资金的性质。对判决的洗钱案件及账户,不能一判了之。要对照洗钱账户的资金往来记录,认真审查每笔交易的存留文档,使用洗钱资金性质认定软件,结合工作人员金融功底认定资金性质。既然是洗钱账户的资金交易,不管是自洗钱,还是他洗钱,只要存在掩饰、隐瞒资金来源或性质的行为,就是洗钱交易。这是模型的数据基础,要注重正确性和可靠性。
在认定洗钱账户资金性质后,按对方账户ID信息确定借贷双方组成的资金路径,并按时间顺序审视同一账户资金的内在关系,建立连通的资金路径向量序列,参照图论认知洗钱资金路径图形的特征模式。向对方账户发送消息时,要满足统计每类资金金额与笔数的需要,为对方账户认定性质提供数据支持。
3.初始目标:构造评估当地洗钱风险的资金流通网络。逐步输入其他银行账户(可能包括改头换面的地下钱庄、非法支付平台、数字货币及离岸公司开设的账户)资金往来的信息。使用可疑、关注性质资金认定软件分别确定每笔资金的性质。选用适合的数据库软件(如Neo4j、HugeGraph)进行资金数据和关系的管理分析,设定图向量输出显示规则,如线条颜色表示资金性质,粗细表示资金数额。开发专用算法对资金向量进行统计计算。选用网络立体可视化软件(如Gephi、Cytoscape)按交易时间动态显示每个账户资金交易状态和每类资金笔数/金额变化,构造本地资金网络实时视图以供评估洗钱风险。
4.系统目标:透析可疑资金路径图形与洗钱资金路径模式的匹配程度。在资金往来数据不断充足和资金路径匹配算法不断优化的过程中,不断完善以节点表示账户,以资金往来表示关系,以资金向量序列表示资金流动路径,以资金路径图形特征表示账户交易行为的资金流通网络,经过深入的人工智能学习训练,使用神经网络和图计算发现洗钱资金渠道,认知洗钱资金路径图形特征模式,辨析可疑资金路径特征与洗钱资金路径模式的关联匹配程度,从现代金融科技角度助力正确判断报告可疑洗钱交易。
建立可疑洗钱交易报告模型的基本思路和技术路线
本模型以资金路径图形特征模式为分类判断要素。“资金路径图形”就是以交易资金贷方为起点、借方为终点的图向量序列组成的、有一定几何形状的图形。“特征模式”是指图形构成要素属性的特征规律。即把一个账户的资金路径图向量(一组交易行为)作为输入对象,使用智能算法分析提取资金路径图形构成要素的组成、顺序和特征规律,与洗钱资金路径的模式进行对比匹配,最终输出模型分类评估的预测结果。简而言之,本模型算法就是对资金路径图形构成要素的特征进行比对分类、匹配预估的一种模式识别(PatternRecognition)方法。
图形的构成要素是节点(账户,顶点)和边(资金往来,有向图)。节点的属性特征有形状(账户性质)、大小(重要性)、度(相连边数量,有出度、入度)、中心性(影响力,有度中心性、接近中心性、介数中心性)等。边的属性特征有颜色(资金性质)、权重(金额)、方向(从贷方指向借方)等。拓扑结构特征有路径(资金路径及边的序列)、连通性(连通程度)、环(封闭路径,起点与终点相同且路径边不重复)、子图(更小功能的图形)等。
每个构成要素的属性特征都有一个或几个指标参数对映,单独或组合使用这些指标参数就能充分表达数据、数据关系和现实关系。我们做逆向思考:通过专业算法在复杂图形中发现的资金路径特征模式,如与确认的洗钱资金路径模式类同,就说明该网络业务操作过程可被合理怀疑为洗钱活动。即本模型基本思路是:以洗钱资金路径图形特征模式作参照,与可疑资金路径特征进行比对、关联和匹配等计算,根据这两种资金路径图形特征的关联度和相似度,判断可疑资金属于洗钱交易的怀疑程度。当然,具体选择哪些构成要素的属性特征指标为判断要素和权重,还有一个在实践中逐步摸索和试错的过程。
参考Pregel编程模型的成功经验,本模型技术路线如下。
1.建立以Vertex预定义类为核心的数据框架。顶点数据结构要实用、简单和规范。通过继承Vertex类定义三个模板参数,包括银行账户及属性为顶点值、账户资金往来及属性为边值、顶点通信报文为消息值。其中,顶点值——银行账户属性图向量详见表。
表银行账户属性图向量
2.重写Computer()函数统一顶点数据处理流程。通过重写Compute()函数统一顶点计算流程。图计算过程被分解为一系列超级步。每一超步就是一次迭代,分三个阶段。
一是本地计算,读取处理前超步发送的消息。顶点并行Computer()函数,执行用户定义的数据处理要求,直到没有消息发送或达到预设的最大迭代次数。
二是通信,指定目标顶点ID和通信内容后,向目标顶点发送信息,但目标顶点接收和处理信息在下一超步完成。
三是栅栏同步,等待所有顶点完成本超步的计算和消息发送。
Computer()函数在顶点完整计算逻辑和规范处理数据方面起着重要作用。
3.通过水平/垂直结构配合高效处理图数据。采用水平/垂直结构配合方式提高数据处理效率。为发挥信息资源效能,根据实际水平分割大型图为多个分区(包含某分支机构所有账户),每个分区划分多个Worker(包含一定数量账户及以其为起点的边)。使用Master管理分区当前活动Worker列表,合理分配Worker计算负载,提高资源利用率和计算效率。在垂直结构方面,优化每个节点计算资源,提高计算能力,通过优化Computer(),优化Worker进程性能等构建高效、可扩展的图数据处理平台。
在持续使用、优化模型过程中,不断深刻理解可疑洗钱交易报告的业务需求,不断完善模型实用功能,提高数据处理性能,助力做好可疑交易报告工作,提供可疑交易线索,提高反洗钱工作水平。
(此文刊发于《金融电子化》2025年4月下半月刊)