图论应用于电子 6个方面分析：知识图谱的价值和应用

6个方面分析：知识图谱的价值和应用

知识对于人工智能的价值就在于，让机器具备认知能力和理解能力。构建知识图谱这个过程的本质，就是让机器形成认知能力，理解这个世界。

一、知识图谱无处不在

说到人工智能技术，人们首先会联想到深度学习、机器学习技术；谈到人工智能应用，人们很可能会马上想起语音助理、自动驾驶等等，各行各业都在研发底层技术和寻求AI场景，却忽视了当下最时髦也很重要的AI技术：知识图谱。

当我们进行搜索时，搜索结果右侧的联想，来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息，从新闻、购物到吃饭、娱乐。

个性化推荐作为一种信息过滤的重要手段，可以依据我们的习惯和爱好推荐合适的服务，也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景，都越来越依赖知识图谱。

二、知识图谱与人工智能的关系

知识图谱用节点和关系所组成的图谱，为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构，对机器来说就是图谱。

形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面，或者说知识结构，本质就是不同的知识图谱。正是因为有获取和形成知识的能力，人类才可以不断进步。

知识图谱对于人工智能的重要价值在于，知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力，但这种感知能力不是人类的专属，动物也具备感知能力，甚至某些感知能力比人类更强，比如：狗的嗅觉。

而“认知语言是人区别于其他动物的能力，同时，知识也使人不断地进步，不断地凝练、传承知识，是推动人不断进步的重要基础。” 知识对于人工智能的价值就在于，让机器具备认知能力。

而构建知识图谱这个过程的本质，就是让机器形成认知能力，去理解这个世界。

三、图数据库

知识图谱的图存储在图数据库（Graph Database）中，图数据库以图论为理论基础，图论中图的基本元素是节点和边，在图数据库中对应的就是节点和关系。用节点和关系所组成的图，为真实世界直观地建模，支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。

目前市面上较为流行的图数据库有：Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库，一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”，与传统的关系型数据库相比，图数据库更擅长建立复杂的关系网络。

图数据库将原本没有联系的数据连通，将离散的数据整合在一起，从而提供更有价值的决策支持。

四、知识图谱的价值

知识图谱用节点和关系所组成的图谱，为真实世界的各个场景直观地建模，运用“图”这种基础性、通用性的“语言”，“高保真”地表达这个多姿多彩世界的各种关系，并且非常直观、自然、直接和高效，不需要中间过程的转换和处理——这种中间过程的转换和处理，往往把问题复杂化，或者遗漏掉很多有价值的信息。

在风控领域中，知识图谱产品为精准揭露“欺诈环”、“窝案”、“中介造假”、“洗钱”和其他复杂的欺诈手法，提供了新的方法和工具。尽管没有完美的反欺诈措施，但通过超越单个数据点并让多个节点进行联系，仍能发现一些隐藏信息，找到欺诈者的漏洞，通常这些看似正常不过的联系（关系），常常被我们忽视，但又是最有价值的反欺诈线索和风险突破口。

尽管各个风险场景的业务风险不同，其欺诈方式也不同，但都有一个非常重要的共同点——欺诈依赖于信息不对称和间接层，且它们可以通过知识图谱的关联分析被揭示出来，高级欺诈也难以“隐身”。

凡是有关系的地方都可以用到知识图谱，事实上，知识图谱已经成功俘获了大量客户，且客户数量和应用领域还在不断增长中，包括沃尔玛、领英、阿迪达斯、惠普、FT金融时报等知名企业和机构。

目前知识图谱产品的客户行业，分类主要集中在：社交网络、人力资源与招聘、金融、保险、零售、广告、物流、通信、IT、制造业、传媒、医疗、电子商务和物流等领域。在风控领域中，知识图谱类产品主要应用于反欺诈、反洗钱、互联网授信、保险欺诈、银行欺诈、电商欺诈、项目审计作假、企业关系分析、罪犯追踪等场景中。

那相比传统数据存储和计算方式，知识图谱的优势显现在哪里呢？

（1）关系的表达能力强

传统数据库通常通过表格、字段等方式进行读取，而关系的层级及表达方式多种多样，且基于图论和概率图模型，可以处理复杂多样的关联分析，满足企业各种角色关系的分析和管理需要。

（2）像人类思考一样去做分析

基于知识图谱的交互探索式分析，可以模拟人的思考过程去发现、求证、推理，业务人员自己就可以完成全部过程，不需要专业人员的协助。

（3）知识学习

利用交互式机器学习技术，支持根据推理、纠错、标注等交互动作的学习功能，不断沉淀知识逻辑和模型，提高系统智能性，将知识沉淀在企业内部，降低对经验的依赖。

（4）高速反馈

图式的数据存储方式，相比传统存储方式，数据调取速度更快，图库可计算超过百万潜在的实体的属性分布，可实现秒级返回结果，真正实现人机互动的实时响应，让用户可以做到即时决策。

五、知识图谱的主要技术

5.1 知识建模

知识建模，即为知识和数据进行抽象建模，主要包括以下5个步骤：

以节点为主体目标，实现对不同来源的数据进行映射与合并。（确定节点）利用属性来表示不同数据源中针对节点的描述，形成对节点的全方位描述。（确定节点属性、标签）利用关系来描述各类抽象建模成节点的数据之间的关联关系，从而支持关联分析。（图设计）通过节点链接技术，实现围绕节点的多种类型数据的关联存储。（节点链接）使用事件机制描述客观世界中动态发展，体现事件与节点间的关联，并利用时序描述事件的发展状况。（动态事件描述）

5.2 知识获取

从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱，这一过程我们称为知识获取。针对不同种类的数据，我们会利用不同的技术进行提取。

从结构化数据库中获取知识： D2R。

难点： 复杂表数据的处理。

从链接数据中获取知识： 图映射。

难点： 数据对齐。

从半结构化（网站）数据中获取知识： 使用包装器。

难点： 方便的包装器定义方法，包装器自动生成、更新与维护。

从文本中获取知识： 信息抽取。

难点： 结果的准确率与覆盖率。

5.3 知识融合

如果知识图谱的数据源来自不同数据结构的数据源，在系统已经从不同的数据源把不同结构的数据提取知识之后，接下来要做的是把它们融合成一个统一的知识图谱，这时候需要用到知识融合的技术（如果知识图谱的数据结构均为结构化数据，或某种单一模式的数据结构，则无需用到知识融合技术）。

知识融合主要分为数据模式层融合和数据层融合，分别用的技术如下：

数据模式层融合：概念合并、概念上下位关系合并、概念的属性定义合并。数据层融合：节点合并、节点属性融合、冲突检测与解决（如某一节点的数据来源有：豆瓣短文、数据库、网页爬虫等，需要将不同数据来源的同一节点进行数据层的融合）。

由于行业知识图谱的数据模式通常采用自顶向下（由专家创建）和自底向上（从现有的行业标准转化，从现有高质量数据源（如百科）转化）结合的方式，在模式层基本都经过人工的校验，保证了可靠性，因此，知识融合的关键任务在数据层的融合。

5.4 知识存储

图谱的数据存储既需要完成基本的数据存储，同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用，因此需要存储以下信息：三元组（由开始节点、关系、结束节点三个元素组成）知识的存储、事件信息的存储、时态信息的存储、使用知识图谱组织的数据的存储。

其关键技术和难点就在于：

大规模三元组数据的存储；知识图谱组织的大数据的存储；事件与时态信息的存储；快速推理与图计算的支持。

5.5 知识计算

知识计算主要是在知识图谱中知识和数据的基础上，通过各种算法，发现其中显式的或隐含的知识、模式或规则等，知识计算的范畴非常大，这里主要讲三个方面：

图挖掘计算： 基于图论的相关算法，实现对图谱的探索和挖掘。本体推理： 使用本体推理进行新知识发现或冲突检测。基于规则的推理： 使用规则引擎，编写相应的业务规则，通过推理辅助业务决策。

5.6 图挖掘和图计算

知识图谱之上的图挖掘和计算主要分以下6类：

第一是图遍历，知识图谱构建完之后可以理解为是一张很大的图，怎么去查询遍历这个图，要根据图的特点和应用的场景进行遍历；第二是图里面经典的算法，如最短路径；第三是路径的探寻，即给定两个实体或多个实体去发现他们之间的关系；第四是权威节点的分析，这在社交网络分析中用的比较多；第五是族群分析；第六是相似节点的发现。

5.7 可视化技术

目前两个比较常见的可视化工具是：D3.js和ECharts。

D3.js： 全称Data-Driven Documents，是一个用动态图形显示数据的JavaScript库，一个数据可视化工具，它提供了各种简单易用的函数，大大方便了数据可视化的工作。ECharts： 是一款由百度前端技术部开发的，同样基于Javascript的数据可视化图标库。它提供大量常用的数据可视化图表，底层基于ZRender（一个全新的轻量级canvas类库），创建了坐标系、图例、提示、工具箱等基础组件，并在此上构建出折线图（区域图）、柱状图（条状图）、散点图（气泡图）、饼图（环形图）、K线图、地图、力导向布局图以及和弦图，同时支持任意维度的堆积和多图表混合展现。

六、知识图谱的应用

知识图谱的应用场景很多，除了问答、搜索和个性化推荐外，在不同行业不同领域也有广泛应用，以下列举几个目前比较常见的应用场景。

6.1 信用卡申请反欺诈图谱

6.1.1 欺诈手法

银行信用卡的申请欺诈包括个人欺诈、团伙欺诈、中介包装、伪冒资料等，是指申请者使用本人身份或他人身份或编造、伪造虚假身份进行申请信用卡、申请贷款、透支欺诈等欺诈行为。

欺诈者一般会共用合法联系人的一部分信息，如电话号码、联系地址、联系人手机号等，并通过它们的不同组合创建多个合成身份。比如：3个人仅通过共用电话和地址两个信息，可以合成9个假名身份，每个合成身份假设有5个账户，总共约45个账户。假设每个账户的信用等级为20000元，那么银行的损失可能高达900000元。

由于拥有共用的信息，欺诈者通过这些信息构成欺诈环。

一开始，欺诈环中的账户使用正常，欺诈者会进行正常的购买、支付和还款行为，这种行为称为“养卡”。“养卡”了一段时间后，信用额度会有所增加，随着时间推移会增长到一个让欺诈者相对“满意”的额度。

突然有一天欺诈环“消失”了，环内成员都最大化地使用完信用额度后跑路了。

6.1.2 知识图谱解决信用卡申请反欺诈问题

使用传统的关系数据库，来揭露欺诈环需要技术人员执行一系列的复杂连接和自连接，而且查询构建起来非常复杂，查询效率低、速度慢且成本高。

知识图谱产品利用图数据库的天然优势，直接将银行欺诈环节可能涉及的所有有用的数据字段：如申请号、账户、身份证、手机、地址、家庭电话、联系人、设备指纹等设计成图谱的节点，定义好图谱所需的所有节点和节点属性后，定义两两节点间的关系。

如：申请号节点与设备指纹节点相连构成“申请设备”关系，人节点与地址节点相连构成“申请人地址”关系。

根据业务上设计好的图谱进行建图，建图后，用户可以直接在关联图谱平台上，输入某个节点值查询节点的关联信息，如：输入某个黑手机号，看其关联5层范围内的涉及到的申请人信息，看该节点是否与其他节点关联成欺诈环，看节点与历史的黑节点间是否有过关联等等。

用户可借助知识图谱产品，在贷前防御风险，贷中进行关联分析找出可疑点，控制风险，贷后进行风险把关，让损失降到最低。

6.2 企业知识图谱

目前金融证券领域，应用主要侧重于企业知识图谱。企业数据包括：企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据等。

利用知识图谱融合以上企业数据，可以构建企业知识图谱，并在企业知识图谱之上利用图谱的特性，针对金融业务场景有一系列的图谱应用，举例如下：

（1）企业风险评估

基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据，利用图计算等方法构建科学、严谨的企业风险评估体系，有效规避潜在的经营风险与资金风险。

（2）企业社交图谱查询

基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散，形成一个网络关系图，直观立体展现企业关联。

（3）企业最终控制人查询

基于股权投资关系寻找持股比例最大的股东，最终追溯至某自然人或国有资产管理部门。

（4）企业之间路径发现

在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中，查询企业之间的最短关系路径，衡量企业之间的联系密切度。

（5）初创企业融资发展历程

基于企业知识图谱中的投融资事件发生的时间顺序，记录企业的融资发展历程。

（6）上市企业智能问答

用户可以通过输入自然语言问题，系统直接给出用户想要的答案。

6.3 交易知识图谱

金融交易知识图谱在企业知识图谱之上，增加交易客户数据、客户之间的关系数据以及交易行为数据等，利用图挖掘技术，包括很多业务相关的规则，来分析实体与实体之间的关联关系，最终形成金融领域的交易知识图谱。

在银行交易反欺诈方面，可以从从身份证，手机号、设备指纹、IP等多重维度对持卡人的历史交易信息进行自动化关联分析，关联分析出可疑人员和可疑交易。

6.4 反洗钱知识图谱

对于反洗钱或电信诈骗场景，知识图谱可精准追踪卡卡间的交易路径，从源头的账户/卡号/商户等关联至最后收款方，识别洗钱/套现路径和可疑人员，并通过可疑人员的交易轨迹，层层关联，分析得到更多可疑人员、账户、商户或卡号等实体。

6.5 信贷/消费贷知识图谱

对于互联网信贷、消费贷、小额现金贷等场景，知识图谱可从身份证、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多重维度对申请人的申请信息，进行自动化关联分析，通过关系关系并结合规则，识别图中异常信息，有效判别申请人信息真实性和可靠性。

6.6 内控知识图谱

在内控场景的经典案例里，中介人员通过制造或利用对方信息的不对称，将企业存款从银行偷偷转移，在企业负责人不知情的情况下，中介已把企业存在银行的全部存款转移并消失不见。通过建立企业知识图谱，可将信息实时互通，发现一些隐藏信息，寻找欺诈漏洞，找出资金流向。

涨姿势：深度学习vs机器学习vs模式识别

本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别)，以及他们与2015年最热门的科技主题(机器人和人工智能)的联系。

图1 人工智能并非将人放入一台计算机中(图片来源于 WorkFusion 的博客)

环绕四周，你会发现不缺乏一些初创的高科技公司招聘机器学习专家的岗位。而其中只有一小部分需要深度学习专家。我敢打赌，大多数初创公司都可以从最基本的数据分析中获益。那如何才能发现未来的数据科学家?你需要学习他们的思考方式。

三个与“学习”高度相关的流行词汇

模式识别(Pattern recognition)、机器学习(machine learning)和深度学习(deep learning)代表三种不同的思想流派。模式识别是最古老的(作为一个术语而言，可以说是很过时的)。机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。而深度学习是非常崭新和有影响力的前沿领域，我们甚至不会去思考后深度学习时代。我们可以看下图所示的谷歌趋势图。可以看到：

1)机器学习就像是一个真正的冠军一样持续昂首而上;

2)模式识别一开始主要是作为机器学习的代名词;

3)模式识别正在慢慢没落和消亡;

4)深度学习是个崭新的和快速攀升的领域.

2004年至今三个概念的谷歌搜索指数(图来源于谷歌趋势 )

1. 模式识别：智能程序的诞生

模式识别是70年代和80年代非常流行的一个术语。它强调的是如何让一个计算机程序去做一些看起来很“智能”的事情，例如识别“3”这个数字。而且在融入了很多的智慧和直觉后，人们也的确构建了这样的一个程序。例如，区分“3”和“B”或者“3”和“8”。早在以前，大家也不会去关心你是怎么实现的，只要这个机器不是由人躲在盒子里面伪装的就好(图2)。不过，如果你的算法对图像应用了一些像滤波器、边缘检测和形态学处理等等高大上的技术后，模式识别社区肯定就会对它感兴趣。光学字符识别就是从这个社区诞生的。因此，把模式识别称为70年代，80年代和90年代初的“智能”信号处理是合适的。决策树、启发式和二次判别分析等全部诞生于这个时代。而且，在这个时代，模式识别也成为了计算机科学领域的小伙伴搞的东西，而不是电子工程。从这个时代诞生的模式识别领域最著名的书之一是由Duda & Hart执笔的“模式识别(Pattern Classification)”。对基础的研究者来说，仍然是一本不错的入门教材。不过对于里面的一些词汇就不要太纠结了，因为这本书已经有一定的年代了，词汇会有点过时。

图2 一个字符“3”的图像被划分为16个子块

自定义规则、自定义决策，以及自定义“智能”程序在这个任务上，曾经都风靡一时。

小测试：计算机视觉领域最著名的会议叫CVPR，这个PR就是模式识别。你能猜出第一届CVPR会议是哪年召开的吗?

2. 机器学习：从样本中学习的智能程序

在90年代初，人们开始意识到一种可以更有效地构建模式识别算法的方法，那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。因此，我们搜集大量的人脸和非人脸图像，再选择一个算法，然后冲着咖啡、晒着太阳，等着计算机完成对这些图像的学习。这就是机器学习的思想。 “机器学习”强调的是，在给计算机程序(或者机器)输入一些数据后，它必须做一些事情，那就是学习这些数据，而这个学习的步骤是明确的。相信我，就算计算机完成学习要耗上一天的时间，也会比你邀请你的研究伙伴来到你家然后专门手工得为这个任务设计一些分类规则要好。

图3 典型的机器学习流程(图来源于 Natalia Konstantinova 博士的博客)

在21世纪中期，机器学习成为了计算机科学领域一个重要的研究课题，计算机科学家们开始将这些想法应用到更大范围的问题上，不再限于识别字符、识别猫和狗或者识别图像中的某个目标等等这些问题。研究人员开始将机器学习应用到机器人(强化学习，操控，行动规划，抓取)、基因数据的分析和金融市场的预测中。另外，机器学习与图论的联姻也成就了一个新的课题---图模型。每一个机器人专家都“无奈地”成为了机器学习专家，同时，机器学习也迅速成为了众人渴望的必备技能之一。然而，“机器学习”这个概念对底层算法只字未提。我们已经看到凸优化、核方法、支持向量机和Boosting算法等都有各自辉煌的时期。再加上一些人工设计的特征，那在机器学习领域，我们就有了很多的方法，很多不同的思想流派，然而，对于一个新人来说，对特征和算法的选择依然一头雾水，没有清晰的指导原则。但，值得庆幸的是，这一切即将改变……