应用电子化 实战 农信行业分布式对象存储应用实践

小编 2025-03-18 电子头条 23 0

实战 农信行业分布式对象存储应用实践

文 / 江西省农村信用社联合社  谢伟

随着IT建设的快速发展和信息系统规模的不断扩大,农信业务系统对非结构化数据的依赖程度越来越高,非结构化数据的读写效率、扩展性、可靠性成为至关重要的课题。本文结合农信行业面临的数据挑战,提出基于分布式对象存储的内容管理平台解决方案。该方案具有高效的数据读写、无限的扩展能力、完整的数据保护等特点。

农信行业面临的数据挑战

1.读写性能瓶颈。 农信业务系统数量庞大,数据规模爆发式增长,如柜面各类业务凭证、借贷业务资料、后督凭证审核等非结构化数据规模巨大,已经达到百TB级,甚至PB级,因此对非结构化数据的读写效率、网络规模、服务器密度提出巨大挑战。

2.横向扩展问题。 随着互联网和云计算的快速发展,分布式已经成为技术发展的趋势,金融业务向移动化发展已成为必然要求,但多数农信内容管理平台仍然使用集中式架构,传统集中式存储架构、关系型数据库的无法横向扩展的问题日益凸显。

3.数据安全问题。 传统架构下,为提高热点数据的读写效率,多数农信使用块存储,甚至磁带库作为冷数据的近线和离线备份,但是因为数据长时间未使用,又缺乏完整的数据校验机制,数据的有效性无法保障。

系统总体设计

针对农信行业的非结构化数据管理需求,基于独立性、标准性、开放性、扩展性原则,构建非结构化数据管理解决方案,实现对各个业务流程的业务凭证、文档、电子邮件、视频信息等非结构化数据的集成,以及差异化的生命周期管理。

内容管理平台划分为接入层、服务层、数据层,以及第三方应用系统四部分。

接入层负责提供统一接口,供前端调用,成为应用系统与平台服务的交互桥梁,支持数据传输、传输加密、流量控制、断点续传、通讯代理等功能;服务层作为内容管理平台的核心组成部分,负责接入认证、负载管理、消息服务,以及非结构化数据的存储、调阅、缓存、分发、归档、转换、OCR,同时对底层存储进行统一封装;数据层为数据持久化层,采用分布式对象存储;第三方应用系统是指接入内容管理平台,使用非结构化数据采集、存储、切片、调阅等功能的业务系统。

技术方案特点

1.高效的数据读写。 首先,农信属于金融行业,数据保留周期长,一方面业务系统流程长,另一方面监管要求客户数据需长期保留,因此随着时间推移,数据规模急速增长。其次,多数农信内容管理平台数据层仍然采用传统的存储技术,利用“在线缓存+近线缓存+离线缓存”三级架构将数据分级,数据读写链路拉长。本方案采用分布式对象存储,是海量非结构化数据存储的最佳解决方案,数据层只有一级架构,具备超高的读写效率,系统设计和硬件配置实现了SSD+HDD混合架构,既发挥了SSD的IOPS和吞吐的优势,又发挥了HDD的容量和价格优势,是目前广泛采用的存储架构。

2.无限的扩展能力。 本方案具有非常灵活的扩展性,接入层、基于Ceph内核开发设计,分布式哈希数据分布算法、分布式无状态客户端、分布式缓存,高效计算出数据的存储位置,服务层采用无状态的分布式微服务架构,数据层采用分布式对象存储。该架构理论上具备无限横向扩展能力,天然支持多活,无备份容灾场景风险极低。

3.完整的数据保护。(1)多副本机制。 为提高数据存储的可靠性,底层磁盘采用多副本技术,理论计算和模拟实验表明,在典型的3副本机制下,不少于30个磁盘的系统中,数据一年内的可靠性可以达到11个9的水平。(2)数据强一致性。 本方案采用分布式对象存储,利用Paxos和Lease机制保证数据的一致性,任何用户读到的数据一定是最近一次成功更新的副本数据。(3)Scrub扫描机制。 利用Scrub机制检查数据,通过后台定期扫描,比较一个对象分别在各个副本的元数据和数据来检查数据是否有效。

纸质文档电子化之后如何高效管理、应用?

数字时代,办公无纸化,大量电子文档应运而生。相比纸质文档,电子文档具有存储方便,易查找,易编辑等优点。

但实际上,除了部分历史留存下来的纸质文档外,新的档案、合同等纸质文档也在不断产生,为方便存储与应用,这些纸质文档将被转换为电子文档。

当前,纸质文档转换为电子文档的技术已经较成熟。利用扫描设备可以把纸质文档扫描成图像文件存储管理;而OCR技术还能提取图像中的符号并转换为文本格式,可供进一步编辑、利用。

为确保纸质文档电子化的结果的准确性、一致性,多数纸质文档会转换成扫描后的图像文件,但这类文档在管理、应用上比普通的文本文档要难。例如,审计部门在查找档案时,要从扫描后的海量图像文件中找到具体的文字内容,依靠人力效率太低。

如何高效管理、应用这部分文档?主要存在以下几个难点:

如何对扫描文件有序编目;图像文件如何高效检索;如何提取有效的文字信息。

针对以上需求和痛点,专业的文件管理系统将是纸质文档电子化之后高效管理、应用的利器。

文件管理系统的智能识别技术能快速将纸质文档转换为电子文档,并利用OCR技术、图像识别技术、NPL自学习平台、自动标签等技术快速从图片文件中提取文字信息进行处理,自动识别证件、识别票据、归档整理,将图片文件转换为易编辑、检索、利用的数据信息,提升办公效率与文档应用。

一、自定义元数据标签

元数据是描述数据的数据,通俗来说就是描述文件信息的数据,包括文件大小,创建时间,文件名等等。文件自动生成的元数据是有限的,不足以我们获取更丰富的文件信息,扩展元数据的属性对电子化之后的图像文件进行编目很关键。

够快云库的自定义的元数据标签,就可以为图像文件打上多维度的元数据标签,包含了字段、数值等。例如,扫描后的发票可以利用OCR技术提取关键字段,把发票抬头、金额、开户行、地址等关键字段转换为元数据标签。

而档案类的图像文件用元数据标签扩展属性,打上档案编号、时间、对象等元数据标签,能辅助实现编目动作,就像图书馆的索引卡片一样。

二、元数据检索与应用

图像文件的一大应用痛点就是难快速定位、有效检索。在自定义元数据标签的基础上,这个问题可以有效解决。

例如,要检索某个档案文件,可以通过唯一的档案编号元数据查找,或者检索档案的时间范围等,都是通过已有的元数据标签来实现检索。

也可以通过元数据设置文件到期提醒。例如,某份合同文件将在某天到期,可以在元数据设置里提前预设到期时间,到期后系统自动提醒,合同、档案类文件管理更精准。

三、关键信息提取

扫描后的图像文件,最关键的还是图片中的文字信息。够快云库的智能检索支持OCR技术,可对图像文件识别并转换为可编辑的文本。

例如,票据扫描件可通过OCR技术自动识别,对发票金额、抬头等关键信息抽取,转换为可进一步编辑、利用的文本,实现纸质文档电子化之后的有效利用。

在纸质文档电子化的趋势下,高效管理、应用电子化之后的文件是重点,而元数据技术、智能识别技术则是实现这个问题的关键,只有继续坚持技术创新才能应对更复杂的文件管理。

相关问答

经过20余年的发展, 电子化 装备已具相当规模.特别是随着电子...

[最佳回答]Accountingofourcountrystationsinthelate70,aftermorethan20yearsofdevelopment,electronic...