数据分析应用中数据采集的时效性与性能如何兼顾?
2022-08-10 15:32:53
次
李总:小王,这个企业生产看板为什么只统计到昨天的数据,今天的产量如何呢?
小王:李总,我们目前的数据同步是凌晨做数据同步,才能去获取生产系统的数据,今天产量数据,需要明天才能查看呢。
李总:为什么不能实时同步刷新呢?这样我们才能及时了解不同车间的生产进度,及时进行计划安排和调整啊。
小王:……
数据工程师可能都知道,在数据分析应用过程中,海量数据的分析计算及分析报告生成需要强大的算力支持,而数据ETL的时候也需要数小时才能完成,故而很多分析场景中,为了保证系统的稳定运行,会牺牲一定的时效性。
但是在实际业务中,越好的时效性保证,越能尽快地发现问题并及时应对。比如制造企业生产设备状态监测、健康预警,零售行业的门店交易情况等,面对这种时效性要求比较高的业务场景,在智能决策应用中,如何保障数据的实时同步,且不影响当前业务系统的运行呢?
这时候就需要变更数据捕获(Change Data Capture,缩写CDC)技术来支持。关于什么是CDC我们在前面的文章中有介绍过,感兴趣的小伙伴可以点击查看【什么是变化数据捕获(CDC)?】
CDC的使用场景有哪些呢?
数据采集的核心问题,CDC都可以解决:
▶数据分发:将一个数据源的数据分发给多个下游业务系统,常用于业务解耦、微服务系统。增强数据在企业内部的流转和应用。
▶数据采集:实时采集数据源变更数据,面向数据仓库、数据湖的ETL数据集成,消除数据孤岛,便于后续的分析。
▶数据同步:通过日志快速获取变更数据,并将数据流推送至目标,常用于数据备份、容灾等,有效降低企业在数据备份中的投入成本。
CDC能力,TempoDF两步即可获取
▶数据抓取与存储,两步就能搞定
Tempo数据工厂(简称TempoDF)是集海量数据集成、实时数据加工、离线数据处理、自定义组件扩展、一体化监控运维五大核心功能的大数据开发平台,为企业用户降低了多源异构数据的融合成本,赋能全链路数据开发,让数据更好发挥其潜在价值。
在Tempo数据工厂平台中,用户可以通过拖拉拽的方式快速配置完成一个实时自助流程进行业务数据的CDC,并且可以进行后续的计算处理,最终将数据写入目标源中,如下图所示:
△实时数据同步
△实时变更数据加工
▶不只是ETL,还可以做数据清洗
结合TempoDF强大的处理引擎,不仅可以让实时数据CDC业务流程操作变得更加快捷简单,还可以根据业务需求,进行数据清洗、计算及指标构建,更好地满足业务智能决策应用。
Tempo数据工厂通过CDC技术可以实现在企业数据应用时提高数据时效性、降低处理数据变更难度的目标。目前已支持多个类型数据库CDC输入,切实解决了企业数据传输速率低下、数据处理难度大、多数据源集成困难等问题。
数字化转型过程中,数据资产化、数据价值化的意义重大,而如何基于业务应用价值,构建更好的数据中台,赋能业务智能决策,需要更多类似CDC这样的技术及应用的加持,美林数据一直致力于为企业提供更好的数据管理与数据分析产品与技术服务。
如果您在数字化转型、数据中台建设、数据治理或者数据分析应用的过程中,有任何的需求,都欢迎您与我们取得联系,美林数据愿与您共同携手,用技术赋能企业数字化转型升级!