在企业数仓建设初期,为了保障数字化转型的落地效果,需要提供充足的数据资源,除了基础的数据抽取、转换和加载等过程,数据的同步也是重要环节之一。数据同步常用于数仓ODS、ADS层的建设,通过不同数据源的同步,保障数据的及时性和准确性,从而满足不同业务部门和用户的需求。
在过去,企业在处理数据同步时,常常需要SQL编码辅助完成,随着业务发展,企业的数据量飞速增长,传统的编码方式也逐渐显露弊端:
▶ 无法精准匹配:通过编写SQL进行同步策略,难以与场景实现精准匹配;
▶ 操作门槛高:涉及到前置SQL、后置SQL等代码过程,需要配备专业的技术开发人员;
▶ 开发周期长:如有多个任务,需一个个单独配置,耗时较长,效率低。
针对以上痛点,Tempo 数据工厂新推出【场景化数据同步】功能,根据业务需求及数据特征,提取关键场景,通过点选方式,快速匹配不同的集成场景。
该功能将常用数据集成业务场景进行抽取,包含周期增量、一次全量周期增量、周期全量三种同步策略,可快速完成数据集成任务配置。
01、周期增量
周期增量通常指的是在数据集成过程中,从源系统中提取数据到目标系统中的增量数据量。数据集成是将来自不同数据源的数据整合到一个统一的目标系统中的过程,以实现数据的统一管理和共享。
以T企业为例,由于企业内部数据存量较大,每次全量读取数据都需要很长时间才能完成迁移工作,于是T企业采用增量的方式,按照一定的调度频率读取周期内的新增数据,迁移到数据仓库中。
读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo数据工厂可提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
02、一次全量周期增量
一次全量周期增量是指在数据集成过程中,进行一次全量数据抽取后的下一个周期内的增量数据量。全量数据抽取是指将源系统中的所有数据都抽取到目标系统中,以确保目标系统中的数据与源系统中的数据完全一致。
T企业内部有一定的历史存量数据,每天也会产生新的数据,建设数仓时采用一次全量周期增量的模式,先把历史存量数据全部抽取到目标端,之后每次都只取增量数据。
读取到来源端的数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂平台提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
03、周期全量
周期全量是指在一定的时间周期内,将所有的数据源进行全量的数据抽取和集成。这意味着每个周期都会将所有的数据源中的数据全部抽取出来,并进行整合和合并,以保证数据的完整性和一致性。
T企业的历史数据存量小,数据中没有日期时间字段帮助获取增量数据,因此采用全量方式进行数据抽取。
读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂提供以下三种策略:
▶先删后增:清理当期数据,插入增量数据
▶缓存表:缓存输出数据,交换加载目标数据
▶备份表:目标表数据,对历史数据进行备份
*缓存表:当目标端数据一直被应用时(如被BI看板引用时),目标表不能为空,则需要将包含新增或修改的全量数进行缓存,再将缓存表和目标表重命名替换。
*备份表:当历史数据需要备份时,先按照版本写入目标数据,再次进行写入时将清理数据过期版本数据。
另外,在实际数仓建设过程中,会面临多系统多表的集成工作,为了提高集成效率,TempoDF新增支持【批量数据同步】任务配置,可快速将来源端的多张表批量迁移至目标数据源。
功能亮点
▶ 更匹配业务场景
对同步场景进行细化,便于运维人员、实施人员、客户方更好理解,更好进行业务匹配。
▶ 降低操作门槛
将编写SQL方式修改为点选方式,无需技术人员上手,业务人员也能快速完成数据集成任务配置。
▶ 大幅提升效率
将编码方式改为点选方式,预计提高效率60%,大幅缩减了配置时间。
▶ 支持批量操作
可批量进行任务配置,提高集成效率。
数字化转型过程中,数据是核心。作为支撑数据分析的强大底座,Tempo DF的每一次的功能上新,都以给用户提供更加敏捷、高效、智能的解决方案为目标,为企业的数字化转型提供更多助力。