服务连接管理
数据工厂原生支持多种常见数据源,可对云上服务、用户本地环境不同数据源进行连接和数据采集,加速数据集成进程。目前支持云存储、云数据库、数据计算服务、SQL Server、Oracle、MySQL、DB2、FTP等服务。
作为云上的数据集成服务,数据工厂需要对接入数据源的数据进行ETL处理,数据工厂通过连接不同的分析服务,以工作流形式,由分析服务对接入的数据进行清洗、转换、分析,实现ETL。目前数据工厂支持接入数据计算服务,后续将增加JMR、流数据总线、流计算、机器学习平台等服务。
数据同步
数据工厂的数据同步支持从多个本地和云数据源间同步数据,支持用户全量同步、增量同步等不同的同步策略。可用于企业数据仓库的数据接入工作,对多源数据进行采集;也可以通过数据工厂的数据同步功能,将数据仓库中加工处理后的数据分发到生产系统支持在线业务,如数据库系统。
数据工作流
通过统一的工作流管理模块,对数据接入、数据清洗、数据汇总分析、数据分发等分析任务进行编排组织,用户可根据业务需要按照月、周、天、小时等不同时间周期制定调度策略。
作业运维
数据工厂的工作流,在创建时可设置多种告警通知策略,让用户在时间获知任务的关键运行状态。
提供对工作流执行状态及历史的记录,用户可查看各作业的执行结果以及详细的执行日志,跟踪到每个工作流的每个执行环节的详细日志,便于运维人员诊断及分析问题。