Skip to main content
Version: 简体中文

ETL导入

DM Hub支持从SFTP、COS、OSS、S3、HDFS等存储系统上导入数据文件,支持导入的数据格式有CSV、Parquet等。进行文件同步之前,需要先设置好存储系统的账号。

接入账号设置

点击【系统设置-系统集成-ETL导入-接入账号】,进入接入账号列表页。点击【新建】可以添加数据源系统的账号。目前支持的数据源类型有SFTP、COS、OSS、S3、HDFS。

SFTP账号设置

SFTP账号设置需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • 用户名:SFTP账号的用户名
  • 密码:SFTP账号的密码
  • 服务其地址:SFTP服务器的地址
  • 端口:SFTP服务器的端口,默认为22

HDFS账号设置

HDFS账号设置需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • URL:HDFS账号默认从DM Hub系统所使用的HDFS文件系统中读取文件。如果HDFS系统集成了对象存储系统,如OSS、COS等,则需要设置URL字段,以使连接器能访问到存储在对象存储系统上的文件。URL支持2中类型的文件系统:
    • OSS:oss://{bucketname}/path/to/file
    • COS:cosn://{bucketname}/path/to/file

如有疑问,请联系DM Hub的技术支持人员。

COS账号设置

COS账号设置需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • 用户名:COS账号的用户名,即secretId
  • 密码:COS账号的密码,即secretKey
  • 区域:COS账号所在的区域,如ap-guangzhouap-beijing
  • 存储桶:COS账号的存储桶名称,即bucketName

OSS账号设置

OSS账号设置需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • 用户名:OSS账号的用户名,即AccessKeyId
  • 密码:OSS账号的密码,即AccessKeySecret
  • API地址:OSS账号的API地址,如oss-cn-hangzhou.aliyuncs.com
  • 存储桶:OSS账号的存储桶名称,即bucketName

S3账号设置

S3账号支持两种认证方式:Access Key和IAM Role。Access Key认证方式需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • 用户名:S3账号的用户名,即Access Key ID
  • 密码:S3账号的密码,即Secret Access Key
  • IAM角色ARN: IAM角色的ARN,用于访问S3存储桶。该选项为选填,不填时按照Access Key的模式进行认证,填写则先用Access Key获取填写的ARN,之后再用ARN认证。详情请参考AWS文档
  • 区域: S3账号所在的区域,如us-west-1us-east-1
  • 存储桶:S3账号的存储桶名称,即bucketName

IAM Role认证方式需要填写以下信息:

  • 账号名称:自定义的账号名称,用于在DM Hub系统中显示和搜索
  • IAM角色ARN: IAM角色的ARN,用于访问S3存储桶。该选项为选填,不填使用默认的ARN进行认证,填写则使用填写的ARN进行认证。详情请参考AWS文档
  • 区域: S3账号所在的区域,如us-west-1us-east-1
  • 存储桶:S3账号的存储桶名称,即bucketName

注:IAM Role认证方式下,DM Hub需要部署在AWS环境中,且需要有IAM Role的访问权限。

选择文件

点击【系统设置-系统集成-ETL导入】,进入数据导入列表页。点击【新建】可以添加数据导入任务。选择接入账号后,进入文件选择页面。文件导入支持导入两种文件格式:CSV、Parquet。

CSV文件

CSV文件支持UTF-8、GBK两种编码格式,多种分隔符,多种文本限定符和gzip等多种压缩格式。CSV文件支持预览查看。

img

Parquet文件

Parquet文件支持手动输入文件中字段,也支持自动解析文件中的字段,但对于大文件,文件解析需要比较长的时间。

Parquet文件也支持多种压缩格式。

img

导入类型

ETL导入支持导入增量客户、ID Mapping、带属性群组、营销对象等四类数据。

img

增量客户

支持从第三方CDP中导入新增或修改的客户记录。导入时,选择第三方CDP系统中的One ID作为身份。为了让DM Hub的客户与第三方CDP的客户保持一致,建议仅将第三方CDP的One ID作为DM Hub的客户身份。如果需要,可以将第三方CDP的其他身份保存为DM Hub的客户属性。

img

ID Mapping

第三方CDP的身份变更记录以及One ID的变更记录通常都会保存在ID Mapping文件中。DM Hub的ID Mapping导入只支持导入两种类型的One ID变更记录:

  • One ID的合并操作:merge。对应的ID Mapping文件结构有四个字段:

    • op_type: merge
    • merged_one_id:被合并的One ID
    • cdp_one_id:合并后的One ID
    • timestamp:合并操作的时间戳
  • One ID的删除操作:delete。对应的ID Mapping文件结构有三个字段:

    • op_type: delete
    • cdp_one_id:被删除的One ID
    • timestamp:删除操作的时间戳

所以提供的文件里需要提供四个字段:op_type、merged_one_id、cdp_one_id、timestamp。

有些CDP在ID Mapping里还会提供其身份变更的记录,如添加一个身份到One ID,这类操作以upsert形式存在。为了保证DM Hub与第三方CDP中的客户数据保持一致,一般推荐仅将第三方CDP的One ID作为DM Hub的身份,其他类型的身份不会作为DM Hub的身份。如果需要将这些身份保存到DM Hub中,可以将这些身份保存为DM Hub的客户属性。这就需要将第三方CDP的Id Mapping文件中的upsert操作记录单独存放到一个文件中,以增量客户的形式导入。

img

带属性群组

带属性群组是一种特殊的外部群组,它不仅包括客户身份,还会包括营销场景中使用到的属性,比如客户的手机号、客户购买的商品名称等。具体对带属性群组的解释,请参见带属性群组

营销对象

营销对象导入可以导入DM Hub自定义对象:营销对象或普通对象。只支持对象的新增或修改,不支持对象的删除。

img

同步设置

在同步设置中,可以设置同步路径、解密和同步时间等。

img

同步路径

同步路径支持两种形式:固定路径和动态路径。动态路径支持插入日期变量{YYYYMMDD},文件名支持插入字符串{*},日期变量{YYYYMMDD}。系统会根据任务执行日期读取对应日期的数据文件,通配符会读取所有路径文件。

例如:同步路径设置为:upload/order/{YYYYMMDD}.csv,任务在2023-03-01触发,则会读取upload/order/20230301.csv数据文件。

解密

如果数据文件中某些字段是加密的,可以在同步设置中设置解密算法和需要解密的字段。目前支持的解密算法有AES-GCM和AES-ECB两种算法。

同步周期

同步周期支持手动、每天、每周、每月等多种周期。还支持任务依赖,在前序任务执行完成后再执行当前任务。除此之外,还支持周期定时触发,如每隔5分钟触发一次同步。

基础信息

在基础信息中,可以设置同步任务的名称、描述信息。