跳转至

创建作业

您可以创建和管理用于检测敏感数据的作业。发现作业由一个或多个 AWS Glue 作业组成,用于实际数据检测。有关更多信息,请参阅查看作业详细信息

创建发现作业

  1. 在左侧菜单,选择执行敏感数据发现作业
  2. 选择创建敏感数据发现作业edit-icon

    • 步骤1:选择数据源

      Provider Data source
      AWS S3, RDS, Glue, JDBC
      Tencent JDBC
      Google JDBC
    • 步骤2:作业设置

      作业设置 描述 选项
      扫描频率 指发现作业的扫描频率。 按需运行
      每日
      每周
      每月
      扫描深度 指抽样行数。 100(推荐)
      10, 30, 60, 100, 300, 500, 1000
      扫描深度 - 非结构化数据 仅适用于S3,不同文件夹下,抽样非结构化文件数量 可跳过, 10文件, 30文件, 所有文件
      扫描范围 定义目标数据源的整体扫描范围。
      “全面扫描”表示扫描所有目标数据源。
      “增量扫描”表示跳过自上次数据目录更新以来未更改的数据源。
      全面扫描
      增量扫描(推荐)
      检测阈值 定义作业所需的容忍度水平。如果扫描深度为 1000 行,则 10% 的阈值意味着如果超过 100 行(共 1000 行)匹配标识符规则,则该列将被标记为敏感。较低的阈值表示该作业对敏感数据的容忍度较低。 10%(推荐)
      20%
      30%
      40%
      50%
      100%
      覆盖手动更新的隐私标签 选择是否允许该作业使用作业结果覆盖数据目录隐私标签。 不覆盖(推荐)
      覆盖
    • 步骤3:高级配置项

    • 步骤4:作业预览
  3. 预览作业后,选择运行作业


关于增量扫描:

当在job选择“增量扫描”设置的时候,S3和RDS的扫描逻辑略有不同,如下:

S3: 当S3对象有任何变化的情况下,增量扫描会对该路径Folder层面进行扫描

  • 举例:1个桶,3个folder里面各含有一种csv文件(不同schema),当其中一个folder的文件schema有所更改。那么,在增量扫描的时候,Job只会对这个folder下面的csv文件进行扫描,不会扫描另外2个folder。

  • 举例:1个桶,3个folder里面各含有一种csv文件(不同schema),当其中一个folder的文件schema不变,但是增加了行数或者文件有任何更新。在增量扫描的时候,Job只会对这个folder下面的csv文件进行扫描,不会扫描另外2个folder。

RDS: 只有当RDS表有列级别变化的时候,增量扫描会对该表进行扫描

  • 举例:1个RDS instance,3个table,当其中一个table的表结构schema变化(新增或删除列)。那么,在增量扫描的时候,只会对这个table进行扫描,跳过另外2个table。
  • 举例:1个RDS instance,3个table,当其中一个table的表结构schema不变,但新增/删除了行,那么,在增量扫描的时候,这3个table都不会被扫描。