创建作业

您可以创建和管理用于检测敏感数据的作业。发现作业由一个或多个 AWS Glue 作业组成，用于实际数据检测。有关更多信息，请参阅查看作业详细信息。

创建发现作业

在左侧菜单，选择执行敏感数据发现作业

点击按钮，创建敏感数据发现作业。 edit-icon

步骤1: 选择Provider和数据源

Provider	Data source
AWS	S3, RDS, Glue, Custom databases，Proxy databases
Tencent	JDBC
Google	JDBC

AWS的CustomDB和ProxyDB是指什么？

步骤2: 选择具体待扫描的数据源

步骤3: 作业设置

作业设置	描述	选项
扫描频率	指发现作业的扫描频率。	按需运行每日每周每月
扫描深度	指抽样行数。	100（推荐） 10, 30, 60, 100, 300, 500, 1000
扫描深度 - 非结构化数据	仅适用于S3，不同文件夹下，抽样非结构化文件数量	可跳过, 10文件, 30文件, 所有文件
扫描范围	定义目标数据源的整体扫描范围。 “全面扫描”表示扫描所有目标数据源。 “增量扫描”表示跳过自上次数据目录更新以来未更改的数据源。	全面扫描增量扫描（推荐）
检测阈值	定义作业所需的容忍度水平。如果扫描深度为 1000 行，则 10% 的阈值意味着如果超过 100 行（共 1000 行）匹配标识符规则，则该列将被标记为敏感。较低的阈值表示该作业对敏感数据的容忍度较低。	10%（推荐） 20% 30% 40% 50% 100%
覆盖手动更新的隐私标签	选择是否允许该作业使用作业结果覆盖数据目录隐私标签。	不覆盖（推荐）覆盖

步骤4：高级配置项

步骤5：作业预览预览作业后，选择运行作业。

当在job选择“增量扫描”设置的时候，S3和RDS的扫描逻辑略有不同，如下：

S3: 当S3对象有任何变化的情况下，增量扫描会对该路径Folder层面进行扫描

举例：1个桶，3个folder里面各含有一种csv文件（不同schema），当其中一个folder的文件schema有所更改。那么，在增量扫描的时候，Job只会对这个folder下面的csv文件进行扫描，不会扫描另外2个folder。
举例：1个桶，3个folder里面各含有一种csv文件（不同schema），当其中一个folder的文件schema不变，但是增加了行数或者文件有任何更新。在增量扫描的时候，Job只会对这个folder下面的csv文件进行扫描，不会扫描另外2个folder。

RDS: 只有当RDS表有列级别变化的时候，增量扫描会对该表进行扫描

举例：1个RDS instance，3个table，当其中一个table的表结构schema变化（新增或删除列）。那么，在增量扫描的时候，只会对这个table进行扫描，跳过另外2个table。
举例：1个RDS instance，3个table，当其中一个table的表结构schema不变，但新增/删除了行，那么，在增量扫描的时候，这3个table都不会被扫描。