成本预估
重要
本节中描述的成本估算只是用于参考的示例,实际产生费用会因您的使用场景不同而有较大差异。
在运行此解决方案时,您需要承担亚马逊云科技各项服务的使用费用,以下示例为截至最新发布的版本,基于亚马逊云科技美国东部(弗吉尼亚北部)区域 (us-east-1)和由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)的成本估算。 总成本包括敏感数据检测的费用和Web 界面控制台费用。
敏感数据检测的费用
此方案主要的费用来源于敏感数据检测任务,实际产生的费用是由检测任务运行的时长决定的,不同的检测任务运行的时间长短也不尽相同,运行时间较长的检测任务通常会比运行时间短的检测任务产生更多的费用。影响到检测任务运行时长的三个主要因素包括:
- 用于检测敏感信息的标识符的多少
方案是通过预定义的检测标识符来检测敏感信息的,在检测数据之前需要选择好所需的检测标识符,加载的标识符越多,进行敏感信息检测的时间就会越久,检测任务运行的总时间也会变长,支出的费用也就越多。
- 连接的数据源类型
受不同数据源吞吐量或网络带宽影响,敏感信息检测任务在检测不同的数据源时的效率是不同的。比如敏感信息检测任务会受 RDS 数据库网络带宽的影响,更高性能的 RDS 数据源往往会使敏感信息检测任务结束的更快。
- 数据量和数据的内容
显而易见,检测任务在数据量大的时候往往需要更长的时间。除了数据源中的数据量之外,数据的格式,还有检测任务中的取样量和检测深度也会影响到检测任务的时长。
以下列出的两个场景,以 AWS 服务按月计费的方式展示了成本估算,示例分别包含美国东部弗吉尼亚北部区域(us-east-1)和由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)的成本估算。以下示例均为默认配置下,单次检测任务产生的成本,如果指定了定期自动执行检测任务,在数据量基本不改变的情况下,生产的成本会按每个月实际执行次数叠加。
对数据库(Amazon RDS)中的敏感信息进行检测
- 美国东部弗吉尼亚北部区域(us-east-1)
数据库类型 | 数据量 | 标识符个数 | 检测时长 | 检测数据目录成本(美元) | 扫描数据成本(美元) | 费用(美元) |
---|---|---|---|---|---|---|
Amazon RDS Aurora db.r5.large | 10 张表, 每张表包含 10 列 5000 行的文本数据 | 10 | 约 6 分钟 | 0.07 | 0.05 | 0.12 |
Amazon RDS MySQL db.m5.xlarge | 1000 张表,每张表包含 100 列 1000 行的文本类数据 | 10 | 约 11 小时 | 0.07 | 4.84 | 4.91 |
- 由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)
数据库类型 | 数据量 | 标识符个数 | 检测时长 | 检测数据目录成本(元) | 扫描数据成本(元) | 费用(元) |
---|---|---|---|---|---|---|
Amazon RDS Aurora db.r5.large | 10 张表, 每张表包含 10 列 5000 行的文本数据 | 10 | 约 6 分钟 | 0.5 | 0.3 | 0.8 |
Amazon RDS MySQL db.m5.xlarge | 1000 张表,每张表包含 100 列 1000 行的文本类数据 | 10 | 约 11 小时 | 0.5 | 33.23 | 33.73 |
对 S3 存储桶中的敏感信息进行检测
- 美国东部弗吉尼亚北部区域(us-east-1)
文件 | 总大小 | 标识符个数 | 检测时长 | 检测数据目录成本(美元) | 扫描数据成本(美元) | 费用(美元) |
---|---|---|---|---|---|---|
包含 5,000 个文件,文件类型包括 PDF**,WORD**,JPG**,TXT**等 | 4Gb | 10 | 约 8 小时 | 0.1 | 1.29 | 1.39 |
包含 1,000 个文件,文件类型为 LOG**日志** | 24Gb | 13 | 约 22 小时 | 0.1 | 9.97 | 9.98 |
包含 20,000 个文件,文件类型为 CSV**,JSON**等结构化数据 | 5Gb | 20 | 约 1 小时 | 0.15 | 0.34 | 0.39 |
- 由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)
文件 | 总大小 | 标识符个数 | 检测时长 | 检测数据目录成本(元) | 扫描数据成本(元) | 费用(元) |
---|---|---|---|---|---|---|
包含 5,000 个文件,文件类型包括 PDF**,WORD**,JPG**,TXT**等 | 4Gb | 10 | 约 8 小时 | 0.61 | 23.8 | 24.41 |
包含 1,000 个文件,文件类型为 LOG**日志** | 24Gb | 13 | 约 22 小时 | 0.42 | 68.43 | 68.85 |
包含 20,000 个文件,文件类型为 CSV**,JSON**等结构化数据 | 5Gb | 20 | 约 1 小时 | 1 | 2.32 | 3.32 |
AWS 服务价格参考
敏感数据检测任务在运行时会调用 AWS Glue 和 Amazon SageMaker 两项服务配合完成敏感信息检测,所以敏感数据检测任务中主要的费用也来源于该两项服务的运行时长费用,您可以参考如下链接查看这两项服务在所在区域的具体价格。
WEB 界面控制台的费用
部署解决方案时会自动创建一个通过浏览器访问的 Web 界面控制台。截至最新发布的版本,使用默认设置并且假设访问次数为 1000 次,则将产生以下费用
- 美国东部(弗吉尼亚北部)区域(us-east-1)运行一个月(按 30 天计算)
服务 | 使用量 | 月费用(美元) |
---|---|---|
Amazon Relational Database Service for MySQL Community Edition | 720 小时 | 97.92 |
Amazon Relational Database Service Provisioned Storage | 20 GB-月 | 4.6 |
Amazon Elastic Compute Cloud NatGateway | 30 GB-月 | 1.35 |
720 小时 | 32.4 | |
Athena | 0.010 TB | 0.05 |
CloudWatch | 0.100 GB-月 | 0.05 |
Elastic Load Balancing - Application | 10 小时 | 0 |
0.105 LCU 小时 | 0 | |
Lambda | 5,0000 Lambda-GB-秒 | 0.08333 |
10,000 次请求 | 0 | |
Simple Queue Service (SQS) | 100,000 次请求 | 0.04 |
Simple Storage Service (S3) | 2,000 次请求 | 0.01 |
4,000 次请求 | 0.0002 | |
1 GB | 0.023 | |
总计 | 136.53 |
- 由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)运行一个月(按 30 天计算)
服务 | 使用量 | 每月费用(元) |
---|---|---|
Amazon Relational Database Service for MySQL Community Edition | 720 小时 | 576 |
Amazon Relational Database Service Provisioned Storage | 20 GB-Mo | 30.62 |
Amazon Elastic Compute Cloud NatGateway | 30 GB-Mo | 11.1 |
720 小时 | 266.4 | |
Athena | 0.010 TB | 0.34 |
CloudWatch | 0.100 GB-Mo | 0.24 |
EC2 Container Registry (ECR) | 0.003 GB-Mo | 0.69 |
Elastic Load Balancing - Application | 10 小时 | 1.56 |
0.105 LCU-Hrs | 0 | |
Lambda | 100,000.000 Lambda-GB-Second | 11.35 |
10,000 请求 | 0 | |
Simple Queue Service | 100,000 请求 | 3.33 |
Simple Storage Service | 2,000 请求 | 0.01 |
4,000 请求 | 0.01 | |
0.032 GB-Mo | 0.176 | |
总计 | 901.82 |
成本优化的建议
检测任务执行的基本费用为按需计费,这意味着您只需为实际使用的资源付费,而不必提前购买或预留任何容量,此外,AWS 还提供了一些免费的使用额度,以帮助您了解和评估服务的使用情况。因此,我们建议使用解决方案中的AWS Cost Explorer功能来帮助管理成本,此方案中所有资源均包含标签名称为Owner,值为SDPS的标签,您可以通过应用用户定义的成本分配标签来查询方案产生的费用。价格可能会有所变化。有关详细信息,请参阅本解决方案中使用的每个 AWS 服务的定价网页。下面有几点成本优化方面的建议,您可以在创建敏感数据检测任务时进行相应的设置以降低成本。
-
在执行敏感信息检测任务前,认真检测选择合适的敏感信息的标识符而不是全选 通常,检测标识符过多意味着需要更多的时间完成敏感信息检测,请在执行检测任务前通过检测模版的添加/删除敏感信息的标识符功能,调整相应的标识符,从而降低检测任务的执行时间。
-
根据实际数据量,设置适度的检测深度与样本量,即可准确检测敏感信息 在数据量较大,并以结构化信息为主的检测场景下,如 RDS 数据库,可以选择较小的样本量即可检测到敏感信息,从而达到优化成本的目的。
-
根据实际情况调整定时检测任务的执行频率 检测任务执行频次会对成本产生较大影响,如果数据变化不大,可以在创建敏感信息检测任务是选择按需扫描而不是设置定时扫描,从而减少任务执行频次。