数据建模设置

数据管道处理完事件数据后，您可以将数据加载到分析引擎进行数据建模，比如Redshift或Athena，其中数据将被汇总并组织成不同的视图（如事件、设备、会话），以及常用的计算指标。以下是如果你选择启用数据建模模块，此解决方案提供的预设数据视图。

预设数据视图

数据模型名称	Redshift	描述
clickstream_device_view_v1	物化视图	包含所有设备相关信息的视图
clickstream_event_view_v2	视图	包含所有事件维度的视图。
clickstream_event_parameter_view_v1	物化视图	包含所有事件参数的视图。
clickstream_user_dim_view_v1	物化视图	包含所有用户维度的视图。
clickstream_user_attr_view_v1	物化视图	包含所有用户自定义属性的视图。
clickstream_session_view_v2	视图	包含所有会话维度和相关度量，例如，会话持续时间，会话视图。
clickstream_retention_view_v2	物化视图	包含按日期和返回日度量的留存指标的视图。
clickstream_lifecycle_daily_view_v2	视图	包含按生命周期阶段划分的用户数量的度量指标的日视图，即，新用户，活跃用户，返回用户，流失用户。
clickstream_lifecycle_weekly_view_v2	视图	包含按生命周期阶段划分的用户数量的度量指标的周视图，即，新用户，活跃用户，返回用户，流失用户。

您可以选择使用Redshift或Athena，或两者都用。

提示

我们建议你选择两者都用，也就是说，使用Redshift进行热数据建模，并使用Athena进行全时间数据分析。

您可以为 Redshift 设置以下配置。

Redshift 模式：选择 Redshift 无服务器或预设模式。
- 无服务器模式
  - 基础 RPU：RPU 代表 Redshift 处理单元。Amazon Redshift Serverless 以 RPU 计算数据仓库容量，这些是处理工作负载所使用的资源。基础容量指定 Amazon Redshift 用于服务查询的基础数据仓库容量，并以 RPU 表示。提高基础容量可以改善查询性能，尤其是对于消耗大量资源的数据处理工作。
  - VPC：基于 Amazon VPC 服务的虚拟私有云（VPC）是您在 AWS 云中的私有、逻辑隔离的网络。
    
    注意：如部署在逻辑隔离的网络中，VPC 必须为 S3，Logs，Dynamodb，STS，States, Redshift 以及 Redshift-data 服务拥有 VPC 终端。
  - 安全组：此 VPC 安全组定义了可以在 VPC 中使用的哪些子网和 IP 范围可访问 Redshift 服务端点。
  - 子网：选择至少三个现有的 VPC 子网。
    
    注意：我们建议出于最佳安全实践使用私有子网进行部署。
- 预设模式
  - Redshift 集群: 使用预设模式的 Amazon Redshift 集群，您可以使用符合成本和性能规格的节点类型构建集群。您必须设置、调整和管理 Amazon Redshift 预设模式的集群。
  - 数据库用户: 该解决方案需要权限才能在 Redshift 集群中访问和创建数据库。默认情况下，它授予 Redshift Data API 管理员用户执行命令以创建数据库、表和视图以及加载数据的权限。
- 数据范围：考虑到让 Redshift 保存所有数据的成本效益问题，我们建议 Redshift 仅保存热数据，而所有数据都存储在 S3 中。需要定期在 Redshift 中删除过期数据。
Athena：选择 Athena 使用在 Glue 数据目录中创建的表查询 S3 上的所有数据。