跳转至

方案支持扫描的数据类型

支持的结构化/半结构化数据

分类器类型 分类字符串 备注
Apache Avro avro 读取文件开始的模式来确定格式。
Apache ORC orc 读取文件元数据来确定格式。
Apache Parquet parquet 读取文件末尾的模式来确定格式。
JSON json 读取文件开始来确定格式。
二进制JSON bson 读取文件开始来确定格式。
XML xml 读取文件开始来确定格式。AWS Glue根据文档中的XML标签确定表结构。关于创建自定义XML分类器以指定文档中的行的信息,请参见编写XML自定义分类器。
Amazon Ion ion 读取文件开始来确定格式。
综合Apache日志 combined_apache 通过grok模式确定日志格式。
Apache日志 apache 通过grok模式确定日志格式。
Linux内核日志 linux_kernel 通过grok模式确定日志格式。
微软日志 microsoft_log 通过grok模式确定日志格式。
Ruby日志 ruby_logger 读取文件开始来确定格式。
Squid 3.x日志 squid 读取文件开始来确定格式。
Redis监控日志 redismonlog 读取文件开始来确定格式。
Redis日志 redislog 读取文件开始来确定格式。
CSV csv 检查以下分隔符:逗号(,)、管道(
Amazon Redshift redshift 使用JDBC连接来导入元数据。
MySQL mysql 使用JDBC连接来导入元数据。
PostgreSQL postgresql 使用JDBC连接来导入元数据。
Oracle数据库 oracle 使用JDBC连接来导入元数据。
Microsoft SQL Server sqlserver 使用JDBC连接来导入元数据。
Amazon DynamoDB dynamodb 从DynamoDB表中读取数据。
压缩格式 可以分类以下压缩格式的文件:
ZIP 支持仅包含单个文件的档案。请注意,Zip在其他服务中支持不佳(因为档案)。
BZIP
GZIP
LZ4
Snappy 支持标准和Hadoop本地Snappy格式。

备注:解决方案使用 AWS Glue 将这些数据爬取到数据目录中。请以最新的 AWS Glue 支持的特定数据格式为准,请参阅 AWS Glue 中的内置分类器

支持的非结构化数据(仅限S3数据源)

文件种类 文件后缀
Document ".docx", ".pdf"
Webpage ".htm", ".html"
Email ".eml"
Code ".java", ".py", ".cpp", ".c", ".h", ".html", ".css", ".js", ".php", ".rb", ".swift", ".go", ".sql"
Text ".txt", ".md", ".log"
Image “.jpg”, “.jpeg”, “.png”, “.gif”, “.bmp”, “.tiff”, “.tif” - (ID cards/Business licenses/Driver's licenses/Faces)
Special file extensions 可以检测特殊文件格式。您可以在任务的高级配置中定义您需要检测的文件后缀