方案支持扫描的数据类型
支持的结构化/半结构化数据
分类器类型 |
分类字符串 |
备注 |
Apache Avro |
avro |
读取文件开始的模式来确定格式。 |
Apache ORC |
orc |
读取文件元数据来确定格式。 |
Apache Parquet |
parquet |
读取文件末尾的模式来确定格式。 |
JSON |
json |
读取文件开始来确定格式。 |
二进制JSON |
bson |
读取文件开始来确定格式。 |
XML |
xml |
读取文件开始来确定格式。AWS Glue根据文档中的XML标签确定表结构。关于创建自定义XML分类器以指定文档中的行的信息,请参见编写XML自定义分类器。 |
Amazon Ion |
ion |
读取文件开始来确定格式。 |
综合Apache日志 |
combined_apache |
通过grok模式确定日志格式。 |
Apache日志 |
apache |
通过grok模式确定日志格式。 |
Linux内核日志 |
linux_kernel |
通过grok模式确定日志格式。 |
微软日志 |
microsoft_log |
通过grok模式确定日志格式。 |
Ruby日志 |
ruby_logger |
读取文件开始来确定格式。 |
Squid 3.x日志 |
squid |
读取文件开始来确定格式。 |
Redis监控日志 |
redismonlog |
读取文件开始来确定格式。 |
Redis日志 |
redislog |
读取文件开始来确定格式。 |
CSV |
csv |
检查以下分隔符:逗号(,)、管道( |
Amazon Redshift |
redshift |
使用JDBC连接来导入元数据。 |
MySQL |
mysql |
使用JDBC连接来导入元数据。 |
PostgreSQL |
postgresql |
使用JDBC连接来导入元数据。 |
Oracle数据库 |
oracle |
使用JDBC连接来导入元数据。 |
Microsoft SQL Server |
sqlserver |
使用JDBC连接来导入元数据。 |
Amazon DynamoDB |
dynamodb |
从DynamoDB表中读取数据。 |
压缩格式 |
|
可以分类以下压缩格式的文件: |
ZIP |
|
支持仅包含单个文件的档案。请注意,Zip在其他服务中支持不佳(因为档案)。 |
BZIP |
|
|
GZIP |
|
|
LZ4 |
|
|
Snappy |
|
支持标准和Hadoop本地Snappy格式。 |
备注:解决方案使用 AWS Glue 将这些数据爬取到数据目录中。请以最新的 AWS Glue 支持的特定数据格式为准,请参阅 AWS Glue 中的内置分类器
支持的非结构化数据(仅限S3数据源)
文件种类 |
文件后缀 |
Document |
".docx", ".pdf" |
Webpage |
".htm", ".html" |
Email |
".eml" |
Code |
".java", ".py", ".cpp", ".c", ".h", ".html", ".css", ".js", ".php", ".rb", ".swift", ".go", ".sql" |
Text |
".txt", ".md", ".log" |
Image |
“.jpg”, “.jpeg”, “.png”, “.gif”, “.bmp”, “.tiff”, “.tif” - (ID cards/Business licenses/Driver's licenses/Faces) |
Special file extensions |
可以检测特殊文件格式。您可以在任务的高级配置中定义您需要检测的文件后缀 |