跳转至

高阶文字识别(多语种)

通用场景文字提取,通过返回在图片中文字内容与坐标位置等信息,便于客户进行比对或结构化操作。支持识别简体中文繁体中文越南语日语韩语、英文、数字和常用符号。

适用场景

可应用于纸质文档电子化,证件识别,内容审核等多种场景,大幅提高信息处理效率。

API参数说明

  • HTTP 方法: POST

  • 请求参数

名称 类型 是否必选 说明
url String img参数二选一。 图像URL地址。支持HTTP/HTTPS和S3协议。要求图像格式为 jpg/jpeg/png/bmp,最长边不超过 4096px。
img String url参数二选一。 进行Base64编码的图像数据。
  • 请求示例
{
  "url": "图像的URL地址"
}
{
  "img": "Base64编码的图像数据"
}
  • 返回参数
名称 类型 说明
words String 识别文本字符串内容。
location JSON 识别文本在图像中的的坐标值,包含 top,left,width,height的整数值。
score Float 识别文本的置信度值,为0到1区间内Float型数值。
  • 返回示例
[
  {
      "words": "香港永久性居民身份證",
      "location": {
          "top": 18,
          "left": 148,
          "width": 169,
          "height": 17
      },
      "score": 0.9923796653747559
  },
  {
      "words": "HONG KONG PERMANENTIDENTITYCARD",
      "location": {
          "top": 36,
          "left": 71,
          "width": 321,
          "height": 17
      },
      "score": 0.9825196266174316
  }

]

开始使用

API资源浏览器

前提条件

通过AWS CloudFormation部署解决方案时,您需要:

  • 设置参数API Exploreryes
  • 设置参数API Gateway AuthorizationNONE

否则,在API资源浏览器中只能看到该API的参考定义,而不能进行在线测试等操作。

操作步骤

  1. 访问AWS CloudFormation控制台
  2. 从堆栈列表中选择方案的根堆栈,而不是嵌套堆栈。列表中嵌套堆栈的名称旁边会显示嵌套(NESTED)。

  3. 打开输出(Outputs)标签页,找到APIExplorer对应的URL。

  4. 点击URL访问API资源浏览器。页面将显示在部署解决方案时选中的API。

  5. 点击API右侧的向下箭头,展开显示API标准模型的请求方法。

  6. 点击右侧的测试(Try it out)按钮,并在Request body中输入正确的Body请求数据进行测试,并查看测试结果。
  7. 确认格式正确后,点击下方的Execute
  8. Responses body中查看返回的JSON结果。您还可以通过右侧复制或下载按钮保存处理结果。
  9. Response headers中查看响应头的相关信息。
  10. (可选)点击Execute右侧Clear按钮,即可清空Request bodyResponses测试结果。

Postman(AWS_IAM认证)

  1. 访问AWS CloudFormation控制台。
  2. 从堆栈列表中选择方案的根堆栈。
  3. 打开输出标签页,找到以 AdvancedOCR 为前缀的URL。
  4. 在Postman中新建标签页,并把URL粘贴到地址栏,选择POST作为HTTP调用方法。

  5. 打开Authorization配置,在下拉列表里选择Amazon Web Service Signature,并填写对应账户的AccessKey、SecretKey和Amazon Web Service Region(例如,cn-north-1或cn-northwest-1)。

  6. 打开Body配置项,选中raw和JSON数据类型。

  7. 在Body中输入测试数据,单击Send按钮即可看到相应返回结果。

{
  "url": "图像的URL地址"
}

cURL

  • Windows
curl --location --request POST "https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/advanced_ocr" ^
--header "Content-Type: application/json" ^
--data-raw "{\"url\": \"图像的URL地址\"}"
  • Linux/MacOS
curl --location --request POST 'https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/advanced_ocr' \
--header 'Content-Type: application/json' \
--data-raw '{
  "url":"图像的URL地址"
}'

Python(AWS_IAM认证)

import requests
import json
from aws_requests_auth.boto_utils import BotoAWSRequestsAuth

auth = BotoAWSRequestsAuth(aws_host='[API_ID].execute-api.[AWS_REGION].amazonaws.com',
                           aws_region='[AWS_REGION]',
                           aws_service='execute-api')

url = 'https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/advanced_ocr'
payload = {
    'url': '图像的URL地址'
}
response = requests.request("POST", url, data=json.dumps(payload), auth=auth)
print(json.loads(response.text))

Python(NONE认证)

import requests
import json

url = "https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/advanced_ocr"

payload = json.dumps({
  "url": "图像的URL地址"
})
headers = {
  'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Java

OkHttpClient client = new OkHttpClient().newBuilder()
  .build();
MediaType mediaType = MediaType.parse("application/json");
RequestBody body = RequestBody.create(mediaType, "{\n  \"url\":\"图像的URL地址\"\n}");
Request request = new Request.Builder()
  .url("https://xxxxxxxxxxx.execute-api.xxxxxxxxx.amazonaws.com/[STAGE]/advanced_ocr")
  .method("POST", body)
  .addHeader("Content-Type", "application/json")
  .build();
Response response = client.newCall(request).execute();

成本预估

您需要承担运行解决方案时使用亚马逊云科技各个服务的成本费用。截至这次发布的版本,影响解决方案的成本因素主要包括:

  • Amazon API Gateway调用次数
  • Amazon API Gateway数据输出量
  • Amazon CloudWatch Logs存储量
  • Amazon Elastic Container Registry存储量

如果您选择基于Amazon Lambda架构部署,影响成本的因素还包括:

  • Amazon Lambda调用次数
  • Amazon Lambda运行时间

与之对应的Amazon SageMaker架构部署,影响成本的因素还包括:

  • Amazon SageMaker终端节点实例类型
  • Amazon SageMaker终端节点数据输入量
  • Amazon SageMaker终端节点数据输出量

成本预估示例1

以由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)为例,处理1MB图像,处理时间1秒

使用本方案处理此图像所需的成本费用如下表所示:

服务 用量 费用
AWS Lambda 调用百万次 ¥1.36
AWS Lambda 内存8192MB,每次运行1秒 ¥907.8
Amazon API Gateway 调用百万次 ¥28.94
Amazon API Gateway 数据输出以每次10KB计算,¥0.933/GB ¥9.33
Amazon CloudWatch Logs 每次10KB,¥6.228/GB ¥62.28
Amazon Elastic Container Registry 0.5GB存储,每月每GB¥0.69 ¥0.35
合计 ¥1010.06

成本预估示例2

以美国东部(俄亥俄州)区域(us-east-2)为例,处理1MB图像,处理时间1秒

使用本方案处理此图像所需的成本费用如下表所示:

服务 用量 费用
AWS Lambda 调用百万次 $0.20
AWS Lambda 内存8192MB,每次运行1秒 $133.3
Amazon API Gateway 调用百万次 $3.5
Amazon API Gateway 数据输出以每次10KB计算,$0.09/GB $0.9
Amazon CloudWatch Logs 每次10KB,$0.50/GB $5
Amazon Elastic Container Registry 0.5GB存储,每月每GB$0.1 $0.05
合计 $142.95

成本预估示例3

以美国东部(俄亥俄州)区域(us-east-2)为例,用户一整天都有稳定的图像流,所需QPS约为2。其中Amazon SageMaker终端节点实例开启时会一直计费。

使用本方案的成本费用如下表所示:

服务 用量 费用
Amazon API Gateway 调用5 百万次 $17.5
Amazon API Gateway 数据输出以每次10KB计算,$0.09/GB $4.5
Amazon CloudWatch Logs 每次10KB,$0.50/GB $25
Amazon Elastic Container Registry 0.5GB存储,每月每GB$0.1 $0.05
Amazon SageMaker 终端节点实例运行1个月,730小时,ml.g4dn.xlarge $0.736/小时 $537.28
Amazon SageMaker 终端节点数据输入以每次1MB计算,$0.016/GB $16
Amazon SageMaker 终端节点数据输出以每次10KB计算,$0.016/GB $78.13
合计 $678.46

卸载部署

您可以通过AWS CloudFormation卸载 Advanced OCR 功能,具体步骤请见部署解决方案:更新AWS CloudFormation堆栈(添加或删除AI功能),并在参数部分确认 AdvancedOCR 参数设置为no

卸载时间:10 Minutes