跳转至

文本相似度

比较两段不同文本之间相似度,并输出一个介于0到1之间的置信度,根据置信度比较两段文字的相似性。

适用场景

可应用于搜索引擎、推荐系统、机器翻译、自动应答、命名实体识别、拼写纠错等场景。

API参数说明

该API支持单文本、文本对两种输入模式。

单文本模式

该模式输入为单个文本,返回文本的特征向量。需自行维护一个向量检索系统。适合搜索、召回等场景。

  • HTTP 方法: POST

  • Body 请求参数

名称 类型 是否必选 说明
text String 文本数据
  • 请求 Body 示例
{
  "text": "测试文本"
}
  • 返回参数
名称 类型 说明
result List 一个具有768个元素的List,为768维的文本向量
  • 返回示例
{
    "result": [
        0.025645000860095024, 
        0.001914000022225082, 
        0.007929000072181225, 
        ...
    ]
}

文本对模式

该模式输入为两个文本,返回两个文本的余弦相似度。适合相似度比较的场景。

  • HTTP 方法: POST

  • Body 请求参数

名称 类型 是否必选 说明
text_1 String 文本数据
text_2 String 文本数据
  • 请求 Body 示例
{
  "text_1": "测试文本",
  "text_2": "测试文本"
}
  • 返回参数
名称 类型 说明
similarity Float 两个文本的余弦相似度,为0到1区间内Float型数值。越接近于1,代表文本越相似。
  • 返回示例
{
    "similarity": 0.95421
}

开始使用

API资源浏览器

前提条件

通过AWS CloudFormation部署解决方案时,您需要:

  • 设置参数API Exploreryes
  • 设置参数API Gateway AuthorizationNONE

否则,在API资源浏览器中只能看到该API的参考定义,而不能进行在线测试等操作。

操作步骤

  1. 访问AWS CloudFormation控制台
  2. 从堆栈列表中选择方案的根堆栈,而不是嵌套堆栈。列表中嵌套堆栈的名称旁边会显示嵌套(NESTED)。

  3. 打开输出(Outputs)标签页,找到APIExplorer对应的URL。

  4. 点击URL访问API资源浏览器。页面将显示在部署解决方案时选中的API。

  5. 点击API右侧的向下箭头,展开显示API标准模型的请求方法。

  6. 点击右侧的测试(Try it out)按钮,并在Request body中输入正确的Body请求数据进行测试,并查看测试结果。
  7. 确认格式正确后,点击下方的Execute
  8. Responses body中查看返回的JSON结果。您还可以通过右侧复制或下载按钮保存处理结果。
  9. Response headers中查看响应头的相关信息。
  10. (可选)点击Execute右侧Clear按钮,即可清空Request bodyResponses测试结果。

Postman(AWS_IAM认证)

  1. 访问AWS CloudFormation控制台。
  2. 从堆栈列表中选择方案的根堆栈。
  3. 打开输出标签页,找到以 TextSimilarity 为前缀的URL。
  4. 在Postman中新建标签页,并把URL粘贴到地址栏,选择POST作为HTTP调用方法。

  5. 打开Authorization配置,在下拉列表里选择Amazon Web Service Signature,并填写对应账户的AccessKey、SecretKey和Amazon Web Service Region(例如,cn-north-1或cn-northwest-1)。

  6. 打开Body配置项,选中raw和JSON数据类型。

  7. 在Body中输入测试数据,单击Send按钮即可看到相应返回结果。

{
  "url": "图像的URL地址"
}

cURL

  • Windows
curl --location --request POST "https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/text_similarity" ^
--header "Content-Type: application/json" ^
--data-raw "{\"url\": \"图像的URL地址\"}"
  • Linux/MacOS
curl --location --request POST 'https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/text_similarity' \
--header 'Content-Type: application/json' \
--data-raw '{
  "url":"图像的URL地址"
}'

Python(AWS_IAM认证)

import requests
import json
from aws_requests_auth.boto_utils import BotoAWSRequestsAuth

auth = BotoAWSRequestsAuth(aws_host='[API_ID].execute-api.[AWS_REGION].amazonaws.com',
                           aws_region='[AWS_REGION]',
                           aws_service='execute-api')

url = 'https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/text_similarity'
payload = {
    'url': '图像的URL地址'
}
response = requests.request("POST", url, data=json.dumps(payload), auth=auth)
print(json.loads(response.text))

Python(NONE认证)

import requests
import json

url = "https://[API_ID].execute-api.[AWS_REGION].amazonaws.com/[STAGE]/text_similarity"

payload = json.dumps({
  "url": "图像的URL地址"
})
headers = {
  'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Java

OkHttpClient client = new OkHttpClient().newBuilder()
  .build();
MediaType mediaType = MediaType.parse("application/json");
RequestBody body = RequestBody.create(mediaType, "{\n  \"url\":\"图像的URL地址\"\n}");
Request request = new Request.Builder()
  .url("https://xxxxxxxxxxx.execute-api.xxxxxxxxx.amazonaws.com/[STAGE]/text_similarity")
  .method("POST", body)
  .addHeader("Content-Type", "application/json")
  .build();
Response response = client.newCall(request).execute();

成本预估

您需要承担运行解决方案时使用亚马逊云科技各个服务的成本费用。截至这次发布的版本,影响解决方案的成本因素主要包括:

  • AWS Lambda调用次数
  • AWS Lambda运行时间
  • Amazon API Gateway调用次数
  • Amazon API Gateway数据输出量
  • Amazon CloudWatch Logs存储量
  • Amazon Elastic Container Registry存储量

说明

Amazon SageMaker相关的费用仅适用于图像超分辨率方案。

成本预估示例1

以由西云数据运营的亚马逊云科技中国(宁夏)区域(cn-northwest-1)为例,处理时间1秒

使用本方案处理此文本所需的成本费用如下表所示:

服务 用量 费用
AWS Lambda 调用百万次 ¥1.36
AWS Lambda 内存8192MB,每次运行1秒 ¥907.8
Amazon API Gateway 调用百万次 ¥28.94
Amazon API Gateway 数据输出以每次10KB计算,¥0.933/GB ¥9.33
Amazon CloudWatch Logs 每次10KB,¥6.228/GB ¥62.28
Amazon Elastic Container Registry 0.5GB存储,每月每GB¥0.69 ¥0.35
合计 ¥1010.06

成本预估示例2

以美国东部(俄亥俄州)区域(us-east-2)为例,处理时间1秒

使用本方案处理此文本所需的成本费用如下表所示:

服务 用量 费用
Amazon Lambda 调用百万次 $0.20
Amazon Lambda 内存8192MB,每次运行1秒 $133.3
Amazon API Gateway 调用百万次 $3.5
Amazon API Gateway 数据输出以每次10KB计算,$0.09/GB $0.9
Amazon CloudWatch Logs 每次10KB,$0.50/GB $5
Amazon Elastic Container Registry 0.5GB存储,每月每GB$0.1 $0.05
合计 $142.95

卸载部署

您可以通过AWS CloudFormation卸载 文本相似度 功能,具体步骤请见部署解决方案:更新AWS CloudFormation堆栈(添加或删除AI功能),并在参数部分确认 TextSimilarity 参数设置为no

卸载时间:10 分钟