高效匹配相似度API是一个为现实世界杂乱数据构建的高速模糊匹配和去重API 它帮助您识别近重复记录并对实体进行协调即使值并不完全匹配—拼写错误 大小写差异 缺少标点 空格问题 缩写以及轻微的字序变化
与其构建和调整自己的模糊匹配管道 不如将您的字符串(或记录)发送到API 并获取您可以信任的相似度评分匹配。典型的输出包括匹配对(例如“苹果” ↔ “苹果公司”) 相似度分数 和易于插入数据清理工作流 CRM ETL工作和分析管道的结构化结果
常见用例:
去重列表:在数据集中查找重复项(全对全匹配)并返回可能的重复对
与主列表协调:将进入的列表与规范集匹配(列表到主列表)
CRM和客户数据卫生:清理重复破坏报告和外展的潜在客户/账户/公司
实体解析和记录链接:在多个来源之间连接对同一现实世界实体的引用
团队使用它的原因:
开箱即用处理杂乱文本(没有针对每个边缘情况的手动规则)
用于排名和阈值的相似度分数(您可以选择多严格)
为扩展和自动化而构建(设计用于在管道中运行,而不仅仅是一次性的脚本)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11918/efficient+matching+similarity+api/22651/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
去重端点返回一个包含匹配字符串对、相似度分数和可选去重结果的JSON对象。输出可以根据指定的配置格式化为字符串对、索引对或去重字符串
响应数据中的关键字段包括“状态”(指示成功或错误)和“响应数据”,其中包含根据用户请求格式化的结果,例如匹配对或去重字符串
用户可以通过调整“config”对象中的参数来自定义请求,例如“similarity_threshold”用于匹配严格度,“remove_punctuation”用于预处理,以及“output_format”用于选择所需的结果结构
响应数据被组织为结果数组,其中每个条目对应于一个匹配或去重字符串。根据输出格式,条目可能包括原始字符串、索引和相似性分数,便于轻松集成到工作流程中
典型的用例包括去重客户列表、根据主列表对账、清理CRM数据,以及在不同数据源之间进行实体解析,以确保数据的完整性和准确性
数据准确性通过先进的模糊匹配算法得以维持,这些算法考虑了常见的数据问题,如打字错误和大小写差异 该API旨在有效处理杂乱数据,确保可靠的匹配结果
接受的参数值包括“similarity_threshold”(0到1)、“remove_punctuation”(布尔值)、“to_lowercase”(布尔值)、“use_token_sort”(布尔值)和“top_k”(整数或“all”)。这些参数允许用户根据自己的特定需求定制匹配过程
如果去重端点返回部分或空结果,用户应检查输入数据的质量问题,例如过多的重复或非常低的相似性阈值 调整“相似性阈值”或审核输入列表可以帮助改善结果
服务级别:
100%
响应时间:
991ms
服务级别:
100%
响应时间:
2,140ms
服务级别:
100%
响应时间:
947ms
服务级别:
100%
响应时间:
1,024ms
服务级别:
100%
响应时间:
1,520ms
服务级别:
100%
响应时间:
406ms
服务级别:
100%
响应时间:
271ms
服务级别:
100%
响应时间:
249ms
服务级别:
100%
响应时间:
462ms
服务级别:
100%
响应时间:
117ms