API de Similaridad de Coincidencias Eficiente es una API de coincidencia difusa y deduplicación de alta velocidad diseñada para datos reales y desordenados. Te ayuda a identificar registros casi duplicados y reconciliar entidades incluso cuando los valores no coinciden exactamente—errores tipográficos, diferencias de mayúsculas y minúsculas, puntuación faltante, problemas de espaciado, abreviaciones y cambios menores en el orden de las palabras.
En lugar de construir y ajustar tu propia tubería de coincidencias difusas, envías tus cadenas (o registros) a la API y recibes coincidencias puntuadas de similitud en las que puedes confiar. Las salidas típicas incluyen pares coincidentes (por ejemplo, “Apple” ↔ “apple inc.”), puntuaciones de similitud y resultados estructurados que son fáciles de integrar en flujos de trabajo de limpieza de datos, CRM, trabajos de ETL y tuberías de análisis.
Casos de uso comunes:
Deduplicar listas: encontrar duplicados dentro de un conjunto de datos (coincidencia de todos a todos) y devolver pares duplicados probables.
Reconciliar contra una lista maestra: emparejar una lista entrante con un conjunto canónico (lista a maestro).
Higiene de datos de CRM y clientes: limpiar leads/cuentas/empresas donde los duplicados rompen los informes y el outreach.
Resolución de entidades y enlace de registros: conectar referencias a la misma entidad del mundo real a través de fuentes.
Por qué los equipos lo usan:
Funciona con texto desordenado de manera inmediata (sin reglas manuales para cada caso extremo)
Puntuaciones de similitud para clasificación y umbrales (tú decides qué tan estricto ser)
Construido para escalar y automatizar (diseñado para ejecutar en tuberías, no solo en scripts aislados)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11918/efficient+matching+similarity+api/22651/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
El endpoint Dedupe devuelve un objeto JSON que contiene pares de cadenas coincidentes, puntajes de similitud y resultados deduplicados opcionales. La salida se puede formatear como pares de cadenas, pares de índices o cadenas deduplicadas, dependiendo de la configuración especificada
Los campos clave en los datos de respuesta incluyen "status" (que indica éxito o error) y "response_data," que contiene los resultados formateados de acuerdo con la solicitud del usuario, como pares coincidentes o cadenas desduplicadas
Los usuarios pueden personalizar las solicitudes ajustando parámetros en el objeto "config" como "similarity_threshold" para la estricta coincidencia "remove_punctuation" para el preprocesamiento y "output_format" para elegir la estructura de resultado deseada
Los datos de respuesta están organizados como un arreglo de resultados donde cada entrada corresponde a un partido o cadena desduplicada Dependiendo del formato de salida las entradas pueden incluir cadenas originales índices y puntajes de similitud facilitando una fácil integración en flujos de trabajo
Los casos de uso típicos incluyen la deduplicación de listas de clientes la conciliación de registros con una lista maestra la limpieza de datos de CRM y la resolución de entidades a través de diferentes fuentes de datos para asegurar la integridad y precisión de los datos
La precisión de los datos se mantiene a través de algoritmos de coincidencia difusa avanzados que tienen en cuenta problemas comunes de datos como errores tipográficos y diferencias de mayúsculas y minúsculas La API está diseñada para manejar datos desordenados de manera efectiva asegurando resultados de coincidencia confiables
Los valores de parámetro aceptados incluyen "similarity_threshold" (0 a 1), "remove_punctuation" (booleano), "to_lowercase" (booleano), "use_token_sort" (booleano) y "top_k" (entero o "todos"). Estos parámetros permiten a los usuarios adaptar el proceso de coincidencia a sus necesidades específicas
Si el endpoint de Dedupe devuelve resultados parciales o vacíos, los usuarios deben verificar los datos de entrada en busca de problemas de calidad, como duplicados excesivos o umbrales de simetría muy bajos. Ajustar el "similarity_threshold" o revisar la lista de entrada puede ayudar a mejorar los resultados
Nivel de Servicio:
100%
Tiempo de Respuesta:
662ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
151ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
136ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
192ms
Nivel de Servicio:
99%
Tiempo de Respuesta:
1.259ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
561ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
191ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.521ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
179ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
336ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
11ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
835ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.309ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.519ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.207ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
796ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
486ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.519ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.179ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.519ms