Estimación de Calidad en Traducción Automática (MTQE)
Consulta nuestra entrada de blog: Estimación de calidad en traducción automática: Un análisis exhaustivo.
Haz clic aquí para ver la documentación de la API.
¿Qué es?
El sistema MTQE (Machine Translation Quality Estimation) de Pangeanic es un marco de inferencia patentado, basado en técnicas de Inteligencia Artificial (IA), diseñado para evaluar la calidad del texto generado por Traducción Automática (MT) sin requerir el uso de textos de referencia humanos (traducciones estándar de oro).
- Baja latencia: Opera con requisitos de baja latencia para la predicción en tiempo real de la utilidad y calidad percibida de la salida de MT.
- Integración: Proporciona soporte de integración para diversos entornos de producción y flujos de trabajo de localización.
- Acceso por API: El acceso se facilita a través de una interfaz de programación de aplicaciones (API), permitiendo la implementación en flujos de traducción automatizados y de alto rendimiento.
Puntuación Cuantitativa
MTQE se basa en un conjunto exhaustivo de características lingüísticas y estadísticas, que se detallan a continuación. Utiliza modelos preentrenados y finetuned, junto con operaciones matemáticas internas, para generar predicciones cuantitativas de calidad. Genera una puntuación de calidad normalizada en el rango [0, 100] que se correlaciona con el nivel de esfuerzo de posedición requerido. Funciona como un evaluador de caja negra, requiriendo solo el segmento de texto original y el segmento traducido por MT. Esta arquitectura garantiza la compatibilidad con cualquier motor de MT de terceros.
Desarrollado sobre una arquitectura avanzada de procesamiento de lenguaje, el sistema ha sido calibrado con un gran volumen de datos híbridos, combinando validaciones humanas (Direct Assessment y MQM) con datos artificiales. Esto permite al modelo puntuar traducciones abordando factores como:
- Fallos de contenido y coherencia: Casos en los que la traducción no logra comunicar el mensaje original (texto incoherente, fluidez sin relación semántica o ausencia de traducción).
- Defectos estructurales e integridad: Omisión de información, redundancia (texto duplicado) y puntuación defectuosa.
Cobertura y Adaptación
- Soporte multilingüe: El sistema gestiona un corpus de entrenamiento que abarca más de 50 pares de idiomas, cubriendo entornos de alto y bajo recurso, incluidos idiomas con estructuras tipológicas europeas y asiáticas.
- Adaptación a dominio: Si se dispone de corpus específicos, MTQE puede calcular una puntuación de calidad compuesta para verificar la adherencia terminológica y la consistencia de dominio.
- Arquitectura escalable: Infraestructura diseñada para el manejo eficiente de grandes volúmenes de texto, permitiendo la adaptación incremental de sus modelos.
Resultados y Aplicaciones Operativas
- Filtrado y curación de datos: Facilita la selección y filtrado de datos paralelos de alta calidad para el finetuning de modelos de MT.
- Selección dinámica de motores: Puede implementar engine switching para seleccionar el motor con el rendimiento óptimo para un dominio o idioma concreto.
- Optimización del flujo de posedición: Las puntuaciones se utilizan para clasificar el contenido, permitiendo a los editores humanos priorizar los segmentos que presentan mayor dificultad.
- Mitigación de riesgos operativos: Proporciona una evaluación predictiva de la calidad antes de la entrega final para evitar la difusión de traducciones defectuosas.
Base Tecnológica
El sistema MTQE de Pangeanic se somete a un proceso continuo de entrenamiento sobre grandes conjuntos de datos que contienen evaluaciones de calidad generadas por humanos, incluyendo datos de esfuerzo de posedición y puntuaciones de evaluación directa. Esto garantiza una alta correlación estadística con la percepción humana de la calidad de la traducción.