Amazon Textract es un servicio de machine learning (ML) que extrae automáticamente el texto, la escritura a mano, los elementos de diseño y los datos de los documentos escaneados. Va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar, comprender y extraer datos de formularios y tablas. Todos los datos extraídos se devuelven con coordenadas del cuadro delimitador, es decir, marcos poligonales que abarcan cada dato identificado, como una palabra, una línea, una tabla o celdas individuales dentro de una tabla. Amazon Textract también devuelve una puntuación de confianza para todo lo que identifica para que pueda tomar decisiones informadas sobre cómo utilizar los resultados.
Consultas personalizadas
Amazon Textract le permite personalizar la función de consultas previamente entrenada y mejorar la precisión de la extracción de los tipos de documentos específicos de su empresa, a la vez que mantiene el control y la propiedad de sus datos. A través de la consola de AWS, puede cargar tan solo diez documentos de muestra, anotar los datos y personalizar la función de consultas previamente entrenadas en unas pocas horas.
Diseño
Amazon Textract le permite extraer elementos de diseño como párrafos, títulos, listas, encabezados, pies de página y mucho más de los documentos. El diseño es un tipo de función de la API Analyze Document. Los clientes pueden usar Layout como una función independiente o en combinación con otros tipos de funciones de Analyze Document.
Reconocimiento óptico de caracteres
Amazon Textract OCR detecta automáticamente el texto impreso y manuscrito de documentos e imágenes. El OCR con tecnología ML de Textract puede reconocer texto en varias fuentes y estilos, y también puede manejar texto ruidoso o distorsionado.
Extracción de formularios
Es posible detectar automáticamente los pares clave-valor en las imágenes de los documentos y conservar el contexto sin intervención manual. Un par clave-valor es un conjunto de datos vinculados. Por ejemplo, en un documento, el campo “Nombre” es la clave y “María” es el valor. Esto facilita la importación de los datos extraídos a una base de datos o su inclusión como variable en una aplicación. Con las soluciones tradicionales de OCR, las claves y los valores se extraen como simple texto, y su relación se pierde a menos que se escriban y mantengan reglas preprogramadas para cada formulario.
Extracción de tablas
Amazon Textract conserva la composición de los datos almacenados en las tablas durante la extracción. Esto es útil para los documentos que se componen en gran medida de datos estructurados, como los informes financieros o las historias clínicas con tablas en columnas y filas. Puede cargar automáticamente los datos extraídos en una base de datos mediante un esquema predefinido. Por ejemplo, las filas de números y cantidades de elementos en un informe de inventario retendrán su asociación para incrementar fácilmente los totales de elementos en una aplicación de administración de inventarios.
Detección de firmas
Amazon Textract proporciona la posibilidad de detectar firmas en cualquier documento o imagen. Esto facilita la detección automática de firmas en documentos como cheques, formularios de solicitud de préstamos y formularios de reclamos. La ubicación de las firmas y las puntuaciones de confianza asociadas están incluidas en la respuesta de la API.
Extracción basada en consultas
Amazon Textract brinda la flexibilidad de especificar los datos que necesita extraer de los documentos utilizando consultas. Puede especificar la información que necesita en forma de preguntas en lenguaje natural (por ejemplo, “¿Cuál es el nombre del cliente?”) y recibir la información exacta (por ejemplo, “Juan Pérez”) como parte de la respuesta de la API. No es necesario conocer la estructura de datos del documento (tabla, formulario, campo implícito, datos anidados) ni preocuparse por las variaciones entre versiones y formatos del documento. Las consultas de Textract se han entrenado previamente en una gran variedad de documentos, como comprobantes de pago, extractos bancarios, formularios W-2, formularios de solicitud de préstamo, pagarés hipotecarios, documentos de reclamaciones y tarjetas de seguros. La flexibilidad que proporcionan las consultas de Textract reduce la necesidad de implementar el posprocesamiento, la dependencia en revisiones manuales de los datos extraídos o la necesidad de entrenar modelos de ML.
Analizar los préstamos
La característica de análisis de préstamos es una API de procesamiento inteligente de documentos preconfigurada y administrada que automatiza por completo la extracción de información de los paquetes de préstamos. Los clientes solo tienen que cargar los documentos de sus préstamos hipotecarios en la API de análisis de préstamos y sus modelos de machine learning prediseñados clasificarán y dividirán el paquete de documentos por tipo de documento.
Facturas y recibos
Las facturas y los recibos pueden tener una gran variedad de diseños, lo que dificulta y hace más larga la extracción manual de datos a escala. Amazon Textract utiliza el machine learning (ML) para comprender el contexto de las facturas y los recibos y extrae automáticamente datos relevantes, como el nombre del proveedor, el número de la factura, el precio de los artículos, el importe total y las condiciones de pago.
Documentos de identidad
Amazon Textract utiliza el machine learning (ML) para comprender el contexto de los documentos de identidad, como los pasaportes y los permisos de conducir de Estados Unidos, sin necesidad de plantillas ni de configuración. Es posible extraer automáticamente información específica, como la fecha de vencimiento y la fecha de nacimiento, así como identificar y extraer de forma inteligente información implícita, como el nombre y la dirección. Con el análisis de documentos de identidad, las empresas que prestan servicios de verificación de la identidad y las que operan en los sectores de las finanzas, la salud y los seguros pueden automatizar fácilmente la creación de cuentas, la programación de citas, las solicitudes de empleo, etc., al permitir que los clientes presenten una fotografía o un escaneado del documento de identidad.
Precios de Amazon Textract
Amazon Textract es un servicio de machine learning (ML) que extrae automáticamente texto, escritura manuscrita y datos de documentos escaneados. Va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar, comprender y extraer datos de formularios y tablas. Con Amazon Textract, paga únicamente por lo que usa. No se aplican tarifas mínimas ni compromisos iniciales. Amazon Textract solo cobra las páginas procesadas, independientemente de que extraiga texto, texto con tablas, datos de formularios, consultas, o procese facturas y documentos de identidad. Consulte las preguntas frecuentes para obtener más información sobre las páginas y el uso aceptable de Textract.
Comience a utilizar Amazon Textract sin compromisos iniciales ni contratos a largo plazo.
Obtenga acceso instantáneo a la capa gratuita de AWS.
Comience a crear con Amazon Textract en la consola de administración de AWS.