¿Una nueva herramienta para el descubrimiento legal y de datos? AWS anuncia la disponibilidad general de Amazon Textract

Released for general availability by AWS, Amazon Textract is a fully managed service that uses machine learning to automatically extract text and data, including from tables and forms, in virtually any document without the need for manual review, custom code, or machine learning experience.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Anuncio de prensa

AWS anuncia la disponibilidad general de Amazon Textract

Amazon Textract utiliza el aprendizaje automático para extraer automáticamente texto y datos, incluso de tablas y formularios, en prácticamente cualquier documento, sin necesidad de experiencia de aprendizaje automático.

The Globe and Mail, MET Office, PwC, Healthfirst, UIPath, Teradact, Ripcord, Kablamo, Vidado, BluePrism y Alfresco entre clientes y socios que utilizan Amazon Textract

Hoy [29 de mayo de 2019], Amazon Web Services, Inc. (AWS), una empresa de Amazon.com (NASDAQ: AMZN), anunció la disponibilidad general de Amazon Textract, un servicio totalmente gestionado que utiliza aprendizaje automático para extraer automáticamente texto y datos, incluso de tablas y formularios, en prácticamente cualquier documento sin el necesidad de revisión manual, código personalizado o experiencia de aprendizaje automático. Amazon Textract va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar el contenido de los campos de los formularios, la información almacenada en tablas y el contexto en el que se presenta la información, como un nombre o número de seguridad social de un formulario fiscal o el SKU del producto o la cantidad de un almacén de un informe de inventario. El texto y los datos extraídos se pueden utilizar fácilmente para crear búsquedas inteligentes en grandes archivos de documentos, o se pueden cargar en una base de datos para su uso por aplicaciones, como contabilidad, auditoría y software de cumplimiento. La API de Amazon Textract admite múltiples formatos de imagen, como escaneos, archivos PDF y fotos, y los clientes pueden utilizarla con servicios de bases de datos y análisis como Amazon Elasticsearch Service, Amazon DynamoDB y AmazonAthena y otros servicios de aprendizaje automático como Amazon Comprehend, Amazon Comprehend Medical, Amazon Traducir, y Amazon SageMaker para obtener un significado más profundo del texto y los datos extraídos. Para empezar a utilizar Amazon Textract, visita

Muchas empresas extraen texto y datos de archivos tales como contratos, informes de gastos, garantías hipotecarias, prospectos de fondos, documentos fiscales, reclamaciones hospitalarias y formularios de pacientes a través de la entrada manual de datos o un simple software OCR. Este es un proceso que consume mucho tiempo y a menudo inexacto que produce una salida que requiere un procesamiento posterior extenso antes de que se pueda poner en un formato que sea utilizable por otras aplicaciones. Esto se debe a que las tecnologías OCR existentes no pueden reconocer diseños comunes como formularios y tablas, y solo generan un volcado de texto largo y a menudo inexacto. Lo que las organizaciones desean en su lugar es la capacidad de identificar y extraer con precisión texto y datos de formularios y tablas en documentos de cualquier formato y de una variedad de tipos de archivo y plantillas. Amazon Textract analiza prácticamente cualquier tipo de documento, generando automáticamente datos de texto, formulario y tabla de alta precisión. Amazon Textract identifica el texto y los datos de tablas y formularios de documentos, como las líneas de pedido y los totales de un recibo fotografiado, la información fiscal de un W2 o los valores de una tabla en un informe de inventario escaneado, y reconoce una serie de formatos de documentos, incluidos los específicos de los servicios financieros, seguro y asistencia sanitaria, sin necesidad de personalización ni intervención humana. Amazon Textract facilita a los clientes procesar con precisión millones de páginas de documentos en tan solo unas pocas horas, lo que reduce significativamente los costes de procesamiento de documentos y permite a los clientes centrarse en derivar el valor empresarial de sus textos y datos en lugar de perder tiempo y esfuerzo en el procesamiento posterior. Los resultados se entregan a través de una API a la que se puede acceder y utilizar fácilmente sin necesidad de experiencia de aprendizaje automático.

“La potencia de Amazon Textract es que extrae con precisión texto y datos estructurados de prácticamente cualquier documento sin necesidad de experiencia de aprendizaje automático. Posteriormente, los desarrolladores pueden analizar y consultar el texto y los datos extraídos utilizando nuestros servicios de base de datos y análisis como Amazon Elasticsearch Service, Amazon DynamoDB y Amazon Athena e integrarse con otros servicios de aprendizaje automático como Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate y Amazon SageMaker para ayudar a los clientes a obtener un significado más profundo del texto y los datos extraídos ", dijo Swami Sivasubramanian, Vicepresidente de Amazon Machine Learning. “Además de la integración con otros servicios de AWS, la rica comunidad de socios que se desarrolla en torno a Amazon Textract permite a los clientes obtener un verdadero significado de sus colecciones de archivos, operar de manera más eficiente, mejorar el cumplimiento de la seguridad, automatizar la entrada de datos y facilitar una empresa más rápida decisiones “.

Amazon Textract toma los archivos escaneados almacenados en un depósito de Amazon S3, los lee y devuelve datos en forma de texto JSON anotado con el número de página, la sección, las etiquetas de formulario y los tipos de datos. Estos datos se pueden utilizar para una serie de aplicaciones (por ejemplo, generar índices de búsqueda inteligentes, redactar texto en una colección masiva de formularios, crear flujos de trabajo automatizados de aprobación de préstamos, utilizar los datos para el cumplimiento normativo y señalar el riesgo de fraude para reclamaciones de seguros). Los clientes pueden cargar los datos en software empresarial, como hojas de cálculo, bases de datos y sistemas de nómina, o pueden analizar y consultar los datos mediante Amazon ElasticSearch, Amazon DynamoDB, Amazon Redshift o Amazon Athena.

Amazon Textract está disponible hoy en EE.UU. Este (Ohio), EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), UE (Irlanda) y se expandirá a otras regiones el próximo año.

The Globe and Mail es un icono nacional y la marca de medios más reconocida de Canadá. “Como empresa de medios de comunicación, contamos con muchos documentos PDF o de fuentes escaneadas, como FOI (solicitudes de libertad de información), que contienen información importante contenida en tablas a las que anteriormente no podíamos acceder”, dijo Michael O "Neill, Director Gerente de Digital y Data Science de The Globe and Mail. “Estos documentos han sido infrautilizados porque los periodistas no pudieron acceder fácilmente a ellos o no sabían que existían. Utilizando Amazon Textract, somos capaces de extraer información de tablas en PDF y enviar fácilmente esos datos a CSV y ofrecer un fácil acceso a estos documentos poniéndolos a disposición de nuestros periodistas para las consultas de búsqueda. Esto aumenta el acceso eficiente a la información para nuestro periodista en diez veces.”

Met Office es el servicio meteorológico nacional del Reino Unido y es líder mundial en la prestación de servicios meteorológicos y climáticos. “Esperamos utilizar AmazonTExtract para digitalizar millones de observaciones meteorológicas históricas de archivos de documentos”, dijo Philip Brohan, científico del clima de Met Office. “Hacer que estas observaciones estén a disposición de la ciencia mejorará nuestra comprensión de la variabilidad y el cambio climático”.

PwC ayuda a las organizaciones y a los individuos a crear valor mediante la prestación de calidad en servicios de aseguramiento, impuestos y asesoramiento. “En PwC, trabajamos para proporcionar a nuestros clientes herramientas de automatización inteligentes que ayudan a transformar procesos previamente manuales. Hemos integrado Amazon Textract en nuestra solución para la industria farmacéutica a fin de automatizar el procesamiento de documentos para diversos formularios de la FDA como MedWatch y CIOMS ", dijo Siddhartha Bhattacharya de PwC. “Anteriormente, las personas revisaban, editaban y procesaban manualmente estos formularios, cada uno tomaba horas. Amazon Textract ha demostrado ser la solución OCR más eficiente y precisa disponible para estos formularios, extrayendo toda la información relevante para su revisión y procesamiento y reduciendo el tiempo dedicado de horas a minutos.”

Healthfirst es una organización de atención administrada sin fines de lucro y uno de los planes de salud de más rápido crecimiento en Nueva York con más de 1,4 millones de miembros diversos y una red de más de 35.000 proveedores y 4.500 empleados. “En Healthfirst, estamos creando canalizaciones de datos para convertir las cartas médicas escaneadas en información clínica útil para mejorar la coordinación de la atención, impulsar resultados de calidad y garantizar el reembolso adecuado a los miembros bajo nuestra cobertura”, dijo Steve Prewitt, Director de Análisis de Healthfirst. “Utilizamos Amazon Textract y Amazon Comprehend Medical para obtener un valor real de fuentes de datos no estructuradas de forma eficiente, lo que supone un ahorro de ingresos de 10 a 20 veces mayor que nuestra operación habitual. Mediante la ampliación para analizar más de 50.000 gráficos, podemos encontrar diagnósticos indocumentados y remitir a unos 5.000 miembros para la gestión de la atención que necesitan”.

Informado, Inc. automatiza la forma en que las instituciones financieras originan préstamos y abren cuentas bancarias. “Ya hemos utilizado Amazon Textract para analizar decenas de miles de documentos de préstamos en nombre de instituciones financieras, y nuestra propia oferta de software como servicio ha sido mejorada por el servicio, lo que nos permite identificar el 95% de los defectos en los paquetes de solicitudes de préstamos y ayudar a los bancos a reducir sus datos manuales “, dijo Justin Wickett, fundador y CEO de Informed Inc. “Usando Amazon Textract, nuestro software proporciona a las instituciones financieras visibilidad en tiempo real de los ingresos de un solicitante basándose en sus talones de pago, estados de cuenta bancarios, declaraciones de impuestos y otros documentos financieros. Planeamos ampliar los tipos de documentos que analizamos utilizando Amazon Textract para que las instituciones financieras puedan aprovechar nuestros modelos de aprendizaje automático y aportar eficiencia en la toma de decisiones en tiempo real al proceso lento y manual de hoy”.

La misión de Candor es transformar el arcaico proceso que consume mucho tiempo y que carga a la industria hipotecaria. “Utilizamos OCR para extraer datos de una amplia variedad de documentos requeridos por el prestamista para verificar ingresos, activos, valor de la propiedad y mucho más. Hasta ahora, la mejor solución de OCR leía una página a razón de 38,4 segundos, pero Amazon Textract logra esto en una fracción de ese tiempo ", dijo Tom Showalter, fundador y CEO de Candor. “Hemos podido utilizar Textract para leer con precisión documentos complejos y diversos, como extractos bancarios, talones de pago y documentos fiscales sin capacitación adicional o experiencia en aprendizaje automático, lo que permite a nuestros clientes suscribir y cerrar un préstamo en días, en lugar de semanas”.

UIPath es un proveedor líder de automatización de procesos robóticos que proporciona una plataforma de software completa para ayudar a las organizaciones a automatizar eficientemente los procesos empresariales. “Amazon Textract diferenciará aún más la plataforma robótica de automatización de procesos de UIPath al mejorar las capacidades de comprensión de documentos de UIPath, lo que permite a nuestros clientes desbloquear datos empresariales críticos de documentos, transformar esos datos en información empresarial procesable y entregar esos conocimientos en línea de -sistemas operativos y empresariales ", dijo Param Kahlon, Director de Producto de UIPath.

TeraDact permite a los clientes transformar imágenes almacenadas y documentos en papel en formatos digitales utilizables y compatibles con la privacidad a escala. “La plataforma de documentos inteligentes de Amazon Textract alimenta los servicios de redacción patentados de TeraDact para eliminar y proteger automáticamente los datos confidenciales. Los clientes de TeraDact pueden eliminar permanentemente estos datos para que nunca puedan ser recuperados u optar por reemplazar los datos confidenciales con tokens patentados que pueden ser recuperados por individuos con los permisos adecuados. Esto es particularmente útil para cumplir con los mandatos gubernamentales relacionados con la privacidad de datos individuales, como el RGPD”, dijo Tom Trobridge, COO de TeraDact.

La misión de Ripcord es digitalizar y extraer conocimiento de documentos en papel utilizando robótica guiada por visión, aprendizaje automático y IA avanzada. Este conocimiento automatiza los procesos y flujos de trabajo del negocio. “Hemos tenido un gran éxito utilizando Amazon Textract para aumentar nuestra extracción avanzada de entidades para beneficiar a muchas industrias y descubrir $4.000 millones en nuevos pagos. Esperamos ampliar nuestro uso de Amazon Textract a través de servicios financieros y gubernamentales, asistencia sanitaria y legal ", dijo Alex Fielding, CEO de Ripcord.

Blue Prism desarrolla software de automatización de procesos robóticos para proporcionar a las empresas y organizaciones una fuerza de trabajo virtual más ágil. “El RPA Connected-RPA de Blue Prism puede automatizar y realizar procesos de misión crítica, lo que permite a los clientes la libertad de centrarse en un trabajo más creativo y significativo. Mediante el uso de Amazon Textract, hemos dado a nuestra fuerza de trabajo digital otra herramienta poderosa para la automatización. Amazon Textract analiza con precisión los datos de varios tipos de documentos mediante el aprendizaje automático, lo que mejora el viaje de transformación digital para nuestros clientes. Mediante el uso de servicios adicionales de AI de AWS, como Amazon Comprehend y Amazon Rekognition, podemos abordar desafíos desde procesos de autenticación de clientes seguros adicionales hasta capacidades de detección de fraudes. La inteligencia y la flexibilidad de la extracción de datos de formularios de Amazon Textract pueden elevar el OCR a nuevos niveles en sectores como los servicios financieros, el comercio minorista, la fabricación y el transporte, por nombrar algunos ", dijo Dave Moss, director técnico y cofundador de Blue Prism.

Acerca de Amazon Web Services

Durante 13 años, Amazon Web Services ha sido la plataforma en la nube más completa y ampliamente adoptada del mundo. AWS ofrece más de 165 servicios completos para informática, almacenamiento, bases de datos, redes, análisis, robótica, aprendizaje automático e inteligencia artificial (AI), Internet de las cosas (IoT), móviles, seguridad, realidad híbrida, virtual y aumentada (VR y AR), medios y desarrollo de aplicaciones, implementación y desde 66 Zonas de Disponibilidad (AZs) dentro de 21 regiones geográficas, que abarcan Estados Unidos, Australia, Brasil, Canadá, China, Francia, Alemania, Región Administrativa Especial de Hong Kong, India, Irlanda, Japón, Corea, Singapur, Suecia y el Reino Unido. Millones de clientes, incluidas las startups de más rápido crecimiento, las empresas más grandes y las principales agencias gubernamentales, confían en AWS para impulsar su infraestructura, ser más ágil y reducir los costes. Para obtener más información sobre AWS, visite aws.amazon.com.

Acerca de Amazon

Amazon se guía por cuatro principios: la obsesión del cliente en lugar de centrarse en la competencia, la pasión por la invención, el compromiso con la excelencia operativa y el pensamiento a largo plazo. Opiniones de clientes, compras 1-Clic, recomendaciones personalizadas, Prime, Fulfillment by Amazon, AWS, Kindle Direct Publishing, Kindle, tablets Fire, Fire TV, Amazon Echo y Alexa son algunos de los productos y servicios pioneros por Amazon. Para obtener más información, visita amazon.com/about y sigue @AmazonNews.

Lea la versión completa en AWS Anuncia la disponibilidad general de Amazon Textract

Lectura adicional

Amazon Textract: extrae fácilmente texto y datos de prácticamente cualquier documento

Traducción automática: Lo importante de la evaluación a nivel de documento

¿Compartir es cuidar? ayfie Group Listas en Merkur Market de la Bolsa de Oslo

According to Johannes Stiehler, CEO of ayfie Group, in a July...

XDD adquiere Anexsys

According to David Moran, XDD President and COO, “Complementing our recent...

¿Te falta algo? Modelado de temas en eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and...

HayStackID y NightOWL Global Fusionar

According to today's announcement, the NightOwl merger is HaystackID's fourth major...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Guía de compradores de eDisclosure Systems — Edición 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

¿La carrera a la línea de salida? Anuncios recientes de revisión remota segura

Not all secure remote review offerings are equal as the apparent...

¿Activando la exhibición remota de documentos electrónicos? Una instantánea de DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

¿A casa o a distancia? Consideraciones sobre el tamaño del mercado y los precios de la colección eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Revisiones y decisiones? Nuevas consideraciones para eDiscovery Secure Remote Reviews

One of the key revision and decision areas that business, legal,...

Una mirada macro al tamaño del mercado de eDiscovery pasado y proyectado de 2012 a 2024

From a macro look at past estimations of eDiscovery market size...

Un Mashup de tamaño de mercado de eDiscovery: 2019-2024 Visión general de software y servicios en todo el mundo

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

¿Negocios tan inusuales? Dieciocho observaciones sobre la confianza empresarial de eDiscovery en el verano de 2020

Based on the aggregate results of nineteen past eDiscovery Business Confidence...

¿Una preocupación creciente? Restricciones presupuestarias y el negocio de eDiscovery

In the summer of 2020, 56% of respondents viewed budgetary constraints...

¿Un cambio en el tempo? Métricas Operacionales de eDiscovery en el Verano de 2020

In the summer of 2020, 91 eDiscovery Business Confidence Survey participants...

Resultados de la encuesta de confianza empresarial de eDiscovery — Verano 2020

This is the nineteenth quarterly eDiscovery Business Confidence Survey conducted by...

¿Compartir es cuidar? ayfie Group Listas en Merkur Market de la Bolsa de Oslo

According to Johannes Stiehler, CEO of ayfie Group, in a July...

XDD adquiere Anexsys

According to David Moran, XDD President and COO, “Complementing our recent...

HayStackID y NightOWL Global Fusionar

According to today's announcement, the NightOwl merger is HaystackID's fourth major...

Mitratech adquiere Tracker Corp

The acquisition supports Mitratech’s mission to provide legal and compliance solutions...

Cinco grandes lecturas sobre eDiscovery para julio de 2020

From business confidence and operational metrics to data protection and privacy...

Cinco grandes lecturas sobre eDiscovery para junio de 2020

From collection market size updates to cloud outsourcing guidelines, the June...

Cinco grandes lecturas sobre eDiscovery para mayo de 2020

From review market sizing revisions to pandemeconomic pricing, the May 2020...

Cinco grandes lecturas sobre eDiscovery para abril de 2020

From business confidence to the boom of Zoom, the April 2020...

[New Survey]
[New Survey]