Uma nova ferramenta para detecção de dados e legal? A AWS anuncia disponibilidade geral do Amazon Textract

Released for general availability by AWS, Amazon Textract is a fully managed service that uses machine learning to automatically extract text and data, including from tables and forms, in virtually any document without the need for manual review, custom code, or machine learning experience.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Comunicado de Imprensa

A AWS anuncia disponibilidade geral do Amazon Textract

O Amazon Textract usa o aprendizado de máquina para extrair automaticamente texto e dados, inclusive de tabelas e formulários, em praticamente qualquer documento — sem necessidade de experiência de aprendizado de máquina.

The Globe and Mail, MET Office, PwC, Healthfirst, UiPath, Teradact, Ripcord, Kablamo, Vidado, BluePrism e Alfresco entre clientes e parceiros que usam o Amazon Textract

Hoje [29 de maio de 2019], a Amazon Web Services, Inc. (AWS), uma empresa da Amazon.com (NASDAQ: AMZN), anunciou a disponibilidade geral do Amazon Textract, um serviço totalmente gerenciado que usa o aprendizado de máquina para extrair automaticamente texto e dados, inclusive de tabelas e formulários, em praticamente qualquer documento sem o necessidade de revisão manual, código personalizado ou experiência de aprendizado de máquina. O Amazon Textract vai além do reconhecimento óptico de caracteres simples (OCR) para identificar o conteúdo de campos em formulários, informações armazenadas em tabelas e o contexto no qual as informações são apresentadas, como um nome ou número de seguridade social de um formulário fiscal ou o código SKU do produto ou quantidade em um armazém de um relatório de inventário. O texto e os dados extraídos podem ser facilmente usados para criar pesquisas inteligentes em grandes arquivos de documentos, ou podem ser carregados em um banco de dados para uso por aplicativos, como contabilidade, auditoria e software de conformidade. A API do Amazon Textract oferece suporte a vários formatos de imagem, como digitalizações, PDFs e fotos, e os clientes podem usá-lo com serviços de banco de dados e análise, como Amazon Elasticsearch Service, Amazon DynamoDB e AmazonAthena e outros serviços de aprendizado de máquina como Amazon Comprehend, Amazon Comprehend Medical, Amazon Traduza e o Amazon SageMaker para obter um significado mais profundo do texto e dos dados extraídos. Para começar a usar o Amazon Textract, acesse

Muitas empresas extraem texto e dados de arquivos como contratos, relatórios de despesas, garantias hipotecárias, prospectos de fundos, documentos fiscais, reclamações hospitalares e formulários de pacientes por meio de entrada manual de dados ou software de OCR simples. Este é um processo demorado e muitas vezes impreciso que produz uma saída que requer pós-processamento extensivo antes que ele possa ser colocado em um formato que é utilizável por outros aplicativos. Isso ocorre porque as tecnologias OCR existentes não conseguem reconhecer layouts comuns, como formulários e tabelas, e geram apenas um despejo de texto longo e muitas vezes impreciso. Em vez disso, o que as organizações desejam é a capacidade de identificar e extrair com precisão texto e dados de formulários e tabelas em documentos de qualquer formato e de uma variedade de tipos de arquivo e modelos. O Amazon Textract analisa praticamente qualquer tipo de documento, gerando automaticamente dados de texto, formulário e tabela altamente precisos. O Amazon Textract identifica texto e dados de tabelas e formulários em documentos — como itens de linha e totais de um recibo fotografado, informações fiscais de um W2 ou valores de uma tabela em um relatório de inventário digitalizado — e reconhece uma variedade de formatos de documento, incluindo aqueles específicos para serviços financeiros, seguros e cuidados de saúde, sem a necessidade de qualquer personalização ou intervenção humana. O Amazon Textract facilita que os clientes processem com precisão milhões de páginas de documentos em apenas algumas horas, reduzindo significativamente os custos de processamento de documentos e permitindo que os clientes se concentrem na obtenção de valor comercial de seus textos e dados em vez de desperdiçar tempo e esforço no pós-processamento. Os resultados são fornecidos por meio de uma API que pode ser facilmente acessada e usada sem a necessidade de qualquer experiência de aprendizado de máquina.

“O poder do Amazon Textract é que ele extrai com precisão texto e dados estruturados de praticamente qualquer documento, sem necessidade de experiência de aprendizado de máquina. Posteriormente, os desenvolvedores podem analisar e consultar o texto e os dados extraídos usando nossos serviços de banco de dados e análise, como Amazon Elasticsearch Service, Amazon DynamoDB e Amazon Athena, e integrar com outros serviços de aprendizado de máquina, como Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate e O Amazon SageMaker para ajudar os clientes a obter um significado mais profundo do texto e dos dados extraídos ", disse Swami Sivasubramanian, vice-presidente da Amazon Machine Learning. “Além da integração com outros serviços da AWS, a comunidade rica de parceiros que se desenvolve em torno do Amazon Textract permite que os clientes ganhem significado real de suas coleções de arquivos, operem de forma mais eficiente, melhorem a conformidade com a segurança, automatizem a entrada de dados e facilitem negócios mais rápidos decisões.”

O Amazon Textract usa arquivos digitalizados armazenados em um bucket do Amazon S3, os lê e retorna dados na forma de texto JSON anotado com o número da página, seção, rótulos de formulário e tipos de dados. Esses dados podem então ser usados para uma variedade de aplicativos (por exemplo, geração de índices de pesquisa inteligente, redação de texto em uma coleção massiva de formulários, criação de fluxos de trabalho automatizados de aprovação de empréstimos, uso dos dados para conformidade normativa e sinalização de risco de fraude para reivindicações de seguros). Os clientes podem carregar os dados em software de negócios, como planilhas, bancos de dados e sistemas de folha de pagamento, ou podem analisar e consultar os dados usando o Amazon ElasticSearch, Amazon DynamoDB, Amazon Redshift ou Amazon Athena.

O Amazon Textract está disponível hoje no Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), UE (Irlanda) e se expandirá para regiões adicionais no próximo ano.

The Globe and Mail é um ícone nacional e marca de mídia mais reconhecida do Canadá. “Como uma empresa de mídia de notícias, contamos com muitos documentos PDF ou de fontes digitalizadas, como as FOIs (solicitações de liberdade de informação), que têm informações importantes contidas em tabelas que anteriormente não pudemos acessar”, disse Michael O "Neill, Diretor Administrativo de Digital and Data Science da The Globe and Mail. “Esses documentos foram subutilizados porque os jornalistas não foram capazes de acessá-los facilmente ou não sabiam que eles existiam. Usando o Amazon Textract, podemos extrair informações de tabelas em PDFs e facilmente enviar esses dados para CSV e oferecer acesso fácil a esses documentos, disponibilizando-os para consultas de pesquisa por nossos jornalistas. Isso aumenta o acesso eficiente à informação para o nosso jornalista em dez vezes.”

O Met Office é o serviço meteorológico nacional do Reino Unido e é líder mundial na prestação de serviços meteorológicos e climáticos. “Esperamos usar o AmazontExtract para digitalizar milhões de observações meteorológicas históricas de arquivos de documentos”, disse Philip Brohan, Cientista Climático da Met Office. “Disponibilizar estas observações para a ciência irá melhorar a nossa compreensão da variabilidade climática e da mudança.”

A PwC ajuda organizações e indivíduos a criar valor fornecendo qualidade em serviços de garantia, tributários e assessoria. “Na PwC, trabalhamos para fornecer aos nossos clientes ferramentas de automação inteligentes que ajudam a transformar processos anteriormente manuais. Integramos o Amazon Textract em nossa solução para a indústria farmacêutica para automatizar o processamento de documentos para vários formulários da FDA, como MedWatch e CIOMS ", disse Siddhartha Bhattacharya da PwC. “Anteriormente, as pessoas revisavam manualmente, editavam e processavam esses formulários, cada um demorava horas. O Amazon Textract provou ser a solução de OCR mais eficiente e precisa disponível para esses formulários, extraindo todas as informações relevantes para análise e processamento e reduzindo o tempo gasto de horas para minutos.”

A Healthfirst é uma organização de cuidados gerenciados sem fins lucrativos e um dos planos de saúde de crescimento mais rápido em Nova York, com mais de 1,4 milhões de membros diversos e uma rede de mais de 35.000 provedores e 4.500 funcionários. “Na Healthfirst, estamos criando pipelines de dados para transformar gráficos médicos digitalizados em informações clínicas úteis para melhorar a coordenação dos cuidados, gerar resultados de qualidade e garantir o reembolso adequado para os membros sob nossa cobertura”, disse Steve Prewitt, Chief Analytics Officer da Healthfirst. “Usamos o Amazon Textract e o Amazon Comprehend Medical para obter valor real de fontes de dados não estruturadas de forma eficiente, resultando em economias de receita 10-20 vezes mais do que nossa operação normal de downstream. Ao aumentar a escala para analisar mais de 50.000 gráficos, podemos encontrar diagnósticos não documentados e referenciar cerca de 5.000 membros para a gestão de cuidados de que necessitam.”

Informado, Inc. automatiza como as instituições financeiras originam empréstimos e abrem contas bancárias. “Já usamos o Amazon Textract para analisar dezenas de milhares de documentos de empréstimo em nome de instituições financeiras, e nossa própria oferta de software como serviço foi aprimorada pelo serviço, permitindo identificar 95% dos defeitos nos pacotes de aplicativos de empréstimo e ajudar os bancos a reduzir seus dados manuais ”, disse Justin Wickett, fundador e CEO da Informado Inc. “Usando o Amazon Textract, nosso software dá às instituições financeiras visibilidade em tempo real da renda de um candidato com base em seus recibos de pagamento, extratos bancários, declarações de impostos e outros documentos financeiros. Planejamos expandir os tipos de documentos que analisamos usando o Amazon Textract para permitir que as instituições financeiras aproveitem nossos modelos de aprendizado de máquina e tragam eficiência de tomada de decisões em tempo real para o processo lento e manual de hoje.”

A missão da Candor é transformar o processo arcaico e demorado que sobrecarrega a indústria hipotecária. “Usamos o OCR para extrair dados de uma grande variedade de documentos necessários ao emprestador para verificar renda, ativos, valor da propriedade e muito mais. Até agora, a melhor solução de OCR lê uma página à taxa de 38,4 segundos, mas o Amazon Textract consegue isso em uma fração desse tempo ", disse Tom Showalter, fundador e CEO da Candor. “Conseguimos usar o Textract para ler com precisão documentos complexos e diversos, como extratos bancários, recibos de pagamento e documentos fiscais sem treinamento adicional ou experiência de aprendizado de máquina, permitindo que nossos clientes subfiram e fechem um empréstimo em dias, ao contrário de semanas.”

O UiPath é um fornecedor líder em Automação de Processos Robóticos que fornece uma plataforma de software completa para ajudar as organizações a automatizar de forma eficiente os processos de negócios. “O Amazon Textract diferenciará ainda mais a plataforma de automação de processos robóticos da UIPPath aprimorando os recursos de compreensão de documentos da UiPath, permitindo que nossos clientes desbloqueiem dados essenciais de negócios de documentos, transformem esses dados em insights de negócios acionáveis e forneçam esses insights em linha de -negócios e sistemas operacionais ", disse Param Kahlon, Diretor de Produto da UiPath.

O TeraDact permite que os clientes transformem imagens armazenadas e documentos em papel em formatos digitais utilizáveis e compatíveis com a privacidade em escala. “A plataforma de documentos inteligentes do Amazon Textract alimenta os serviços de redação patenteados da TeraDact para remover e proteger automaticamente dados confidenciais. Os clientes TeraDact podem remover permanentemente esses dados para que eles nunca possam ser recuperados ou optar por substituir dados confidenciais por tokens patenteados que podem ser recuperados por indivíduos com as permissões apropriadas. Isso é particularmente útil para cumprir os mandatos governamentais em torno da privacidade de dados individuais, como o GDPR,” disse Tom Trobridge, COO, TeraDact.

A missão da Ripcord é digitalizar e extrair conhecimento de documentos em papel usando robótica guiada por visão, aprendizado de máquina e IA avançada. Esse conhecimento automatiza processos de negócios e fluxos de trabalho. “Tivemos um tremendo sucesso ao utilizar o Amazon Textract para aumentar nossa extração avançada de entidades para beneficiar muitos setores e descobrir US $4 bilhões em novos pagamentos. Estamos ansiosos para expandir nosso uso do Amazon Textract em serviços financeiros e governamentais, saúde e serviços jurídicos ", disse Alex Fielding, CEO da Ripcord.

A Blue Prism desenvolve software Robotic Process Automation para fornecer às empresas e organizações uma força de trabalho virtual mais ágil. “A RPA conectada da Blue Prism pode automatizar e executar processos de missão crítica, permitindo aos clientes a liberdade de se concentrar em um trabalho mais criativo e significativo. Ao usar o Amazon Textract, fornecemos à nossa força de trabalho digital outra ferramenta poderosa para automação. O Amazon Textract analisa com precisão dados de vários tipos de documentos usando o aprendizado de máquina, o que melhora a jornada de transformação digital para nossos clientes. Usando serviços adicionais de IA da AWS, como o Amazon Comprehend e o Amazon Rekognition, podemos enfrentar desafios de processos de autenticação de clientes seguros adicionais a recursos de detecção de fraudes. A inteligência e a flexibilidade da extração de dados de formulário do Amazon Textract podem elevar o OCR a novos níveis em setores como serviços financeiros, varejo, manufatura e transporte, para citar alguns ", disse Dave Moss, CTO e Co-Fundador da Blue Prism.

Sobre a Amazon Web Services

Por 13 anos, a Amazon Web Services tem sido a plataforma de nuvem mais abrangente e adotada do mundo. A AWS oferece mais de 165 serviços completos para computação, armazenamento, bancos de dados, redes, análises, robótica, aprendizado de máquina e inteligência artificial (AI), Internet das coisas (IoT), dispositivos móveis, segurança, híbrida, virtual e realidade aumentada (VR e AR), mídia e desenvolvimento de aplicativos, implantação e implantação de aplicativos e de 66 zonas de disponibilidade (AZs) em 21 regiões geográficas, abrangendo os EUA, Austrália, Brasil, Canadá, China, França, Alemanha, Região Administrativa Especial de Hong Kong, Índia, Irlanda, Japão, Coreia, Cingapura, Suécia e Reino Unido. Milhões de clientes, incluindo as startups de crescimento mais rápido, as maiores empresas e as principais agências governamentais, confiam na AWS para impulsionar sua infraestrutura, se tornar mais ágil e reduzir custos. Para saber mais sobre a AWS, visite aws.amazon.com.

Sobre a Amazon

A Amazon é guiada por quatro princípios: obsessão do cliente em vez de foco do concorrente, paixão pela invenção, compromisso com a excelência operacional e pensamento a longo prazo. Avaliações de clientes, compras com 1-Clique, recomendações personalizadas, Prime, Fulfillment by Amazon, AWS, Kindle Direct Publishing, Kindle, tablets Fire, Fire TV, Amazon Echo e Alexa são alguns dos produtos e serviços pioneiros da Amazon. Para obter mais informações, acesse amazon.com/about e siga @AmazonNews.

Leia a versão completa na AWS anuncia a disponibilidade geral do Amazon Textract

Leitura adicional

Amazon Textract: extraia facilmente texto e dados de praticamente qualquer documento

Tradução Automática: O Importante da Avaliação em Nível de Documento

XDD adquire RVM

According to XDD CEO Bob Polus, “Merging forces with RVM further...

Ipro adquire NetGovern

According to Dean Brown, CEO at Ipro Tech, “We are thrilled...

Avaliação 2020: Guia de Apoio a Litígios da Chambers e eDiscovery

Chambers Litigation Support 2020 is a comprehensive guide to the leading professional...

Uma Vantagem Competitiva? FTC e DOJ emitem diretrizes antitruste para avaliação de fusões verticais

According to FTC Chairman Joe Simons, “The new Guidelines reflect our...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Guia de Compradores de Sistemas de Disclosure — Edição 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

A Corrida para a Linha de Partida? Anúncios recentes de revisão remota segura

Not all secure remote review offerings are equal as the apparent...

Ativando a Descoberta Eletrônica Remota? Um instantâneo de DAaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Para casa ou para fora? Considerações de preço e dimensionamento do mercado de coleta de eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Revisões e decisões? Novas considerações sobre análises remotas seguras de eDiscovery

One of the key revision and decision areas that business, legal,...

Uma visão macro do tamanho do mercado de descoberta eletrônica passado e projetado de 2012 a 2024

From a macro look at past estimations of eDiscovery market size...

Um Mashup de tamanho de mercado de eDiscovery: 2019-2024 Visão geral de software e serviços em todo o mundo

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Aceleração restrita? A Pesquisa de Confiança Empresarial de Descoberta Eletrônica Verão 2020

Since January 2016, 2,089 individual responses to eighteen quarterly eDiscovery Business...

Uma questão de preços? Uma atualização em execução das respostas semestrais de pesquisa de preços de eDiscovery

First administered in December of 2018 and conducted four times during...

Um Indicador Econômico Pandemum? Resultados da pesquisa de preços do eDiscovery Summer 2020

Based on the complexity of data and legal discovery, it is...

COVID-19 Restrito? O impacto de seis questões no negócio da eDiscovery

In the spring of 2020, 51.2% of respondents viewed budgetary constraints...

XDD adquire RVM

According to XDD CEO Bob Polus, “Merging forces with RVM further...

Ipro adquire NetGovern

According to Dean Brown, CEO at Ipro Tech, “We are thrilled...

Morae Acquires Legal Management Consultancy Janders Dean

According to Janders Dean founder Justin North, "Now more than ever,...

eDiscovery Fusões, aquisições e investimentos no 2º trimestre de 2020

From UnitedLex to Onna, ComplexDiscovery findings, data points, and tracking information...

Cinco grandes leituras sobre eDiscovery em junho de 2020

From collection market size updates to cloud outsourcing guidelines, the June...

Cinco grandes leituras sobre eDiscovery em maio de 2020

From review market sizing revisions to pandemeconomic pricing, the May 2020...

Cinco grandes leituras sobre eDiscovery de abril de 2020

From business confidence to the boom of Zoom, the April 2020...

Cinco leituras excelentes sobre descoberta de dados e descoberta legal para março de 2020

From business continuity considerations to cybersecurity attacks, the March 2020 edition...