Un nouvel outil pour la découverte de données et la découverte légale ? AWS annonce la disponibilité générale d'Amazon Texttract

Released for general availability by AWS, Amazon Textract is a fully managed service that uses machine learning to automatically extract text and data, including from tables and forms, in virtually any document without the need for manual review, custom code, or machine learning experience.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Communiqué de presse

AWS annonce la disponibilité générale d'Amazon Texttract

Amazon Texttract utilise l'apprentissage automatique pour extraire automatiquement du texte et des données, y compris des tableaux et des formulaires, dans pratiquement n'importe quel document, sans aucune expérience d'apprentissage automatique requise.

The Globe and Mail, MET Office, PwC, Healthfirst, UIPath, Teradact, Ripcord, Kablamo, Vidado, BluePrism et Alfresco parmi les clients et les partenaires utilisant Amazon Texttract

Aujourd'hui [29 mai 2019], Amazon Web Services, Inc. (AWS), une société Amazon.com (NASDAQ : AMZN), a annoncé la disponibilité générale d'Amazon Texttract, un service entièrement géré qui utilise l'apprentissage automatique pour extraire automatiquement du texte et des données, y compris des tables et des formulaires, dans pratiquement n'importe quel document sans besoin d'une révision manuelle, d'un code personnalisé ou d'une expérience d'apprentissage automatique. Amazon Texttract va au-delà de la simple reconnaissance optique des caractères (ROC) pour identifier le contenu des champs dans les formulaires, les informations stockées dans les tables et le contexte dans lequel les informations sont présentées, comme un nom ou un numéro de sécurité sociale à partir d'un formulaire fiscal ou le SKU ou la quantité du produit dans un entrepôt à partir d'un rapport d'inventaire. Le texte et les données extraits peuvent être facilement utilisés pour créer des recherches intelligentes sur de grandes archives de documents, ou peuvent être chargés dans une base de données pour être utilisés par des applications telles que les logiciels de comptabilité, d'audit et de conformité. L'API d'Amazon Texttract prend en charge plusieurs formats d'image tels que scanners, PDF et photos, et les clients peuvent l'utiliser avec des services de base de données et d'analyse tels qu'Amazon Elasticsearch Service, Amazon DynamoDB et AmazonaThena et d'autres services d'apprentissage automatique tels qu'Amazon Comprehend, Amazon Comprehend Medical, Amazon Traduisez et Amazon SageMaker pour obtenir une signification plus profonde à partir du texte et des données extraits. Pour commencer à utiliser Amazon Texttract, rendez-vous sur

De nombreuses entreprises extraient du texte et des données à partir de fichiers tels que les contrats, les rapports de dépenses, les garanties hypothécaires, les prospectus de fonds, les documents fiscaux, les demandes d'indemnisation des hôpitaux et les formulaires de patients au moyen d'une saisie manuelle de données ou d'un simple logiciel OCR. Il s'agit d'un processus long et souvent inexact qui produit une sortie nécessitant un post-traitement complet avant de pouvoir être mis dans un format utilisable par d'autres applications. En effet, les technologies OCR existantes ne peuvent pas reconnaître les mises en page courantes comme les formulaires et les tableaux, et ne génèrent qu'un vidage de texte long et souvent inexact. Ce que les organisations veulent plutôt, c'est la capacité d'identifier et d'extraire avec précision du texte et des données des formulaires et des tableaux dans des documents de n'importe quel format et à partir d'une variété de types de fichiers et de modèles. Amazon Texttract analyse pratiquement n'importe quel type de document, générant automatiquement des données de texte, de formulaire et de tableau très précises. Amazon Texttract identifie le texte et les données provenant de tableaux et de formulaires dans des documents, tels que les éléments de ligne et les totaux provenant d'un reçu photographié, les informations fiscales provenant d'un W2 ou les valeurs d'une table dans un rapport de stock numérisé, et reconnaît toute une gamme de formats de documents, y compris ceux spécifiques aux services financiers, les assurances et les soins de santé, sans nécessiter de personnalisation ni d'intervention humaine. Amazon Texttract permet aux clients de traiter avec précision des millions de pages de documents en quelques heures, ce qui réduit considérablement les coûts de traitement des documents et permet aux clients de se concentrer sur la valeur commerciale de leur texte et de leurs données au lieu de perdre du temps et des efforts en post-traitement. Les résultats sont fournis via une API facile d'accès et d'utilisation sans nécessiter d'expérience d'apprentissage automatique.

« La puissance d'Amazon Texttract est qu'il extrait avec précision du texte et des données structurées de pratiquement n'importe quel document sans aucune expérience d'apprentissage automatique requise. Par la suite, les développeurs peuvent analyser et interroger le texte et les données extraits à l'aide de nos services de base de données et d'analyse tels qu'Amazon Elasticsearch Service, Amazon DynamoDB et Amazon Athena et s'intégrer à d'autres services d'apprentissage automatique tels qu'Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate et Amazon SageMaker pour aider les clients à tirer une signification plus profonde du texte et des données extraits », a déclaré Swami Sivasubramanian, vice-président d'Amazon Machine Learning. « En plus de l'intégration avec d'autres services AWS, la riche communauté de partenaires développée autour d'Amazon Texttract permet aux clients de gagner un sens réel à partir de leurs collections de fichiers, d'opérer plus efficacement, d'améliorer la conformité à la sécurité, d'automatiser la saisie des données et de faciliter l'activité plus rapide. décisions. »

Amazon Texttract prend les fichiers numérisés stockés dans un compartiment Amazon S3, les lit et renvoie des données sous forme de texte JSON annoté avec le numéro de page, la section, les étiquettes de formulaire et les types de données. Ces données peuvent ensuite être utilisées pour diverses applications (par exemple, générer des index de recherche intelligente, expurger du texte dans un ensemble massif de formulaires, créer des flux de travail automatisés d'approbation de prêt, utiliser les données pour se conformer à la réglementation et signaler le risque de fraude dans le cas des demandes d'assurance). Les clients peuvent charger les données dans des logiciels métier, tels que des feuilles de calcul, des bases de données et des systèmes de paie, ou ils peuvent analyser et interroger les données à l'aide d'Amazon ElasticSearch, d'Amazon DynamoDB, d'Amazon Redshift ou d'Amazon Athena.

Amazon Texttract est disponible aujourd'hui aux États-Unis Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), UE (Irlande), et va s'étendre à d'autres régions au cours de l'année à venir.

Le Globe and Mail est une icône nationale et la marque médiatique la plus reconnue au Canada. « En tant que société de médias d'information, nous nous appuyons sur de nombreux documents PDF ou numérisés, tels que les demandes d'accès à l'information (demandes d'accès à l'information) qui contiennent des renseignements importants dans des tableaux auxquels nous ne pouvions pas accéder auparavant », a déclaré Michael O'Neill, directeur général de la science numérique et des données chez The Globe and Mail. « Ces documents ont été sous-utilisés parce que les journalistes n'ont pas pu y accéder facilement ou ne savaient pas qu'ils existaient. Grâce à Amazon Texttract, nous sommes en mesure d'extraire des informations de tableaux dans des fichiers PDF et de les diffuser facilement vers CSV et d'offrir un accès facile à ces documents en les rendant disponibles pour les requêtes de recherche de nos journalistes. Cela accroît l'accès efficace à l'information pour notre journaliste de dix fois plus efficace. »

Met Office est le service météorologique national du Royaume-Uni et est un chef de file mondial dans la fourniture de services météorologiques et climatiques. « Nous espérons utiliser AmazonTexttract pour numériser des millions d'observations météorologiques historiques provenant d'archives documentaires », a déclaré Philip Brohan, spécialiste du climat chez Met Office. « La mise à la disposition de la science de ces observations améliorera notre compréhension de la variabilité et des changements climatiques. »

PwC aide les organisations et les particuliers à créer de la valeur en offrant des services de qualité en matière d'assurance, de fiscalité et de conseil. « Chez PwC, nous travaillons à fournir à nos clients des outils d'automatisation intelligents qui aident à transformer des processus auparavant manuels. Nous avons intégré Amazon Texttract à notre solution pour l'industrie pharmaceutique afin d'automatiser le traitement des documents pour divers formulaires de la FDA tels que MedWatch et CIOMS », a déclaré Siddhartha Bhattacharya de PwC. « Auparavant, les personnes examinaient, modifiaient et traitaient manuellement ces formulaires, chacun prenant des heures. Amazon Texttract s'est avéré être la solution OCR la plus efficace et la plus précise disponible pour ces formulaires, en extrayant toutes les informations pertinentes à des fins de révision et de traitement, et en réduisant le temps passé de quelques heures à quelques minutes. »

Healthfirst est une organisation de soins gérés à but non lucratif et l'un des régimes de santé à la croissance la plus rapide à New York, avec plus de 1,4 million de membres divers et un réseau de plus de 35 000 fournisseurs et 4 500 employés. « Chez Healthfirst, nous construisons des pipelines de données pour transformer les dossiers médicaux numérisés en informations cliniques utiles afin d'améliorer la coordination des soins, d'obtenir des résultats de qualité et d'assurer un remboursement approprié aux membres couverts par notre couverture », a déclaré Steve Prewitt, directeur des analyses chez Healthfirst. « Nous utilisons Amazon Texttract et Amazon Comprehend Medical pour obtenir une valeur réelle à partir de sources de données non structurées de manière efficace, ce qui permet d'économiser 10 à 20 fois plus que nos opérations en aval habituelles. En passant à l'échelle pour analyser plus de 50 000 graphiques, nous pouvons trouver des diagnostics non documentés et orienter environ 5 000 membres pour la gestion des soins dont ils ont besoin. »

Informé, Inc. automatise la façon dont les institutions financières accordent des prêts et ouvrent des comptes bancaires. « Nous avons déjà utilisé Amazon Texttract pour analyser des dizaines de milliers de documents de prêt pour le compte d'institutions financières, et notre propre offre logicielle en tant que service a été améliorée par le service, ce qui nous permet d'identifier 95% des défauts dans les paquets de demandes de prêt et d'aider les banques à réduire leurs données manuelles.  », a déclaré Justin Wickett, fondateur et chef de la direction, Informed Inc. « Grâce à Amazon Texttract, notre logiciel offre aux institutions financières une visibilité en temps réel sur le revenu d'un candidat basé sur ses talons de paie, relevés bancaires, déclarations de revenus et autres documents financiers. Nous prévoyons d'étendre les types de documents que nous analysons à l'aide d'Amazon Texttract afin de permettre aux institutions financières de tirer parti de nos modèles d'apprentissage automatique et d'apporter une efficacité décisionnelle en temps réel au processus lent et manuel d'aujourd'hui. »

La mission de Candor est de transformer le processus archaïque et fastidieux qui pèse sur l'industrie hypothécaire. « Nous utilisons la ROC pour extraire des données à partir d'une grande variété de documents requis par le prêteur afin de vérifier le revenu, les actifs, la valeur des biens et bien plus encore. Jusqu'à présent, la meilleure solution OCR lisait une page au rythme de 38,4 secondes, mais Amazon Texttract y parvient en une fraction de ce temps », a déclaré Tom Showalter, fondateur et PDG de Candor. « Nous avons pu utiliser Texttract pour lire avec précision des documents complexes et divers tels que des relevés bancaires, des talons de paie et des documents fiscaux sans formation supplémentaire ni expertise en apprentissage automatique, ce qui permet à nos clients de souscrire et de conclure un prêt en quelques jours, plutôt que des semaines. »

UIPath est un fournisseur leader de l'automatisation des processus robotiques fournissant une plate-forme logicielle complète pour aider les entreprises à automatiser efficacement leurs processus métier. « Amazon Texttract différenciera davantage la plate-forme d'automatisation des processus robotisés d'UIPath en améliorant les capacités de compréhension des documents d'UIPath, permettant à nos clients de débloquer des données commerciales critiques à partir de documents, de transformer ces données en informations commerciales exploitables et de fournir ces informations en ligne de  », a déclaré Param Kahlon, Chief Product Officer de UIPath.

TeraAct permet aux clients de transformer des images stockées et des documents papier en formats numériques utilisables et conformes à la confidentialité. « La plate-forme de documents intelligents d'Amazon Texttract alimente les services de redaction brevetés de TeraDact pour supprimer et sécuriser automatiquement les données sensibles. Les clients TeraDact peuvent supprimer définitivement ces données afin qu'elles ne puissent jamais être récupérées ou opter pour remplacer les données sensibles par des jetons brevetés qui peuvent être récupérés par des personnes disposant des autorisations appropriées. Ceci est particulièrement utile dans le respect des mandats gouvernementaux en matière de confidentialité des données individuelles telles que le RGPR », a déclaré Tom Trobridge, COO, TeraAct.

La mission de Ripcord est de numériser et d'extraire des connaissances de documents papier à l'aide de la robotique orientée vers la vision, de l'apprentissage automatique et de l'IA avancée. Ces connaissances automatisent les processus métier et les flux de travail. « Nous avons connu un énorme succès en utilisant Amazon Texttract pour augmenter notre extraction avancée d'entités au profit de nombreuses industries et découvrir 4 milliards de dollars de nouveaux salaires. Nous sommes impatients d'étendre notre utilisation d'Amazon Texttract aux services financiers et gouvernementaux, aux soins de santé et aux services juridiques », a déclaré Alex Fielding, PDG de Ripcord.

Blue Prism développe un logiciel Robotic Process Automation pour fournir aux entreprises et aux organisations une main-d'œuvre virtuelle plus agile. « Le RPA Connected-RPA de Blue Prism peut automatiser et exécuter des processus critiques, ce qui permet aux clients de se concentrer sur un travail plus créatif et plus significatif. En utilisant Amazon Texttract, nous avons donné à notre personnel numérique un autre outil puissant d'automatisation. Amazon Texttract analyse avec précision les données provenant de différents types de documents à l'aide de l'apprentissage automatique, ce qui améliore le parcours de transformation numérique pour nos clients. En utilisant des services AWS AI supplémentaires, tels qu'Amazon Comprehend et Amazon Rekognition, nous pouvons relever des défis, allant de l'ajout de processus d'authentification client sécurisés aux capacités de détection des fraudes. L'intelligence et la flexibilité de l'extraction des données de formulaire d'Amazon Texttract peuvent élever l'OCR à de nouveaux niveaux dans des secteurs tels que les services financiers, la vente au détail, la fabrication et le transport, pour n'en nommer que quelques-uns », a déclaré Dave Moss, directeur technique et co-fondateur de Blue Prism.

À propos d'Amazon Web Services

Depuis 13 ans, Amazon Web Services est la plateforme cloud la plus complète et la plus largement adoptée au monde. AWS offre plus de 165 services complets pour le calcul, le stockage, les bases de données, la mise en réseau, l'analyse, la robotique, l'apprentissage automatique et l'intelligence artificielle (IA), l'Internet des objets (IoT), le mobile, la sécurité, la réalité hybride, virtuelle et augmentée (VR et AR), le développement, le déploiement et le déploiement d'applications et à partir de 66 zones de disponibilité (ZA) dans 21 régions géographiques, couvrant les États-Unis, l'Australie, le Brésil, le Canada, la Chine, la France, l'Allemagne, la Région administrative spéciale de Hong Kong, l'Inde, l'Irlande, le Japon, la Corée, Singapour, la Suède et le Royaume-Uni. Des millions de clients, dont les startups à croissance rapide, les plus grandes entreprises et les principales agences gouvernementales, font confiance à AWS pour alimenter leur infrastructure, devenir plus agile et réduire les coûts. Pour en savoir plus sur AWS, visitez aws.amazon.com.

À propos d'Amazon

Amazon est guidé par quatre principes : l'obsession du client plutôt que l'attention des concurrents, la passion pour l'invention, l'engagement envers l'excellence opérationnelle et la pensée à long terme. Commentaires clients, achats 1-Click, recommandations personnalisées, Prime, Fulfillment by Amazon, AWS, Kindle Direct Publishing, Kindle, Fire tablettes, Fire TV, Amazon Echo et Alexa sont quelques-uns des produits et services initiés par Amazon. Pour plus d'informations, visitez amazon.com/about et suivez @AmazonNews.

Lire la version complète d'AWS annonce la disponibilité générale d'Amazon Texttract

Lecture supplémentaire

Amazon Texttract : extraire facilement du texte et des données de pratiquement n'importe quel document

Traduction automatique : L'important de l'évaluation au niveau du document