Ein neues Tool für Daten- und Rechtsermittlungen? AWS kündigt allgemeine Verfügbarkeit von Amazon Textract an

Released for general availability by AWS, Amazon Textract is a fully managed service that uses machine learning to automatically extract text and data, including from tables and forms, in virtually any document without the need for manual review, custom code, or machine learning experience.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Pressemitteilung

AWS kündigt allgemeine Verfügbarkeit von Amazon Textract an

Amazon Textract verwendet maschinelles Lernen, um Text und Daten, auch aus Tabellen und Formularen, automatisch in praktisch jedes Dokument zu extrahieren — ohne maschinelles Lernen erforderlich.

The Globe and Mail, MET Office, PwC, Healthfirst, UiPath, Teradact, Ripcord, Kablamo, Vidado, BlueRism und Alfresco unter Kunden und Partnern, die Amazon Textract verwenden

Heute [29. Mai 2019] kündigte Amazon Web Services, Inc. (AWS), ein Unternehmen von Amazon.com (NASDAQ: AMZN), die allgemeine Verfügbarkeit von Amazon Textract an, einem vollständig verwalteten Service, der maschinelles Lernen verwendet, um automatisch Text und Daten, einschließlich aus Tabellen und Formularen, in praktisch jedem Dokument ohne die müssen für manuelle Überprüfung, benutzerdefinierten Code oder maschinelles Lernen Erfahrung. Amazon Textract geht über die einfache optische Zeichenerkennung (OCR) hinaus, um den Inhalt von Feldern in Formularen, Informationen in Tabellen und den Kontext zu identifizieren, in dem die Informationen dargestellt werden, z. B. einen Namen oder eine Sozialversicherungsnummer aus einem Steuerformular oder die Produkt-SKU oder -menge in einem Lager von einem Bestandsbericht. Der extrahierte Text und die Daten können einfach verwendet werden, um intelligente Suchvorgänge in großen Archiven von Dokumenten zu erstellen, oder kann in eine Datenbank geladen werden, um Anwendungen wie Buchhaltung, Auditing und Compliance-Software zu verwenden. Die API von Amazon Textract unterstützt mehrere Bildformate wie Scans, PDFs und Fotos. Kunden können sie mit Datenbank- und Analysediensten wie Amazon Elasticsearch Service, Amazon DynamoDB und AmazonAthena und anderen maschinellen Lerndiensten wie Amazon Comprehend, Amazon Comprehend Medical, Amazon Übersetzen, und Amazon SageMaker, um eine tiefere Bedeutung aus dem extrahierten Text und Daten abzuleiten. Um mit Amazon Textract zu beginnen, besuchen Sie

Viele Unternehmen extrahieren Text und Daten aus Dateien wie Verträgen, Spesenabrechnungen, Hypothekengarantien, Fondsprospekten, Steuerdokumenten, Krankenhausansprüchen und Patientenformularen durch manuelle Dateneingabe oder einfache OCR-Software. Dies ist ein zeitaufwändiger und oft ungenauer Prozess, der eine Ausgabe erzeugt, die umfangreiche Nachbearbeitung erfordert, bevor sie in ein Format gesetzt werden kann, das von anderen Anwendungen verwendet werden kann. Das liegt daran, dass bestehende OCR-Technologien keine gängigen Layouts wie Formulare und Tabellen erkennen und nur einen langwierigen und oft ungenauen Textauszug generieren. Unternehmen möchten stattdessen die Möglichkeit, Text und Daten aus Formularen und Tabellen in Dokumenten jedes Formats und aus einer Vielzahl von Dateitypen und Vorlagen genau zu identifizieren und zu extrahieren. Amazon Textract analysiert praktisch jede Art von Dokument und generiert automatisch hochgenaue Text-, Formular- und Tabellendaten. Amazon Textract identifiziert Text und Daten aus Tabellen und Formularen in Dokumenten, z. B. Einzelposten und Summen aus einem fotografierten Beleg, Steuerinformationen aus einem W2 oder Werte aus einer Tabelle in einem gescannten Lagerbestandsbericht, und erkennt eine Reihe von Dokumentformaten, einschließlich spezifischer Finanzdienstleistungen, Versicherungen und Gesundheitswesen, ohne eine Anpassung oder menschliches Eingreifen erforderlich. Amazon Textract ermöglicht es Kunden, Millionen von Dokumentseiten in nur wenigen Stunden genau zu verarbeiten, wodurch die Kosten für die Dokumentverarbeitung erheblich gesenkt werden. Kunden können sich darauf konzentrieren, den geschäftlichen Nutzen aus ihrem Text und ihren Daten zu ziehen, anstatt Zeit und Aufwand für die Nachbearbeitung zu verschwenden. Die Ergebnisse werden über eine API bereitgestellt, die leicht zugänglich und verwendet werden kann, ohne dass eine maschinelle Lernerfahrung erforderlich ist.

„Die Leistungsfähigkeit von Amazon Textract besteht darin, dass Text und strukturierte Daten aus praktisch jedem Dokument exakt extrahiert werden, ohne dass maschinelles Lernen erforderlich ist. Anschließend können Entwickler den extrahierten Text und Daten mithilfe unserer Datenbank- und Analysedienste wie Amazon Elasticsearch Service, Amazon DynamoDB und Amazon Athena analysieren und abfragen und mit anderen maschinellen Lerndiensten wie Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate und Amazon SageMaker unterstützt Kunden dabei, aus extrahierten Texten und Daten eine tiefere Bedeutung zu gewinnen „, sagte Swami Sivasubramanian, Vice President von Amazon Machine Learning. „Neben der Integration mit anderen AWS-Services ermöglicht die umfassende Partner-Community, die sich rund um Amazon Textract entwickelt, Kunden die Möglichkeit, echte Bedeutung aus ihren Datensammlungen zu gewinnen, effizienter zu arbeiten, die Einhaltung der Sicherheit zu verbessern, die Dateneingabe zu automatisieren und schnellere Geschäfte zu ermöglichen. Entscheidungen.“

Amazon Textract nimmt gescannte Dateien, die in einem Amazon S3-Bucket gespeichert sind, liest sie und gibt Daten in Form von JSON-Text zurück, der mit Seitenzahl, Abschnitt, Formularbeschriftungen und Datentypen versehen ist. Diese Daten können dann für eine Reihe von Anwendungen verwendet werden (z. B. Erstellung intelligenter Suchindizes, Redaktion von Text in einer massiven Sammlung von Formularen, Erstellung automatisierter Darlehensgenehmigungsworkflows, Verwendung der Daten zur Einhaltung gesetzlicher Vorschriften und Kennzeichnung von Betrugsrisiken für Versicherungsfälle). Kunden können die Daten in Unternehmenssoftware wie Tabellenkalkulationen, Datenbanken und Lohn- und Gehaltsabrechnungssysteme laden, oder sie können die Daten mithilfe von Amazon ElasticSearch, Amazon DynamoDB, Amazon Redshift oder Amazon Athena analysieren und abfragen.

Amazon Textract ist heute in den USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), EU (Irland) verfügbar und wird im kommenden Jahr auf weitere Regionen expandieren.

The Globe and Mail ist eine nationale Ikone und Kanadas bekannteste Medienmarke. „Als Nachrichtenmedienunternehmen verlassen wir uns auf viele PDF- oder gescannte Dokumente wie FOIs (Informationsfreiheit), die wichtige Informationen in Tabellen enthalten haben, auf die wir bisher nicht zugreifen konnten“, sagte Michael O“ Neill, Managing Director of Digital and Data Science bei The Globe and Mail. „Diese Dokumente wurden zu wenig genutzt, weil Journalisten nicht leicht auf sie zugreifen konnten oder nicht wussten, dass sie existierten. Mit Amazon Textract können wir Informationen aus Tabellen in PDFs extrahieren und diese Daten einfach an CSV ausgeben und ihnen einen einfachen Zugriff auf diese Dokumente bieten, indem wir sie für Suchanfragen unserer Journalisten zur Verfügung stellen. Dies erhöht den effizienten Zugang zu Informationen für unseren Journalisten um das Zehnfache.“

Met Office ist der nationale Wetterdienst Großbritanniens und ist weltweit führend bei der Bereitstellung von Wetter- und Klimadiensten. „Wir hoffen, mit AmazonTextract Millionen historischer Wetterbeobachtungen aus Dokumentenarchiven zu digitalisieren“, sagte Philip Brohan, Climate Scientist bei Met Office. „Wenn wir diese Beobachtungen der Wissenschaft zur Verfügung stellen, wird unser Verständnis von Klimavariabilität und Klimawandel verbessern.“

PwC hilft Unternehmen und Einzelpersonen, Wert zu schaffen, indem sie Qualität in den Bereichen Sicherheit, Steuern und Beratung liefert. „Bei PwC arbeiten wir daran, unseren Kunden intelligente Automatisierungswerkzeuge zur Verfügung zu stellen, die dazu beitragen, früher manuelle Prozesse zu transformieren. Wir haben Amazon Textract in unsere Lösung für die pharmazeutische Industrie integriert, um die Dokumentenverarbeitung für verschiedene FDA-Formulare wie MedWatch und CIOMS zu automatisieren „, sagte Siddhartha Bhattacharya von PwC. „Bisher wurden diese Formulare manuell überprüft, bearbeitet und verarbeitet, wobei jedes einzelne Stunden in Anspruch nahm. Amazon Textract hat sich als die effizienteste und genaueste OCR-Lösung für diese Formulare erwiesen, die alle relevanten Informationen zur Überprüfung und Verarbeitung extrahiert und die Zeit von Stunden auf Minuten reduziert.“

Healthfirst ist eine Non-Profit-Managed Care-Organisation und einer der am schnellsten wachsenden Gesundheitspläne in New York mit über 1,4 Millionen verschiedenen Mitgliedern und einem Netzwerk von mehr als 35.000 Anbietern und 4.500 Mitarbeitern. „Bei Healthfirst bauen wir Datenpipelines auf, um gescannte medizinische Diagramme in nützliche klinische Informationen umzuwandeln, um die Pflegekoordination zu verbessern, die Qualitätsergebnisse zu steigern und eine angemessene Erstattung für Mitglieder unter unserer Deckung sicherzustellen“, sagte Steve Prewitt, Chief Analytics Officer bei Healthfirst. „Wir verwenden Amazon Textract und Amazon Comprehend Medical, um den realen Nutzen aus unstrukturierten Datenquellen auf effiziente Weise zu ermitteln. Dies führt zu Umsatzeinsparungen, die 10-20 Mal höher sind als bei unserem üblichen Downstream-Betrieb. Durch die Skalierung auf über 50.000 Diagramme können wir undokumentierte Diagnosen finden und rund 5.000 Mitglieder für das Pflegemanagement verweisen, das sie benötigen.“

Informed, Inc. automatisiert, wie Finanzinstitute Kredite erstellen und Bankkonten eröffnen. „Wir haben Amazon Textract bereits verwendet, um Zehntausende von Kreditdokumenten im Auftrag von Finanzinstituten zu analysieren. Unser eigenes Software-as-a-Service-Angebot wurde um den Service erweitert, sodass wir 95% der Fehler in Kreditantragspaketen erkennen und Banken helfen können, ihre manuellen Daten zu reduzieren. „, sagte Justin Wickett, Gründer und CEO von Informed Inc.“ Mit Amazon Textract erhalten Finanzinstitute Echtzeit-Einblicke in die Einnahmen eines Bewerbers, basierend auf ihren Lohnstubs, Kontoauszügen, Steuererklärungen und anderen Finanzdokumenten. Wir planen, die Dokumenttypen zu erweitern, die wir mit Amazon Textract analysieren, um Finanzinstitute in die Lage zu versetzen, unsere maschinellen Learning-Modelle zu nutzen und die Effizienz der Entscheidungsfindung in Echtzeit für den heutigen langsamen und manuellen Prozess zu verbessern.“

Candor's Mission ist es, den archaischen, zeitraubenden Prozess zu transformieren, der die Hypothekenindustrie belastet. „Wir verwenden OCR, um Daten aus einer Vielzahl von Kreditgebern erforderlichen Dokumenten zu extrahieren, um Einkommen, Vermögenswerte, Immobilienwert und vieles mehr zu überprüfen. Bisher las die beste OCR-Lösung eine Seite mit 38,4 Sekunden, aber Amazon Textract erreicht dies in einem Bruchteil der Zeit „, sagte Tom Showalter, Gründer und CEO von Candor. „Wir konnten Textract verwenden, um komplexe, vielfältige Dokumente wie Kontoauszüge, Lohnstubs und Steuerdokumente ohne zusätzliche Schulungen oder maschinelles Lernen genau zu lesen, sodass unsere Kunden einen Kredit innerhalb von Tagen abschließen können, im Gegensatz zu Wochen.

UiPath ist ein führender Anbieter von Robotic Process Automation, der eine umfassende Softwareplattform bietet, um Unternehmen bei der effizienten Automatisierung von Geschäftsprozessen zu unterstützen. „Amazon Textract wird die Roboter-Prozessautomatisierungsplattform von UiPath weiter differenzieren, indem die Dokumentenverständnisfunktionen von UIPath verbessert werden, sodass unsere Kunden kritische Geschäftsdaten aus Dokumenten freischalten, diese Daten in umsetzbare geschäftliche Erkenntnisse umwandeln und diese Erkenntnisse in eine Reihe von -Geschäfts- und Betriebssysteme „, sagte Param Kahlon, Chief Product Officer von UiPath.

Mit TeraDact können Kunden gespeicherte Bilder und Papierdokumente im Maßstab in datenschutzkonforme, nutzbare digitale Formate umwandeln. „Die Smart Docs-Plattform von Amazon Textract führt die patentierten Redaktionsdienste von TeraDact ein, um vertrauliche Daten automatisch zu entfernen und zu sichern. TeraDact Kunden können diese Daten dauerhaft entfernen, so dass sie niemals wiederhergestellt werden können oder sich dafür entscheiden, sensible Daten durch patentierte Token zu ersetzen, die von Personen mit den entsprechenden Berechtigungen wiederhergestellt werden können. Dies ist besonders nützlich bei der Erfüllung von behördlichen Aufträgen im Bereich des individuellen Datenschutzes wie der DSGVO „, sagte Tom Trobridge, COO, TeraDact.

Die Mission von Ripcord besteht darin, Wissen aus Papierdokumenten mithilfe von visiongesteuerter Robotik, maschinellem Lernen und fortgeschrittener KI zu digitalisieren und aus Papierdokumenten zu extrahieren. Dieses Wissen automatisiert Geschäftsprozesse und Workflows. „Wir hatten enorme Erfolge, indem wir Amazon Textract nutzen, um unsere erweiterte Entitätsgewinnung zu steigern, um vielen Branchen zugute zu kommen und neue Löhne in Höhe von 4 Milliarden US-Dollar aufzudecken. Wir freuen uns darauf, unsere Nutzung von Amazon Textract auf Finanz- und Regierungsdienstleistungen, Gesundheitswesen und Recht auszuweiten „, sagte Alex Fielding, CEO von Ripcord.

Blue Prism entwickelt Robotic Process Automation Software, um Unternehmen und Organisationen eine agilere virtuelle Belegschaft zu bieten. „Der Connected-RPA von Blue Prism kann geschäftskritische Prozesse automatisieren und ausführen, sodass sich Kunden auf kreativere und sinnvollere Arbeit konzentrieren können. Durch die Verwendung von Amazon Textract haben wir unseren digitalen Mitarbeitern ein weiteres leistungsstarkes Automatisierungswerkzeug zur Verfügung gestellt. Amazon Textract analysiert Daten aus verschiedenen Dokumenttypen mithilfe von Machine Learning genau, was die digitale Transformation für unsere Kunden verbessert. Mit zusätzlichen AWS-KI-Services wie Amazon Comprehend und Amazon Rekognition können wir Herausforderungen bewältigen, von zusätzlichen sicheren Kundenauthentifizierungsprozessen bis hin zu Betrugserkennungsfunktionen. Die Intelligenz und Flexibilität der Formulardatenextraktion von Amazon Textract kann OCR in Branchen wie Finanzdienstleistungen, Einzelhandel, Fertigung und Transport auf ein neues Niveau bringen „, sagte Dave Moss, CTO und Mitbegründer von Blue Prism.

Über Amazon Web Services

Seit 13 Jahren ist Amazon Web Services die weltweit umfassendste und am weitesten verbreitete Cloud-Plattform. AWS bietet über 165 voll ausgestattete Services für Datenverarbeitung, Speicherung, Datenbanken, Netzwerke, Analysen, Robotik, Machine Learning und künstliche Intelligenz (KI), Internet der Dinge (IoT), Mobile, Sicherheit, Hybrid, Virtual and Augmented Reality (VR und AR), Medienentwicklung und Anwendungsbereitstellung sowie Verwaltung von 66 Availability Zones (AZs) in 21 geografischen Regionen, die die USA, Australien, Brasilien, Kanada, China, Frankreich, Deutschland, die Sonderverwaltungsregion Hongkong, Indien, Irland, Japan, Korea, Singapur, Schweden und Großbritannien umfassen. Millionen von Kunden, einschließlich der am schnellsten wachsenden Startups, größten Unternehmen und führenden Regierungsbehörden, vertrauen AWS darauf, ihre Infrastruktur zu versorgen, agiler zu werden und Kosten zu senken. Weitere Informationen zu AWS finden Sie unter aws.amazon.com.

Über Amazon

Amazon orientiert sich an vier Prinzipien: Kundenorientierung und nicht an der Konkurrenz, Leidenschaft für Erfindung, Engagement für operative Exzellenz und langfristiges Denken. Kundenrezensionen, 1-Click-Einkäufe, personalisierte Empfehlungen, Prime, Versand durch Amazon, AWS, Kindle Direct Publishing, Kindle, Fire Tablets, Fire TV, Amazon Echo und Alexa sind einige der Produkte und Services, die von Amazon wegweisend sind. Weitere Informationen finden Sie unter amazon.com/about und folgen Sie @AmazonNews.

Lesen Sie die vollständige Version von AWS kündigt allgemeine Verfügbarkeit von Amazon Textract an

Zusätzliche Lesung

Amazon Textract: Einfach Text und Daten aus praktisch jedem Dokument extrahieren

Machine Translation: Die Bedeutung der Evaluierung auf Dokumentebene