Een nieuwe tool voor Data en Legal Discovery? AWS kondigt algemene beschikbaarheid van Amazon Ttextract aan

Released for general availability by AWS, Amazon Textract is a fully managed service that uses machine learning to automatically extract text and data, including from tables and forms, in virtually any document without the need for manual review, custom code, or machine learning experience.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Pers Aankondiging

AWS kondigt algemene beschikbaarheid van Amazon Ttextract aan

Amazon Ttextract gebruikt machine learning om automatisch tekst en gegevens te extraheren, inclusief uit tabellen en formulieren, in vrijwel elk document, zonder dat er een machine learning nodig is.

De Globe and Mail, MET Office, PwC, Healthfirst, UIPath, Teradact, Ripcord, Kablamo, Vidado, BluePrism en Alfresco tussen klanten en partners die Amazon Ttract gebruiken

Vandaag [29 mei 2019] kondigde Amazon Web Services, Inc. (AWS), een bedrijf op Amazon.nl (NASDAQ: AMZN), de algemene beschikbaarheid aan van Amazon Ttextract, een volledig beheerde service die gebruik maakt van machine learning om automatisch tekst en gegevens te extraheren, inclusief uit tabellen en formulieren, in vrijwel elk document zonder de behoefte aan handmatige controle, aangepaste code of machine learning ervaring. Amazon Ttextract gaat verder dan OCR (OCR) om de inhoud van velden in formulieren te identificeren, informatie die is opgeslagen in tabellen en de context waarin de informatie wordt gepresenteerd, zoals een naam of socialezekerheidsnummer van een belastingformulier of de productSKU of hoeveelheid in een magazijn vanuit een inventarisrapport. De geëxtraheerde tekst en gegevens kunnen eenvoudig worden gebruikt om slimme zoekopdrachten op grote archieven van documenten te bouwen, of kunnen worden geladen in een database voor gebruik door toepassingen, zoals boekhoud-, audit- en compliance-software. De API van Amazon Ttextract ondersteunt meerdere afbeeldingsindelingen zoals scans, PDF's en foto's, en klanten kunnen deze gebruiken met database- en analyseservices zoals Amazon Elasticsearch Service, Amazon DynamoDB en AmazonAthena en andere machine learning services zoals Amazon Comprehend, Amazon Comprehend Medical, Amazon Vertalen, en Amazon SageMaker om diepere betekenis af te leiden van de geëxtraheerde tekst en gegevens. Ga naar om aan de slag te gaan met Amazon Ttextract

Veel bedrijven halen tekst en gegevens uit bestanden zoals contracten, onkostenrapporten, hypotheekgaranties, fondsprospectussen, belastingdocumenten, ziekenhuisclaims en patiëntformulieren via handmatige gegevensinvoer of eenvoudige OCR-software. Dit is een tijdrovend en vaak onnauwkeurig proces dat een uitvoer produceert die uitgebreide nabewerking vereist voordat het kan worden geplaatst in een formaat dat bruikbaar is voor andere toepassingen. Dat komt omdat bestaande OCR-technologieën niet in staat zijn om algemene lay-outs zoals formulieren en tabellen te herkennen, en alleen een lange en vaak onnauwkeurige tekstdump te genereren. Wat organisaties in plaats daarvan willen, is de mogelijkheid om tekst en gegevens nauwkeurig te identificeren en uit formulieren en tabellen te extraheren in documenten van elk formaat en uit verschillende bestandstypen en sjablonen. Amazon Ttextract analyseert vrijwel elk type document en genereert automatisch zeer nauwkeurige tekst-, formulier- en tabelgegevens. Amazon Ttextract identificeert tekst en gegevens uit tabellen en formulieren in documenten — zoals regelitems en totalen van een gefotografeerd ontvangstbewijs, belastinginformatie uit een W2 of waarden uit een tabel in een gescand inventarisrapport — en herkent een reeks documentindelingen, waaronder die welke specifiek zijn voor financiële diensten, verzekering, en gezondheidszorg, zonder dat enige aanpassing of menselijke tussenkomst nodig is. Amazon Ttextract maakt het voor klanten gemakkelijk om miljoenen documentpagina's nauwkeurig te verwerken in slechts een paar uur, waardoor de kosten voor de verwerking van documenten aanzienlijk worden verlaagd en klanten zich kunnen concentreren op het afleiden van zakelijke waarde uit hun tekst en gegevens in plaats van tijd en moeite te verspillen aan naverwerking. De resultaten worden geleverd via een API die gemakkelijk toegankelijk en gebruikt kan worden zonder dat er een machine learning ervaring nodig is.

“De kracht van Amazon Ttextract is dat het nauwkeurig tekst en gestructureerde gegevens extraheert uit vrijwel elk document zonder machine learning ervaring. Vervolgens kunnen ontwikkelaars de geëxtraheerde tekst en gegevens analyseren en opvragen met behulp van onze database- en analysediensten zoals Amazon Elasticsearch Service, Amazon DynamoDB en Amazon Athena en integreren met andere machine learning services zoals Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate, en Amazon SageMaker om klanten te helpen diepere betekenis te ontlenen aan de geëxtraheerde tekst en gegevens,” aldus Swami Sivasubramanian, Vice President van Amazon Machine Learning. “Naast de integratie met andere AWS-services, maakt de rijke partnergemeenschap die zich ontwikkelt rond Amazon Ttextract, het voor klanten mogelijk om echte betekenis te krijgen uit hun bestandscollecties, efficiënter te werken, de naleving van de beveiliging te verbeteren, gegevensinvoer te automatiseren en sneller bedrijf te vergemakkelijken beslissingen.”

Amazon Ttextract neemt gescande bestanden die zijn opgeslagen in een Amazon S3-emmer, leest ze en retourneert gegevens in de vorm van JSON-tekst met het paginanummer, sectie, formulierlabels en gegevenstypen. Deze gegevens kunnen vervolgens worden gebruikt voor een reeks toepassingen (bijvoorbeeld het genereren van slimme zoekindexen, het bewerken van tekst in een massale verzameling formulieren, het creëren van geautomatiseerde leengoedkeuringsworkflows, het gebruik van de gegevens voor naleving van de regelgeving, en het markeren van frauderisico voor verzekeringsclaims). Klanten kunnen de gegevens in bedrijfssoftware laden, zoals spreadsheets, databases en loonsystemen, of ze kunnen de gegevens analyseren en opvragen met behulp van Amazon ElasticSearch, Amazon DynamoDB, Amazon Redshift of Amazon Athena.

Amazon Ttextract is vandaag beschikbaar in de VS East (Ohio), US East (N. Virginia), US West (Oregon), EU (Ierland), en zal het komende jaar uitbreiden naar extra regio's.

The Globe and Mail is een nationaal icoon en Canada's meest erkende mediabrand. “Als nieuwsmediabedrijf vertrouwen we op veel PDF- of gescande brondocumenten, zoals FOI's (verzoeken om vrijheid van informatie), die belangrijke informatie bevatten in tabellen waar we voorheen geen toegang toe hadden,” aldus Michael O 'Neill, Managing Director of Digital and Data Science bij The Globe and Mail. “Deze documenten zijn onderbenut omdat journalisten er niet gemakkelijk bij konden komen of niet wisten dat ze bestonden. Met behulp van Amazon Ttextract kunnen we informatie uit tabellen in PDF's extraheren en die gegevens eenvoudig naar CSV uitvoeren en bieden we gemakkelijke toegang tot deze documenten door ze beschikbaar te stellen voor zoekopdrachten door onze journalisten. Dit vergroot de efficiënte toegang tot informatie voor onze journalist met vertienvoudiging.”

Met Office is de nationale weerdienst van het Verenigd Koninkrijk en is een wereldleider in het leveren van weer- en klimaatdiensten. “We hopen AmazonTextract te gebruiken om miljoenen historische weerwaarnemingen uit documentarchieven te digitaliseren”, aldus Philip Brohan, Climate Scientist bij Met Office. “Het beschikbaar maken van deze waarnemingen voor de wetenschap zal ons begrip van klimaatvariabiliteit en verandering verbeteren.”

PwC helpt organisaties en individuen waarde te creëren door kwaliteit te leveren op het gebied van verzekeringen, belastingen en adviesdiensten. “Bij PwC werken we eraan om onze klanten intelligente automatiseringstools te bieden die eerder handmatige processen helpen transformeren. We hebben Amazon Ttextract geïntegreerd in onze oplossing voor de farmaceutische industrie om documentverwerking te automatiseren voor verschillende FDA-formulieren zoals MedWatch en CIOMS,” aldus Siddhartha Bhattacharya van PwC. “Eerder zouden mensen deze formulieren handmatig controleren, bewerken en verwerken, elk van hen uren in beslag nemen. Amazon Ttextract is de meest efficiënte en nauwkeurige OCR-oplossing die beschikbaar is voor deze formulieren, waarbij alle relevante informatie voor controle en verwerking wordt geëxtraheerd en de tijd die u doorbrengt van uren tot minuten.”

Healthfirst is een non-profit managed care organisatie en een van de snelst groeiende gezondheidsplannen in New York met meer dan 1.4M diverse leden en een netwerk van meer dan 35.000 providers en 4.500 medewerkers. “Bij Healthfirst bouwen we datapijpleidingen om gescande medische grafieken om te zetten in nuttige klinische informatie om de coördinatie van de zorg te verbeteren, kwaliteitsresultaten te stimuleren en passende vergoeding te garanderen voor leden onder onze dekking,” aldus Steve Prewitt, Chief Analytics Officer bij Healthfirst. “We gebruiken Amazon Ttextract en Amazon Comprehend Medical om op een efficiënte manier reële waarde uit ongestructureerde gegevensbronnen te verzamelen, wat resulteert in een omzetbesparing 10-20 keer meer dan onze gebruikelijke downstream-operatie. Door op te schalen om meer dan 50.000 grafieken te analyseren, kunnen we ongedocumenteerde diagnoses vinden en ongeveer 5.000 leden doorverwijzen voor het zorgmanagement dat ze nodig hebben.”

Informeerde, Inc. automatiseert hoe financiële instellingen leningen initiëren en bankrekeningen openen. “We hebben Amazon Ttextract al gebruikt om tienduizenden leningdocumenten te analyseren namens financiële instellingen, en ons eigen software-as-a-service-aanbod is verbeterd door de service, waardoor we 95% van de defecten in leningtoepassingspakketten kunnen identificeren en banken kunnen helpen hun handmatige gegevens te verminderen ,” aldus Justin Wickett, oprichter en CEO, Informed Inc. “Met behulp van Amazon Ttextract geeft onze software financiële instellingen realtime inzicht in de inkomsten van een aanvrager op basis van hun loonstubs, bankafschriften, belastingaangiften en andere financiële documenten. We zijn van plan om de soorten documenten die we analyseren met Amazon Ttextract uit te breiden om financiële instellingen in staat te stellen gebruik te maken van onze machine learning modellen en realtime beslissingen te nemen in het trage en handmatige proces van vandaag.”

De missie van Candor is het transformeren van het archaïsche, tijdrovende proces dat de hypotheekindustrie belast. “We gebruiken OCR om gegevens te extraheren uit een breed scala aan kredietverstrekkers vereiste documenten om inkomsten, activa, eigendomswaarde en meer te verifiëren. Tot nu toe las de beste OCR-oplossing één pagina met een snelheid van 38,4 seconden, maar Amazon Tractract bereikt dit in een fractie van die tijd,” aldus Tom Showalter, oprichter en CEO van Candor. “We hebben Texactract kunnen gebruiken om complexe, diverse documenten zoals bankafschriften, betaalstubs en belastingdocumenten nauwkeurig te lezen zonder extra training of machine learning expertise, zodat onze klanten in dagen een lening kunnen afsluiten en afsluiten, in tegenstelling tot weken.”

UIPath is een toonaangevende leverancier van Robotic Process Automation die een compleet softwareplatform biedt om organisaties te helpen bedrijfsprocessen efficiënt te automatiseren. “Amazon Ttextract zal het platform voor robotprocesautomatisering van UIPath verder differentiëren door de mogelijkheden voor het begrijpen van documenten van UIPath te verbeteren, zodat onze klanten kritieke bedrijfsgegevens uit documenten kunnen ontgrendelen, die gegevens kunnen omzetten in bruikbare zakelijke inzichten en deze inzichten kunnen leveren in een reeks van -zakelijke en operationele systemen,” zei Param Kahlon, Chief Product Officer van UIPath.

Met TeraDact kunnen klanten opgeslagen afbeeldingen en papieren documenten omzetten in privacycompatibele, bruikbare digitale indelingen op schaal. “Het slimme docs-platform van Amazon Ttextract voedt de gepatenteerde redactieservices van TeraDact om gevoelige gegevens automatisch te verwijderen en te beveiligen. TeraDact klanten kunnen deze gegevens permanent verwijderen, zodat ze nooit kunnen worden hersteld of ervoor kiezen om gevoelige gegevens te vervangen door gepatenteerde tokens die kunnen worden hersteld door personen met de juiste machtigingen. Dit is vooral handig bij het naleven van overheidsopdrachten met betrekking tot individuele gegevensprivacy, zoals GDPR,” aldus Tom Trobridge, COO, TeraDact.

De missie van Ripcord is om kennis te digitaliseren en uit papieren documenten te halen met behulp van visie-geleide robotica, machine learning en geavanceerde AI. Deze kennis automatiseert bedrijfsprocessen en workflows. “We hebben enorm veel succes gehad door Amazon Ttextract te gebruiken om onze geavanceerde entiteit extractie te vergroten om veel industrieën ten goede te komen en $4 miljard aan nieuwe lonen te ontdekken. We kijken ernaar uit om ons gebruik van Amazon Ttract uit te breiden naar financiële en overheidsdiensten, gezondheidszorg en juridische diensten,” aldus Alex Fielding, CEO van Ripcord.

Blue Prism ontwikkelt Robotic Process Automation software om bedrijven en organisaties te voorzien van een meer wendbare virtuele arbeidskrachten. “De Connected-RPA van Blue Prism kan bedrijfskritieke processen automatiseren en uitvoeren, waardoor klanten de vrijheid hebben zich te concentreren op creatiever, zinvoller werk. Door Amazon Ttextract te gebruiken, hebben we ons digitale personeel een ander krachtig hulpmiddel voor automatisering gegeven. Amazon Ttextract analyseert nauwkeurig gegevens van verschillende documenttypen met behulp van machine learning, wat de digitale transformatie voor onze klanten verbetert. Met behulp van extra AWS AI-services zoals Amazon Comprehend en Amazon Rekognition kunnen we uitdagingen aanpakken, van toegevoegde veilige klantverificatieprocessen tot fraudedetectiemogelijkheden. De intelligentie en flexibiliteit van de gegevensextractie van Amazon Ttextract kan OCR naar nieuwe niveaus brengen in sectoren zoals financiële diensten, retail, productie en transport, om er maar een paar te noemen,” aldus Dave Moss, CTO en medeoprichter van Blue Prism.

Over Amazon Web Services

Amazon Web Services is al 13 jaar's werelds meest uitgebreide en breed aangenomen cloudplatform. AWS biedt meer dan 165 volledig uitgeruste services voor compute, opslag, databases, netwerken, analytics, robotica, machine learning en kunstmatige intelligentie (AI), Internet of Things (IoT), mobiel, beveiliging, hybride, virtuele en augmented reality (VR en AR), media- en applicatieontwikkeling, implementatie, en beheer vanuit 66 beschikbaarheidszones (AZ's) binnen 21 geografische regio's, verspreid over de VS, Australië, Brazilië, Canada, China, Frankrijk, Duitsland, Hongkong Special Administrative Region, India, Ierland, Japan, Korea, Singapore, Zweden en het Verenigd Koninkrijk. Miljoenen klanten, waaronder de snelst groeiende startups, grootste ondernemingen en toonaangevende overheidsinstanties, vertrouwen erop dat AWS hun infrastructuur van stroom zal voorzien, wendbaarder wordt en de kosten verlaagt. Ga naar aws.amazon.com voor meer informatie over AWS.

Over Amazon

Amazon laat zich leiden door vier principes: klantobsessie in plaats van concurrent focus, passie voor uitvinding, inzet voor operationele uitmuntendheid en langetermijndenken. Klantrecensies, 1-Click winkelen, gepersonaliseerde aanbevelingen, Prime, Fulfillment door Amazon, AWS, Kindle Direct Publishing, Kindle, Fire-tablets, Fire TV, Amazon Echo en Alexa zijn enkele van de producten en services die door Amazon zijn ontwikkeld. Ga voor meer informatie naar amazon.com/about en volg @AmazonNews.

Lees de volledige release op AWS kondigt algemene beschikbaarheid van Amazon Ttextract aan

Extra lezen

Amazon-textract: Gemakkelijk tekst en gegevens uit vrijwel elk document extraheren

Machinevertaling: Het belang van evaluatie op documentniveau