Textract d'Amazon peut lire et traiter des millions de pages par heure

Nicolas Gary - 30.05.2019

Lecture numérique - Acteurs numériques - Textract Amazon - reconnaissance caractère - pages lecture ordinateur


Dernière innovation sortie des laboratoires de Amazon Web Services, la division consacrée aux outils numériques (hébergement et cloud computing), voici Textract. Derrière ce mot-valise à l’américaine, une solution manifestement très puissante : plus que de la simple reconnaissance de caractèree, la garantie d'une solide extraction de texte et de données, de tous types de documents.

Midvale Company mechanic Larson, medium grinding on Noton Machine Roll for Thomas Steel, July 1932
Kheel Center, CC BY 2.0 (photo d'illustration)
 

Amazon l’a annoncé avec fierté : Textract est en mesure de « traiter des millions de pages de documents par heures ». Mais quel est ce traitement, dans les faits ? On parle bien de text and data mining, à des niveaux stratosphériques, dépassant de loin les capacités des traditionnels outils d’OCR — la reconnaissance optique de caractères. 
 

Textract, la tout-puissance de la machine


Ou alors, un OCR sous stéroïdes, à en croire la présentation faite. De fait, Textract serait en mesure d’extraire non seulement du texte, mais également des tableaux, des formulaires — issus de documents scannés, de feuilles d’imposition ou tout autre. Il va ensuite générer des données structurées, sans qu’aucune intervention humaine ne soit nécessaire. 

La grande limite des logiciels d’OCR réside dans l’identification de caractères parfois confus. Si les améliorations sont constantes — Google y avait largement fait travailler, gratuitement, les internautes avec Captcha — les écueils persistent. Ainsi, le chiffre « 1 » peut encore être confondu avec la lettre « l », etc.  

Textract réduirait les coûts de traitement de documents, en épargnant le passage par une saisie manuelle — et ce, sans que l’utilisateur ait besoin de connaissances préalables sur le machine learning.

Dans les faits, l’outil repose cependant bien sur une machine learning, avec la capacité de reconnaître des informations précises comme le nom, prénom ou numéro de sécurité sociale. De quoi convertir un PDF en feuilles de calcul, plus lisibles et faciles à comprendre. 



 
« Une fois que l’information est capturée, vous pouvez prendre des mesures à ce sujet dans vos applications métiers pour initier les étapes suivantes pour une demande de prêt ou le traitement des demandes de remboursement pour frais médicaux », indique Amazon.

« De plus, vous pouvez créer des index de recherche intelligents, construire des flux de travail d’approbation automatisés et mieux maintenir la conformité avec les règles d’archivage de documents en signalant les données pouvant nécessiter une rédaction. »



Swami Sivasubramanian, vice-président d’Amazon Machine Learning, souligne dans un communiqué : « La force d’Amazon Textract réside dans le fait qu’il extrait avec précision le texte et les données structurées de pratiquement n’importe quel document sans aucune expérience en machine learning. Par la suite, les développeurs peuvent analyser et interroger le texte et les données extraits à l’aide de nos services de base de données et d’analyse. »

Parce que bien entendu, Amazon AWS offre déjà une mine d’outils qui faciliteront la vie…

Pour l’heure, Textract n’est disponible que pour quelques clients d’États américains : l’Ohio, la Virginie du Nord et l’Oregon, ainsi qu’en Irlande. Et nécessite évidemment de disposer d’un compte AWS. La démocratisation viendra pour le reste des USA dans le courant de l’année, avec quelques autres territoires — sans plus de précisions.  

Un point encore non élucidé : où iront donc les données ainsi numérisées ? Certainement quelque part dans le Nuage, que commercialise déjà la firme. C’est déjà le cas pour Alexa, l’assistant vocal qui anime l’enceinte Echo, et sert d’espion à peine déguisé
 


Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.