Au-delà de l'OCR - Utiliser l'IA pour comprendre des dessins techniques complexes

L'industrie de la construction mécanique recherche depuis longtemps des solutions technologiques pour automatiser l'extraction des données des dessins techniques. Jusqu'à présent, la seule option consistait à utiliser l'OCR (reconnaissance optique de caractères). Vous avez peut-être déjà essayé des solutions d'OCR telles que Google Vision ou Amazon Textract, mais vous vous êtes vite rendu compte qu'elles n'étaient pas adaptées à vos besoins :

 

L'OCR générique ne suffit pas pour comprendre les dessins techniques.

La solution OCR seule a de nombreuses limites pour comprendre des choses complexes comme les dessins techniques. Voyons plus en détail comment les algorithmes d'IA de Werk24 ont surpassé l'OCR générique dans différents défis et ont réussi à extraire des données de dessins techniques de manière entièrement automatique.

 

Structurer les éléments de texte

Le plus grand défi pour une machine à lire les dessins techniques est de comprendre la signification des éléments de texte individuels et de savoir quand et comment les regrouper dans un format de données structuré. L'OCR peut seulement lire le texte mais ne peut pas comprendre la signification de son propre résultat.

Sur les dessins techniques, il existe de nombreux formats de données complexes tels que les mesures, les GD&T et les informations dans les cartouches. Les mesures sont souvent présentées sous la forme d'un format nominal avec les écarts supérieur et inférieur empilés l'un sur l'autre. L'OCR ne peut extraire le texte que de gauche à droite et n'est pas capable de distinguer le texte de la taille nominale, de l'écart supérieur ou de l'écart inférieur. En raison de la complexité de l'environnement visuel, l'OCR commet également de nombreuses erreurs en regroupant les éléments correspondants.

Werk24 a développé des modèles avancés d'apprentissage automatique et des algorithmes d'IA pour comprendre tous les formats courants de mesures avec la taille nominale, la tolérance, la taille ajustée, les filets. En comprenant la signification individuelle de chaque élément basé sur son contenu, son contexte et son regroupement visuel, l'API de Werk24 peut regrouper les bons éléments en données structurées et les renvoyer au format JSON qui peut être utilisé par la machine et alimenter directement votre système logiciel.

Un autre exemple est le bloc titre, où les légendes (le petit texte décrivant le contenu) telles que "Désignation", "ID du dessin", "Société" sont souvent absentes. Cela rend les résultats de l'OCR inutiles, car l'ordinateur ne comprend pas si le texte est une désignation, un numéro de dessin ou des détails sur la société. Werk24 utilise l'IA et le ML pour comprendre le texte individuel et associer les légendes manquantes aux bons résultats textuels, de sorte que votre système RFQ ou ERP puisse utiliser directement ces informations.

Comparaison des blocs-titres des dessins techniques entre Google Vision OCR et Werk24 JSON
 

Correction en fonction du contexte

L'OCR ne parvient pas toujours à différencier les chiffres ou les caractères qui se ressemblent, tels que "1", "7" et "I", "0" et "O" ou "6" et "8". L'OCR n'est donc pas une option fiable pour le traitement des dessins techniques dans la pratique.

La technologie de Werk24 comprend la signification et le contexte de chaque élément de texte. En outre, elle effectue un contrôle croisé des étiquettes de mesure et des lignes de mesure. Cela signifie qu'elle sait qu'un format nominal devrait être "11" au lieu de "17" dans une situation où il semble très ambigu et similaire.

 

Comprendre les symboles spéciaux

Les solutions OCR génériques ne peuvent pas lire les symboles spéciaux, y compris tous les symboles GD&T. Et pour certains symboles mathématiques comme "Ø", "±", l'OCR générique donne des résultats peu fiables en fonction des différentes polices.

Grâce à son propre modèle d'apprentissage automatique, Werk24 comprend tous les symboles spéciaux des mesures et des tolérances.

 

Entourage graphique complexe

L'OCR générique ne peut pas détecter de manière fiable les textes dans les dessins qui sont entourés d'éléments graphiques encombrés et entrecroisés tels que des lignes, des symboles, des annotations, etc.

L'API TechRead de Werk24 lit les éléments de texte malgré les bruits qui l'entourent. Ainsi, lorsque les lignes de rotation se croisent et interfèrent avec les mesures, de petits fragments de texte peuvent encore être lus avec une grande précision.

 

Orientation multiple

De nombreuses solutions d'OCR majeures exigent une orientation dominante du document. Par exemple, dans un article, les textes sont toujours orientés dans une seule direction, alors que dans les dessins techniques, les éléments de texte ont souvent des orientations différentes. De ce fait, de nombreux éléments de texte ne sont pas pris en compte par l'OCR, comme Amazon Textract.

Werk24 ne présume pas d'une orientation dominante, ce qui est très avantageux pour l'extraction de données. Au contraire, la technologie peut lire les mesures de chaque élément de texte individuellement, qu'il soit horizontal, vertical ou incliné.


La solution complète de Werk24

Le marché étant à la recherche d'une solution technique sophistiquée et fiable pour extraire les données des dessins techniques, Werk24 a déjà répondu à ce besoin avec son API TechRead. Disponible dès maintenant, nous fournissons les moyens d'obtenir automatiquement les données importantes des dessins techniques, y compris les mesures, les tolérances, les GD&T et les cartouches, afin que les clients ne soient plus freinés par des solutions OCR inadéquates. Disponible dès maintenant, toutes les données de production importantes des dessins techniques sont accessibles au format JSON en quelques secondes.

Précédent
Précédent

Werk24 est cité par "Paul Kühn" comme solution de numérisation

Suivant
Suivant

Lire intelligemment les cartouches des dessins techniques