OCR comptable : comment fonctionne vraiment la reconnaissance automatique de factures

L'OCR seul, ce n'est pas suffisant

L'OCR (Optical Character Recognition) sait transformer une image en texte. C'est la brique de base, mais elle ne suffit pas pour extraire automatiquement les bonnes informations d'une facture.

Quand vous prenez une facture en photo, l'OCR vous renvoie une grande chaîne de caractères : le nom du fournisseur, son adresse, des montants, des numéros, dans l'ordre où ils apparaissent visuellement. Mais ça ne dit pas où est le total HT, où est la TVA, où est le SIRET du fournisseur.

C'est là qu'intervient l'étape suivante.

La couche d'analyse, le vrai enjeu

Pour transformer le texte brut en données comptables exploitables, il faut une couche d'extraction d'entités nommées. Cette couche identifie les éléments du document : ce mot est un SIRET, ce nombre est un montant TTC, cette date est l'échéance, etc.

Plusieurs approches coexistent.

Les règles métier

Première génération, les systèmes par règles cherchent des motifs : SIRET = 14 chiffres consécutifs, TVA = pourcentage à 5,5 ou 10 ou 20 sur le total, etc. Robuste sur les formats simples, fragile dès que la facture sort des sentiers battus.

Les modèles de séquence

Deuxième génération, des modèles entraînés à classifier chaque mot du texte (BIO tagging). Plus flexibles, mais demandent beaucoup de données annotées.

Les modèles de vision

Troisième génération, les modèles type LayoutLM, Donut ou GPT-4 Vision regardent à la fois le texte et la mise en page. Ils comprennent qu'un nombre tout en bas à droite, en gras, est probablement le total. Ils sont aujourd'hui les plus précis sur les factures complexes.

Le pipeline complet de Thaelys Ledger

Quand votre client prend en photo une facture, voici ce qui se passe.

D'abord, l'image est nettoyée : redressement de perspective, correction des couleurs, suppression du bruit. Si la qualité est trop mauvaise, l'app demande une nouvelle photo.

Ensuite, deux moteurs travaillent en parallèle. Un moteur OCR classique extrait tout le texte avec ses positions. Un moteur de vision multimodal regarde le document dans son ensemble et identifie les zones (en-tête, lignes de détail, totaux, mentions légales).

La synthèse des deux moteurs produit un objet structuré : fournisseur (avec son SIRET vérifié auprès de l'API gouv), date, numéro de facture, lignes, montants HT, TVA et TTC.

Une dernière couche de cohérence vérifie que les sommes des lignes correspondent au total, que la TVA correspond bien aux taux annoncés, etc. Si quelque chose cloche, l'utilisateur est alerté.

Combien de temps tout ça

Sur une infrastructure correctement dimensionnée, le traitement complet prend en moyenne 3 secondes par pièce. Le client voit la pièce arriver puis se renseigner toute seule devant ses yeux.

Le pouvoir de la spécialisation française

C'est précisément la force de Thaelys Ledger : notre OCR et nos modèles ont été entraînés spécifiquement sur les factures françaises de PME et d'artisans. Layout typique, mentions légales françaises, taux de TVA français, IBAN, SIREN, tout est optimisé pour votre quotidien réel.

Sur le terrain d'un cabinet français qui traite des factures de PME locales, le taux de succès dépasse 95%. Les pièces atypiques sont remontées au cabinet pour validation rapide, ce qui garantit zéro erreur silencieuse.

Les outils généralistes étrangers, eux, perdent souvent en précision sur ces formats spécifiques. C'est un avantage concret de choisir un éditeur français.

Et la sécurité

Les images des factures contiennent des données personnelles et bancaires. Toutes les images traitées par Thaelys Ledger sont stockées sur des serveurs européens, chiffrées au repos, et ne quittent jamais l'UE. Aucune donnée n'est envoyée à des modèles tiers américains pour entraînement.