04Le moteur · Base de données OCR

L’OCR pour étiquettes de laine — la base de données, pas seulement le scanner.

Un moteur OCR sans base de données d’étiquettes devine les noms de marque. YarnScope dispose d’une base de données soignée de mises en page d’étiquettes de Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo et des dizaines d’autres — pour que l’OCR sache où regarder.

Pourquoi l’OCR seul ne suffit pas

Un modèle OCR générique peut finir par lire chaque mot d’une étiquette. Le problème, c’est que les étiquettes de pelote ne sont pas des communiqués de presse. Ce sont une mise en page dense et propre à chaque marque : le code couleur vit dans un coin, les pourcentages de fibre dans un autre, le bain dans un troisième. Où exactement, cela dépend de la marque.

Sans base de données, l’OCR renvoie un mur de texte non structuré et l’analyseur doit deviner. Avec une base de données, l’analyseur sait que sur une étiquette Drops Karisma le métrage est à droite du grammage, dans une police plus petite, et que « 100 % » précède de façon fiable la ligne de fibre. La précision de l’analyse, c’est la différence entre « oui, enregistrer » et « corrige le bain, le métrage et la ligne de marque ».

Marques dans la base de données (sélection)

Multilingues : Drops Design / Garnstudio (le plus grand corpus unique)
Grand public nord-américain : Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
Indé / luxe : Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
Nordiques : Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
Royaume-Uni : Rowan, West Yorkshire Spinners, Jamieson & Smith
Europe continentale : Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
D2C / en ligne : We Are Knitters, Wool and the Gang, Scheepjes, Durable
Fil à broder (point de croix) : DMC, Anchor, Madeira (reconnaissance du numéro d’écheveau)

De nouvelles marques sont ajoutées chaque semaine par deux canaux : les demandes explicites de teinturières indépendantes et la boucle de correction ci-dessous.

La boucle de correction — une touche instruit le moteur

Quand l’OCR lit mal un champ, la fiche de vérification surligne en orange la cellule suspecte. Vous la touchez, modifiez la valeur et appuyez sur enregistrer. Cette correction fait deux choses : elle atterrit dans la fiche de votre stash (correctement) et elle expédie un enregistrement de correction anonymisé vers YarnScope. Après que trente personnes ont corrigé le même champ sur la même marque, le moteur OCR se réentraîne sur ce schéma. La personne suivante qui scanne cette marque le voit analysé correctement du premier coup.

Aucune correction n’est expédiée sans consentement. L’option est activée par défaut mais peut être désactivée entièrement dans Réglages → Confidentialité → Retour OCR. La désactiver ne dégrade pas vos propres scans ; elle empêche seulement vos corrections d’améliorer le moteur pour les autres.

Ce que nous capturons, et ce que nous ne capturons pas

Ce que nous capturons, de façon transitoire : l’image de l’appareil photo, décodée en texte, avec le moteur OCR sur notre serveur. L’image n’est conservée en mémoire que le temps de l’analyse — moins d’une seconde — puis elle est jetée. Les champs texte décodés atterrissent dans la fiche de votre stash.

Ce que nous ne capturons jamais : les visages, les mains, la surface derrière l’étiquette, tout ce qui est hors de l’étiquette cadrée. Le flash de l’appareil photo ne se déclenche jamais automatiquement. L’appareil photo n’est sollicité que lorsque vous appuyez sur Scanner.

Questions sur le moteur OCR

En quoi l’OCR avec base de données diffère-t-il de l’OCR générique ?

L’OCR générique lit le texte d’une photo. Une base de données indique au moteur où vit chaque champ sur l’étiquette — la marque en haut à gauche, le bain en bas à droite, la composition de la fibre sous le nom du fil. Savoir où regarder transforme « tout lire » en « remplir les bonnes cases ».

Où trouvez-vous les mises en page des étiquettes ?

À partir de photographies publiques d’étiquettes (images marketing des marques, téléversements d’utilisateurs sous licence Ravelry avec consentement, le stash d’exemple de YarnScope). Aucune marque de laine ne nous a partagé de données privées. Les teinturières indépendantes peuvent demander leur inclusion à start@djump.io.

Et si je scanne une vieille étiquette Rowan de 1996 ?

Les étiquettes hors catalogue sont reconnues partiellement. La marque et la fibre s’analysent généralement ; le métrage peut nécessiter une correction manuelle. Nous ajoutons les anciennes étiquettes au fil des corrections apportées par les utilisateurs.

YarnScope lit-il les codes-barres des étiquettes de prix en mercerie ?

Pas encore, et nous avons délibérément limité l’OCR à l’étiquette de la pelote plutôt qu’à l’étiquette de prix de la mercerie. L’étiquette de la pelote voyage avec la laine ; l’étiquette de prix reste en boutique.

Mes photos scannées servent-elles à entraîner l’OCR ?

Uniquement lorsque vous corrigez explicitement un champ mal lu, nous renvoyons des corrections anonymisées pour améliorer le moteur. Les photos elles-mêmes ne quittent jamais votre appareil, sauf si vous les joignez à une fiche du stash.