L’OCR pour étiquettes de laine — la base de données, pas seulement le scanner.
Un moteur OCR sans base de données d’étiquettes devine les noms de marque. YarnScope dispose d’une base de données soignée de mises en page d’étiquettes de Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo et des dizaines d’autres — pour que l’OCR sache où regarder.
Pourquoi l’OCR seul ne suffit pas
Un modèle OCR générique peut finir par lire chaque mot d’une étiquette. Le problème, c’est que les étiquettes de pelote ne sont pas des communiqués de presse. Ce sont une mise en page dense et propre à chaque marque : le code couleur vit dans un coin, les pourcentages de fibre dans un autre, le bain dans un troisième. Où exactement, cela dépend de la marque.
Sans base de données, l’OCR renvoie un mur de texte non structuré et l’analyseur doit deviner. Avec une base de données, l’analyseur sait que sur une étiquette Drops Karisma le métrage est à droite du grammage, dans une police plus petite, et que « 100 % » précède de façon fiable la ligne de fibre. La précision de l’analyse, c’est la différence entre « oui, enregistrer » et « corrige le bain, le métrage et la ligne de marque ».
Marques dans la base de données (sélection)
- Multilingues : Drops Design / Garnstudio (le plus grand corpus unique)
- Grand public nord-américain : Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indé / luxe : Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Nordiques : Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- Royaume-Uni : Rowan, West Yorkshire Spinners, Jamieson & Smith
- Europe continentale : Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / en ligne : We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Fil à broder (point de croix) : DMC, Anchor, Madeira (reconnaissance du numéro d’écheveau)
De nouvelles marques sont ajoutées chaque semaine par deux canaux : les demandes explicites de teinturières indépendantes et la boucle de correction ci-dessous.
La boucle de correction — une touche instruit le moteur
Quand l’OCR lit mal un champ, la fiche de vérification surligne en orange la cellule suspecte. Vous la touchez, modifiez la valeur et appuyez sur enregistrer. Cette correction fait deux choses : elle atterrit dans la fiche de votre stash (correctement) et elle expédie un enregistrement de correction anonymisé vers YarnScope. Après que trente personnes ont corrigé le même champ sur la même marque, le moteur OCR se réentraîne sur ce schéma. La personne suivante qui scanne cette marque le voit analysé correctement du premier coup.
Aucune correction n’est expédiée sans consentement. L’option est activée par défaut mais peut être désactivée entièrement dans Réglages → Confidentialité → Retour OCR. La désactiver ne dégrade pas vos propres scans ; elle empêche seulement vos corrections d’améliorer le moteur pour les autres.
Ce que nous capturons, et ce que nous ne capturons pas
Ce que nous capturons, de façon transitoire : l’image de l’appareil photo, décodée en texte, avec le moteur OCR sur notre serveur. L’image n’est conservée en mémoire que le temps de l’analyse — moins d’une seconde — puis elle est jetée. Les champs texte décodés atterrissent dans la fiche de votre stash.
Ce que nous ne capturons jamais : les visages, les mains, la surface derrière l’étiquette, tout ce qui est hors de l’étiquette cadrée. Le flash de l’appareil photo ne se déclenche jamais automatiquement. L’appareil photo n’est sollicité que lorsque vous appuyez sur Scanner.