YarnScope
Editie nr. 001Voorjaar / 2026Klaipėda · Een voorraadbeheer voor serieuze breiers en hakers
04De motor · OCR-database

OCR voor wol-etiketten — de database, niet alleen de scanner.

Een OCR-motor zonder etikettendatabase gokt naar merknamen. YarnScope heeft een samengestelde database van etiket-indelingen van Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo en tientallen meer — zodat de OCR weet waar het moet kijken.

Waarom OCR alleen niet genoeg is

Een generiek OCR-model kan uiteindelijk elk woord op een etiket lezen. Het probleem is dat etiketten geen persberichten zijn. Het is een dichte, merkspecifieke indeling: de kleurcode staat in de ene hoek, de vezelpercentages in de andere, het kleurbad in een derde. Waar precies, hangt van het merk af.

Zonder database geeft de OCR een muur ongestructureerde tekst terug en moet de parser gokken. Mét database weet de parser dat op een etiket van Drops Karisma de looplengte rechts van het gewicht in gram staat, in een kleinere letter, en dat "100%" betrouwbaar voor de vezelregel staat. De parsenauwkeurigheid is het verschil tussen "ja, opslaan" en "corrigeer het kleurbad én de looplengte én de merkregel".

Merken in de database (selectie)

  • Meertalig: Drops Design / Garnstudio (het grootste afzonderlijke corpus)
  • Noord-Amerikaanse mainstream: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
  • Indie / luxe: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
  • Scandinavisch: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
  • VK: Rowan, West Yorkshire Spinners, Jamieson & Smith
  • Continentaal Europa: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
  • D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
  • Borduurgaren voor kruissteek: DMC, Anchor, Madeira (herkenning van strengnummer)

Wekelijks komen er nieuwe merken bij via twee kanalen: expliciete verzoeken van indie-ververs en de correctielus hieronder.

De correctielus — één tik leert de motor

Als de OCR een veld verkeerd leest, markeert de controlekaart de verdachte cel oranje. Je tikt erop, past de waarde aan en tikt op opslaan. Die correctie doet twee dingen: ze belandt (correct) in je voorraaditem, en ze stuurt een geanonimiseerd correctierecord terug naar YarnScope. Nadat dertig gebruikers hetzelfde veld bij hetzelfde merk hebben gecorrigeerd, traint de OCR-motor opnieuw op dat patroon. De volgende persoon die dat merk scant, ziet het in één keer goed gelezen.

Er worden geen correcties verstuurd zonder toestemming. De instelling staat standaard aan, maar kan volledig worden uitgezet via Instellingen → Privacy → OCR-feedback. Uitzetten verslechtert je eigen scans niet; het stopt alleen dat jouw correcties de motor voor anderen verbeteren.

Wat we vastleggen en wat niet

Wat we vluchtig vastleggen: het camerabeeld, gedecodeerd naar tekst, met de OCR-motor op onze server. Het beeld blijft alleen in het geheugen zolang de verwerking duurt — minder dan een seconde — en wordt daarna weggegooid. De gedecodeerde tekstvelden belanden in je voorraaditem.

Wat we nooit vastleggen: gezichten, handen, de ondergrond achter het etiket, alles buiten het gekadreerde etiket. De flitser gaat nooit automatisch af. De camera wordt alleen aangevraagd als je op Scannen tikt.

Vragen over de OCR-motor

Hoe verschilt OCR met een database van generieke OCR?
Generieke OCR leest de tekst van een foto. Een database vertelt de motor waar elk veld op het etiket staat — merk linksboven, kleurbad rechtsonder, vezelsamenstelling onder de garennaam. Weten waar je moet kijken verandert "lees alles" in "vul de juiste vakjes".
Waar halen jullie de etiket-indelingen vandaan?
Uit openbare etiketfotografie (marketingbeeld van merken, Ravelry-gelicentieerde gebruikersuploads met toestemming, de voorbeeldvoorraad van YarnScope). Geen enkel wolmerk heeft privégegevens met ons gedeeld. Indie-ververs kunnen opname aanvragen via start@djump.io.
En als ik een oud Rowan-etiket uit 1996 scan?
Uit-de-handel-genomen etiketten worden gedeeltelijk herkend. Merk en vezel worden meestal gelezen; de looplengte heeft soms een handmatige correctie nodig. We voegen oude etiketten toe naarmate gebruikers correcties aandragen.
Leest YarnScope barcodes op de prijskaartjes van de wolwinkel?
Nog niet, en we hebben de OCR bewust beperkt tot het etiket van de bol zelf in plaats van het prijskaartje van de winkel. Het etiket reist mee met het garen; het prijskaartje blijft in de winkel.
Worden mijn gescande foto’s gebruikt om de OCR te trainen?
Alleen als je nadrukkelijk een verkeerd gelezen veld corrigeert, sturen we geanonimiseerde correcties terug om de motor te verbeteren. De foto’s zelf verlaten je toestel nooit, tenzij je ze aan een voorraaditem vastmaakt.