OCR voor wol-etiketten — de database, niet alleen de scanner.
Een OCR-motor zonder etikettendatabase gokt naar merknamen. YarnScope heeft een samengestelde database van etiket-indelingen van Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo en tientallen meer — zodat de OCR weet waar het moet kijken.
Waarom OCR alleen niet genoeg is
Een generiek OCR-model kan uiteindelijk elk woord op een etiket lezen. Het probleem is dat etiketten geen persberichten zijn. Het is een dichte, merkspecifieke indeling: de kleurcode staat in de ene hoek, de vezelpercentages in de andere, het kleurbad in een derde. Waar precies, hangt van het merk af.
Zonder database geeft de OCR een muur ongestructureerde tekst terug en moet de parser gokken. Mét database weet de parser dat op een etiket van Drops Karisma de looplengte rechts van het gewicht in gram staat, in een kleinere letter, en dat "100%" betrouwbaar voor de vezelregel staat. De parsenauwkeurigheid is het verschil tussen "ja, opslaan" en "corrigeer het kleurbad én de looplengte én de merkregel".
Merken in de database (selectie)
- Meertalig: Drops Design / Garnstudio (het grootste afzonderlijke corpus)
- Noord-Amerikaanse mainstream: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indie / luxe: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Scandinavisch: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- VK: Rowan, West Yorkshire Spinners, Jamieson & Smith
- Continentaal Europa: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Borduurgaren voor kruissteek: DMC, Anchor, Madeira (herkenning van strengnummer)
Wekelijks komen er nieuwe merken bij via twee kanalen: expliciete verzoeken van indie-ververs en de correctielus hieronder.
De correctielus — één tik leert de motor
Als de OCR een veld verkeerd leest, markeert de controlekaart de verdachte cel oranje. Je tikt erop, past de waarde aan en tikt op opslaan. Die correctie doet twee dingen: ze belandt (correct) in je voorraaditem, en ze stuurt een geanonimiseerd correctierecord terug naar YarnScope. Nadat dertig gebruikers hetzelfde veld bij hetzelfde merk hebben gecorrigeerd, traint de OCR-motor opnieuw op dat patroon. De volgende persoon die dat merk scant, ziet het in één keer goed gelezen.
Er worden geen correcties verstuurd zonder toestemming. De instelling staat standaard aan, maar kan volledig worden uitgezet via Instellingen → Privacy → OCR-feedback. Uitzetten verslechtert je eigen scans niet; het stopt alleen dat jouw correcties de motor voor anderen verbeteren.
Wat we vastleggen en wat niet
Wat we vluchtig vastleggen: het camerabeeld, gedecodeerd naar tekst, met de OCR-motor op onze server. Het beeld blijft alleen in het geheugen zolang de verwerking duurt — minder dan een seconde — en wordt daarna weggegooid. De gedecodeerde tekstvelden belanden in je voorraaditem.
Wat we nooit vastleggen: gezichten, handen, de ondergrond achter het etiket, alles buiten het gekadreerde etiket. De flitser gaat nooit automatisch af. De camera wordt alleen aangevraagd als je op Scannen tikt.