OCR für Garn-Etiketten — die Datenbank, nicht nur der Scanner.
Eine OCR-Engine ohne Etiketten-Datenbank rät bei den Markennamen. YarnScope hat eine kuratierte Datenbank mit Banderolen-Layouts von Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo und Dutzenden mehr — damit die OCR weiß, wo sie suchen muss.
Warum OCR allein nicht reicht
Ein generisches OCR-Modell kann irgendwann jedes Wort auf einer Banderole lesen. Das Problem ist, dass Banderolen keine Pressemitteilungen sind. Sie sind ein dichtes, markenspezifisches Layout: Der Farbcode wohnt in der einen Ecke, die Faseranteile in der anderen, die Färbepartie in einer dritten. Wo genau, hängt von der Marke ab.
Ohne Datenbank liefert die OCR eine Wand unstrukturierten Texts, und der Parser muss raten. Mit Datenbank weiß der Parser, dass auf einer Drops-Karisma-Banderole die Lauflänge rechts vom Knäuelgewicht in Gramm steht, in kleinerer Schrift, und dass „100 %" zuverlässig der Faserzeile vorangeht. Die Parsing-Genauigkeit ist der Unterschied zwischen „ja, speichern" und „korrigier die Färbepartie, die Lauflänge und die Markenzeile".
Marken in der Datenbank (Auswahl)
- Mehrsprachig: Drops Design / Garnstudio (der größte Einzel-Korpus)
- Nordamerikanischer Massenmarkt: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indie / Luxus: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Nordisch: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- Großbritannien: Rowan, West Yorkshire Spinners, Jamieson & Smith
- Kontinental-EU: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Stickgarn (Kreuzstich): DMC, Anchor, Madeira (Erkennung der Garn-Nummer)
Wöchentlich kommen neue Marken über zwei Wege hinzu: ausdrückliche Anfragen von Indie-Färbereien und die Korrekturschleife weiter unten.
Die Korrekturschleife — ein Tipp lehrt die Engine
Wenn die OCR ein Feld falsch liest, hebt die Prüfkarte die verdächtige Zelle orange hervor. Du tippst sie an, bearbeitest den Wert und tippst auf Speichern. Diese Korrektur tut zweierlei: Sie landet (korrekt) in deinem Bestandseintrag und schickt einen anonymisierten Korrektur-Datensatz zurück an YarnScope. Nachdem dreißig Nutzende dasselbe Feld bei derselben Marke korrigiert haben, trainiert die OCR-Engine auf dieses Muster nach. Die nächste Person, die diese Marke scannt, sieht sie beim ersten Durchlauf richtig erkannt.
Ohne Zustimmung wird keine Korrektur übermittelt. Die Option ist standardmäßig aktiv, lässt sich aber unter Einstellungen → Datenschutz → OCR-Feedback ganz abschalten. Das Abschalten verschlechtert deine eigenen Scans nicht; es verhindert nur, dass deine Korrekturen die Engine für andere verbessern.
Was wir erfassen und was nicht
Was wir flüchtig erfassen: das Kamerabild, zu Text dekodiert, mit der OCR-Engine auf unserem Server. Das Bild bleibt nur für die Dauer der Auswertung im Speicher — unter einer Sekunde — und wird dann verworfen. Die dekodierten Textfelder landen in deinem Bestandseintrag.
Was wir nie erfassen: Gesichter, Hände, die Fläche hinter der Banderole, alles außerhalb der eingerahmten Banderole. Der Kamerablitz löst nie automatisch aus. Die Kamera wird nur angefordert, wenn du auf Scannen tippst.