YarnScope
Ausgabe Nr. 001Frühjahr / 2026Klaipėda · Ein Stash-Tracker für ernsthafte Handarbeiterinnen
04Die Engine · OCR-Datenbank

OCR für Garn-Etiketten — die Datenbank, nicht nur der Scanner.

Eine OCR-Engine ohne Etiketten-Datenbank rät bei den Markennamen. YarnScope hat eine kuratierte Datenbank mit Banderolen-Layouts von Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo und Dutzenden mehr — damit die OCR weiß, wo sie suchen muss.

Warum OCR allein nicht reicht

Ein generisches OCR-Modell kann irgendwann jedes Wort auf einer Banderole lesen. Das Problem ist, dass Banderolen keine Pressemitteilungen sind. Sie sind ein dichtes, markenspezifisches Layout: Der Farbcode wohnt in der einen Ecke, die Faseranteile in der anderen, die Färbepartie in einer dritten. Wo genau, hängt von der Marke ab.

Ohne Datenbank liefert die OCR eine Wand unstrukturierten Texts, und der Parser muss raten. Mit Datenbank weiß der Parser, dass auf einer Drops-Karisma-Banderole die Lauflänge rechts vom Knäuelgewicht in Gramm steht, in kleinerer Schrift, und dass „100 %" zuverlässig der Faserzeile vorangeht. Die Parsing-Genauigkeit ist der Unterschied zwischen „ja, speichern" und „korrigier die Färbepartie, die Lauflänge und die Markenzeile".

Marken in der Datenbank (Auswahl)

  • Mehrsprachig: Drops Design / Garnstudio (der größte Einzel-Korpus)
  • Nordamerikanischer Massenmarkt: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
  • Indie / Luxus: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
  • Nordisch: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
  • Großbritannien: Rowan, West Yorkshire Spinners, Jamieson & Smith
  • Kontinental-EU: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
  • D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
  • Stickgarn (Kreuzstich): DMC, Anchor, Madeira (Erkennung der Garn-Nummer)

Wöchentlich kommen neue Marken über zwei Wege hinzu: ausdrückliche Anfragen von Indie-Färbereien und die Korrekturschleife weiter unten.

Die Korrekturschleife — ein Tipp lehrt die Engine

Wenn die OCR ein Feld falsch liest, hebt die Prüfkarte die verdächtige Zelle orange hervor. Du tippst sie an, bearbeitest den Wert und tippst auf Speichern. Diese Korrektur tut zweierlei: Sie landet (korrekt) in deinem Bestandseintrag und schickt einen anonymisierten Korrektur-Datensatz zurück an YarnScope. Nachdem dreißig Nutzende dasselbe Feld bei derselben Marke korrigiert haben, trainiert die OCR-Engine auf dieses Muster nach. Die nächste Person, die diese Marke scannt, sieht sie beim ersten Durchlauf richtig erkannt.

Ohne Zustimmung wird keine Korrektur übermittelt. Die Option ist standardmäßig aktiv, lässt sich aber unter Einstellungen → Datenschutz → OCR-Feedback ganz abschalten. Das Abschalten verschlechtert deine eigenen Scans nicht; es verhindert nur, dass deine Korrekturen die Engine für andere verbessern.

Was wir erfassen und was nicht

Was wir flüchtig erfassen: das Kamerabild, zu Text dekodiert, mit der OCR-Engine auf unserem Server. Das Bild bleibt nur für die Dauer der Auswertung im Speicher — unter einer Sekunde — und wird dann verworfen. Die dekodierten Textfelder landen in deinem Bestandseintrag.

Was wir nie erfassen: Gesichter, Hände, die Fläche hinter der Banderole, alles außerhalb der eingerahmten Banderole. Der Kamerablitz löst nie automatisch aus. Die Kamera wird nur angefordert, wenn du auf Scannen tippst.

Fragen zur OCR-Engine

Worin unterscheidet sich OCR mit Datenbank von generischer OCR?
Generische OCR liest den Text eines Fotos. Eine Datenbank sagt der Engine, wo jedes Feld auf der Banderole liegt — Marke oben links, Färbepartie unten rechts, Faseranteile unter dem Garnnamen. Zu wissen, wo man suchen muss, macht aus „lies alles" ein „füll die richtigen Kästchen".
Woher habt ihr die Banderolen-Layouts?
Aus öffentlichen Banderolen-Fotos (Marketing-Bilder der Marken, von Nutzenden mit Ravelry-Lizenz und Zustimmung hochgeladene Bilder, dem Muster-Bestand von YarnScope). Keine Garnmarke hat private Daten mit uns geteilt. Indie-Färbereien können ihre Aufnahme unter start@djump.io anfragen.
Was, wenn ich eine vergriffene Rowan-Banderole von 1996 scanne?
Vergriffene Banderolen werden teilweise erkannt. Marke und Faser lesen sich meist aus; die Lauflänge braucht vielleicht eine manuelle Korrektur. Wir ergänzen alte Banderolen, sobald Nutzende Korrekturen beitragen.
Liest YarnScope Barcodes auf den Preisschildern des Wollladens?
Noch nicht, und wir haben die OCR bewusst auf die Banderole selbst beschränkt statt auf das Preisschild des Ladens. Die Banderole reist mit dem Garn; das Preisschild bleibt im Laden.
Werden meine gescannten Fotos zum Trainieren der OCR genutzt?
Nur wenn du ein falsch gelesenes Feld ausdrücklich korrigierst, schicken wir anonymisierte Korrekturen zurück, um die Engine zu verbessern. Die Fotos selbst verlassen dein Gerät nie, außer du hängst sie an einen Bestandseintrag an.