OCR do metek włóczki — baza danych, nie sam skaner.
Silnik OCR bez bazy metek zgaduje nazwy marek. YarnScope ma starannie złożoną bazę układów banderoli od Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo i kilkudziesięciu innych — żeby OCR wiedział, gdzie patrzeć.
Dlaczego sam OCR nie wystarcza
Ogólny model OCR prędzej czy później odczyta każde słowo na banderoli. Problem w tym, że banderole to nie komunikaty prasowe. To gęsty układ swoisty dla marki: kod koloru mieszka w jednym rogu, procenty składu w drugim, numer farbowania w trzecim. Gdzie dokładnie — zależy od marki.
Bez bazy OCR zwraca ścianę nieuporządkowanego tekstu, a parser musi zgadywać. Z bazą parser wie, że na banderoli Drops Karisma metraż jest na prawo od gramów wagi, mniejszą czcionką, a „100%” niezawodnie poprzedza wiersz składu. Trafność analizy to różnica między „tak, zapisz” a „popraw numer farbowania, długość nici i wiersz marki”.
Marki w bazie (wybór)
- Wielojęzyczne: Drops Design / Garnstudio (największy pojedynczy korpus)
- Mainstream północnoamerykański: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indie / luksus: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Nordyckie: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- Wielka Brytania: Rowan, West Yorkshire Spinners, Jamieson & Smith
- Europa kontynentalna: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Mulina do haftu: DMC, Anchor, Madeira (rozpoznawanie numeru motka)
Nowe marki dochodzą co tydzień dwoma kanałami: jawnymi prośbami niezależnych farbiarni i pętlą poprawek opisaną niżej.
Pętla poprawek — jedno stuknięcie uczy silnik
Gdy OCR błędnie odczyta pole, karta podglądu podświetla podejrzaną komórkę na pomarańczowo. Stukasz w nią, edytujesz wartość i stukasz zapisz. Ta poprawka robi dwie rzeczy: trafia do wpisu w Twoim zapasie (poprawnie) i wysyła zanonimizowany zapis poprawki z powrotem do YarnScope. Gdy trzydzieści użytkowniczek poprawi to samo pole w tej samej marce, silnik OCR douczana się na tym wzorcu. Kolejna osoba skanująca tę markę widzi ją odczytaną poprawnie za pierwszym razem.
Żadna poprawka nie jest wysyłana bez zgody. Opcja jest domyślnie włączona, ale można ją całkowicie wyłączyć w Ustawienia → Prywatność → Feedback OCR. Wyłączenie nie pogarsza Twoich własnych skanów; powstrzymuje tylko Twoje poprawki przed ulepszaniem silnika dla innych.
Co przechwytujemy, a czego nie
Co przechwytujemy, przejściowo: klatkę z aparatu, zdekodowaną do tekstu, silnikiem OCR na naszym serwerze. Klatka przebywa w pamięci tylko na czas analizy — poniżej jednej sekundy — po czym jest porzucana. Zdekodowane pola tekstowe trafiają do wpisu w Twoim zapasie.
Czego nigdy nie przechwytujemy: twarzy, dłoni, powierzchni za banderolą, niczego poza skadrowaną banderolą. Lampa aparatu nigdy nie odpala się automatycznie. Aparat uruchamia się tylko wtedy, gdy stukniesz Skanuj.