OCR para etiquetas de lana — la base de datos, no solo el escáner.
Un motor de OCR sin una base de datos de etiquetas adivina los nombres de marca. YarnScope tiene una base de datos curada de formatos de etiqueta de Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo y docenas más — para que el OCR sepa dónde mirar.
Por qué el OCR solo no basta
Un modelo de OCR genérico puede leer, tarde o temprano, todas las palabras de una etiqueta. El problema es que las etiquetas de ovillo no son notas de prensa. Son un formato denso y específico de cada marca: el código de color vive en una esquina, los porcentajes de fibra en otra, el baño de tinte en una tercera. Dónde exactamente depende de la marca.
Sin una base de datos, el OCR devuelve un muro de texto sin estructura y el analizador tiene que adivinar. Con una base de datos, el analizador sabe que en una etiqueta de Drops Karisma el metraje va a la derecha de los gramos de peso, en una letra más pequeña, y que el "100 %" precede de forma fiable a la línea de fibra. La precisión del análisis es la diferencia entre "sí, guardar" y "corrige el baño de tinte, el metraje y la línea de marca".
Marcas en la base de datos (selección)
- Multilingües: Drops Design / Garnstudio (el mayor corpus único)
- Gran consumo norteamericano: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indie / lujo: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Nórdicas: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- Reino Unido: Rowan, West Yorkshire Spinners, Jamieson & Smith
- Europa continental: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Hilo de punto de cruz: DMC, Anchor, Madeira (reconocimiento de número de madeja)
Cada semana se añaden marcas nuevas por dos vías: las peticiones explícitas de tintoreras indie y el bucle de corrección de abajo.
El bucle de corrección — un toque enseña al motor
Cuando el OCR lee mal un campo, la ficha de revisión resalta en naranja la celda sospechosa. La tocas, editas el valor y pulsas guardar. Esa corrección hace dos cosas: aterriza en la entrada de tu stash (correcta) y envía un registro de corrección anonimizado de vuelta a YarnScope. Después de que treinta usuarias corrijan el mismo campo en la misma marca, el motor de OCR se reentrena con ese patrón. La siguiente persona que escanee esa marca lo ve bien leído a la primera.
No se envía ninguna corrección sin consentimiento. La opción está activada por defecto, pero se puede desactivar del todo en Ajustes → Privacidad → Feedback de OCR. Desactivarla no empeora tus propios escaneos; solo evita que tus correcciones mejoren el motor para las demás.
Qué capturamos y qué no
Lo que capturamos, de forma transitoria: el fotograma de la cámara, decodificado a texto, con el motor de OCR en nuestro servidor. El fotograma se mantiene en memoria solo durante el análisis — menos de un segundo — y luego se descarta. Los campos de texto decodificados aterrizan en la entrada de tu stash.
Lo que nunca capturamos: caras, manos, la superficie de detrás de la etiqueta, nada que quede fuera de la etiqueta encuadrada. El flash de la cámara nunca se dispara automáticamente. La cámara se solicita solo cuando pulsas Escanear.