OCR para etiquetas de fio — o banco de dados, não só o leitor.
Um motor de OCR sem banco de dados de etiquetas só chuta os nomes de marca. O YarnScope tem um banco curado de layouts de etiqueta da Drops, Madelinetosh, Knit Picks, Cascade, Brooklyn Tweed, Quince, Malabrigo e dezenas de outras — para o OCR saber onde olhar.
Por que só o OCR não basta
Um modelo de OCR genérico consegue ler cada palavra de uma etiqueta de novelo, mais cedo ou mais tarde. O problema é que etiqueta de novelo não é comunicado de imprensa. É um layout denso e específico de cada marca: o código de cor fica num canto, os percentuais de fibra em outro, a partida de tingimento num terceiro. Onde exatamente depende da marca.
Sem banco de dados, o OCR devolve um muro de texto desestruturado e o parser tem que chutar. Com banco de dados, o parser sabe que numa etiqueta da Drops Karisma a metragem fica à direita das gramas, numa fonte menor, e que "100%" sempre vem antes da linha da fibra. A precisão da leitura é a diferença entre "isso, pode salvar" e "conserta a partida de tingimento, a metragem e a linha da marca".
Marcas no banco de dados (seleção)
- Multilíngues: Drops Design / Garnstudio (o maior corpus de todos)
- Mainstream norte-americanas: Knit Picks / WeCrochet, Lion Brand, Cascade, Berroco, Plymouth
- Indie / luxo: Madelinetosh, Malabrigo, Quince & Co., Brooklyn Tweed, Manos del Uruguay
- Nórdicas: Sandnes Garn, Rauma, Isager, Holst, Pickles, Du Store Alpakka
- Reino Unido: Rowan, West Yorkshire Spinners, Jamieson & Smith
- Europa continental: Schachenmayr, Lana Grossa, Lang Yarns, Adriafil, Plassard, Phildar, Bergère de France
- D2C / online: We Are Knitters, Wool and the Gang, Scheepjes, Durable
- Linha de ponto-cruz: DMC, Anchor, Madeira (reconhecimento do número da meada)
Marcas novas entram toda semana por dois caminhos: pedidos diretos de tintureiras indie e o ciclo de correção logo abaixo.
O ciclo de correção — um toque ensina o motor
Quando o OCR lê um campo errado, a ficha de conferência destaca a célula suspeita em laranja. Você toca nela, edita o valor e toca em salvar. Essa correção faz duas coisas: cai no registro do seu estoque (correta) e envia um registro de correção anonimizado de volta para o YarnScope. Depois que trinta pessoas corrigem o mesmo campo na mesma marca, o motor de OCR é retreinado nesse padrão. A próxima pessoa que escanear aquela marca vê tudo lido certo já na primeira passagem.
Nenhuma correção é enviada sem consentimento. A opção vem ligada por padrão, mas dá para desligar por completo em Configurações → Privacidade → feedback do OCR. Desligar não piora as suas próprias leituras; só impede que as suas correções melhorem o motor para os outros.
O que a gente captura e o que a gente não captura
O que a gente captura, de forma transitória: o quadro da câmera, decodificado em texto, com o motor de OCR no nosso servidor. O quadro fica só na memória durante a leitura — menos de um segundo — e depois é descartado. Os campos de texto decodificados caem no registro do seu estoque.
O que a gente nunca captura: rostos, mãos, a superfície atrás da etiqueta, qualquer coisa fora da etiqueta enquadrada. O flash da câmera nunca dispara sozinho. A câmera só é acionada quando você toca em Escanear.