Definition OCR

OCR är förkortningen för Optical Character Recognition, ett uttryck på engelska som kan översättas som Optical Character Recognition . Begreppet används i datavetenskap för att namnge ett förfarande som möjliggör digitalisering av en text via en skanner .

OCR-fallet är mycket speciellt, eftersom det ger datorn en färdighet som är grundläggande för de flesta människor: läsning. Det är värt att nämna att det inte är en lätt uppgift för vart och ett av oss, men i vårt fall lär vi oss vanligtvis att göra det från en mycket ung ålder, varför vi förvärvar en stor skicklighet, även när vi måste möta en kalligrafi svår att förstå.

Trots tekniska framsteg står OCR fortfarande inför flera problem. Att få ett digitalt system att känna igen en handskriven text är till exempel ganska svår. Processen upplever vanligtvis olägenheter för att segmentera de olika textenheterna. Samma händer när ord verkar mycket nära varandra.

Andra OCR- fel kan uppstå när det inte finns tillräckligt med kontrast mellan orden och bakgrunden. Antag att en text med svart bokstav skrivs ut på ett grått ark: det är troligt att OCR- processen inte kan särskilja bokstäver och ord .

Låt oss inte glömma det, precis som en åtgärd som tydligen är lika enkel som att gå ner på gatan kräver en rad kompletterande åtgärder för att undvika hinder och skydda vår integritet, är läsningen av en tryckt text resultatet av flera samtidiga rekognosationsuppgifter som vi bär ut nästan omedvetet, men de tar oss till jobbet.

När vi står inför en text är vårt eget OCR- system ansvarat för att söka och identifiera titeln, identifiera punkter, skiljetecken, mellanrum mellan ord och förkortningar, bland annat, samt sträva efter att förstå källorna för utsmyckade eller orubbliga och att fylla i informationen i regioner som har drabbats av någon typ av slitage, såsom en bläckfläck eller en saknad pappersbit.

Rekommenderas