TurboScan - сеть магазинов сканеров

Распознавание текста: программы OCR

OCR – общее название программ, предназначенных для распознавания текста, без которых сканер не поймет ни одной буквы. Программы делятся на профессиональные и программы «начального уровня». Последние решают поставленную задачу при сканировании «в лоб»: они просто переводят текст на бумаге в сборку символов, а затем уже вы должны самостоятельно разбираться с тем, что там получилось.

В случае простых текстовых документов ничего другого и не требуется. Есть набор символов на листе, и он преобразуется в тот же набор, только в файле. Но в случае документа, находящемся на вашем сканере, со сложной структурой (таблицы, графические вставки), программа сделает столько ошибок, что значительно проще будет не распознавать, а набирать текст. В этом случае вам придется воспользоваться профессиональной программой, которая поможет вашему сканеру распознать не только символы, но и структуру. Т

акая программа понимает, где находится простой текст, где таблица, а где графический символ. Соответственно, программа делит документ на фрагменты, а уже каждый фрагмент в зависимости от его свойств вставляется в окончательный файл. Естественно, что чертеж или график программа не будет трогать совсем, она понимает, что здесь распознавать нечего, она попытается создать таблицу именно той структуры, какую они имели в оригинальном документе – такое же распределение ячеек по строкам и столбцам. Кроме всего прочего, профессиональные программы способны обрабатывать и многоязычные документы.

Меню