Любой современный деловой человек, постоянно работающий с документами время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации. Так были созданы системы, известные как системы оптического распознавания текста – Optical Character Recognition (OCR)…
Поколения программ OCR
Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства рассмотрения. На данный момент выделяют OCR-системы, а также ICR-системы. Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем.
В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha).
Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR, в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются фразы целиком.
Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим существующие альтернативы.
Известные отечественные продукты
ABBYY FineReader – один из лидеров рынка OCR, текущая версия продукта 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная веб-версия этого пакета для оптического распознавания.
Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа.
Конкурент FineReader, с которым его постоянно сравнивают – OmniPage от компании Nuance Communications (бывшая ScanSoft). Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий полученных напрямую с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков.
Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD. Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода.
Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, т.к. их возможности во многом эквивалентн
Перейдем к следующему заметному игроку на рынке OCR. Это продукт CuneiForm от российской компании Cognitive Technologies. Самый большой текущий минус этого проекта состоит в том, что ещё в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время.
Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов. Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, т.е. это – классическая OCR-система.
Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux. На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR, впрочем, в силу открытости ядра, эту систему также использует множество других OCR-продуктов, например OCRFeeder.
Но также есть и в полне бесплатные OCR online
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Комментарии 1