Total Commander :: WCX_RedTess - Распознавание PDF и изображений (сканов)

WCX_RedTess - Распознавание PDF и изображений (сканов)

through

[^/[Print]\]

Total Commander -> Плагины Total Commander

#1: WCX_RedTess - Распознавание PDF и изображений (сканов) Author: alexanderwdark, Location: Россия

Posted: Tue Oct 15, 2019 15:30
—
WCX плагин позволяет работать с изображениями и PDF как с архивами, содержащими текстовые файлы (с кодом языка в качестве имени).

Вход в "архив" - Ctrl+PgDown.

Code:

WCX_TESS - C++ image to text & PDF to text converter in the form of TC packer plugin.

Based on code from Tesseract, Poppler, Leptonica and/or OpenCV libraries.

Text recognition here working using "trained models" from Tesseract.

Russian and English models are included in basic archive (*.traineddata files).

If you need any other models, download it and write language codes into "redtess.json" config.

You need "langs" key for this. Mixed records such as "eng, rus" are allowed.

You will see all these values in TC panel as virtual archive's files with txt extension.

There is "Fast" version of "trained models" by default.

It works fast, though can have some problems (but no so bad!).

But you can get "Best" version of models using this link:
https://github.com/tesseract-ocr/tessdata_best
And replace tessdata folder content.

Or use normal models:
https://github.com/tesseract-ocr/tessdata

Also you can enable support of many other image formats (see "formats" key in config).

You can use any of Leptonica or OpenCV supported pictures with this plugin.

Multi-page at this moment enabled for TIFF format.

PDF get rasterized in memory before recognition, so try to tune DPI in configuration file.

Leptonica is default library for plugin, but you can switch to OpenCV.

Актуальная версия здесь

Last edited by alexanderwdark on Tue Oct 22, 2019 13:03; edited 3 times in total

#2: Author: alexanderwdark, Location: Россия

Posted: Fri Oct 18, 2019 15:45
—
18.10.2019 Доступа статичная версия RedTess без динамических библиотек. Обе x86 и x86-64 версии в одном архиве

(собрано с пропатчеными poppler и glib)

#3: Author: lsched, Location: Россия, Саратов

Posted: Fri Oct 18, 2019 23:03
—
Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете.

#4: Author: alexanderwdark, Location: Россия

Posted: Mon Oct 21, 2019 10:57
—

lsched wrote:

Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете.

По какой причине некоторые рабочие системы не содержат необходимых библиотек, хотя после установки из чистых образом что 7ка, что 10ка - содержат.

Судя по имеющейся информации, это случается на необновленных (некорректно обновленных) системах.

#5: Author: lsched, Location: Россия, Саратов

Posted: Mon Oct 21, 2019 18:00
—

alexanderwdark wrote:

18.10.2019 Доступа статичная версия RedTess без динамических библиотек

alexanderwdark wrote:

По какой причине некоторые рабочие системы не содержат необходимых библиотек

А каких именно библиотек не хватает? Что нужно доставить?
И что значит «некорректно обновленных системах»? Это как?

#6: Author: alexanderwdark, Location: Россия

Posted: Tue Oct 22, 2019 09:11
—

lsched wrote:

alexanderwdark wrote:

18.10.2019 Доступа статичная версия RedTess без динамических библиотек

alexanderwdark wrote:

По какой причине некоторые рабочие системы не содержат необходимых библиотек

Некорректно обновленных - это как у меня одна система. По данным самой ОС там стоят все обновления, но ряда библиотек нет, к-рые присутствуют в чистой MSDN системе той же версии. Речь идет о ucrt. Если использовать fileinfo плагин для TC или dependency walker, на проблемной ОС заметна нехватка зависимостей даже для ряда системных библиотек.

Поскольку плагин сейчас скомпилирован со статическим CRT, ucrt отдельный ему не требуется. Всё дело в системе. Сейчас с нуля поставил десятку 1903 бизнес-редакции. Плагин завелся безо всякой подготовки.

#7: Author: Monarch-LFV,

Posted: Tue Oct 22, 2019 12:01
—
Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду))

#8: Author: alexanderwdark, Location: Россия

Posted: Tue Oct 22, 2019 12:19
—

Monarch-LFV wrote:

Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду))

Одновременно можно. Посмотрите в ReadMe.txt.
Добавляйте в список rus+eng например. Или вообще любой другой язык.
Возможно, переход на best-версию модели улучшит и качество распознавания. А так, всё ограничено движком - улучшить разве что какими-то фильтрами можно с блочным разбором и словарной поддержкой, но пока руки не доходят.

Добавлено спустя 45 минут:

22.10.19 Новая сборка (некоторые исправления).

#9: Author: alexanderwdark, Location: Россия

Posted: Wed Oct 23, 2019 16:56
—
23.10.19 Новая сборка тут.

#10: Author: lsched, Location: Россия, Саратов

Posted: Wed Oct 23, 2019 19:17
—

alexanderwdark wrote:

По данным самой ОС там стоят все обновления, но ряда библиотек нет

Возможно, я как-то не так спросил. Повторюсь - какие именно библиотеки нужны? Вы же знаете, какие именно ваша программа использует?
Заодно - почему-то другие проги никакой некорректности не замечают, все работают замечательно. Кроме вашей.
Новая версия тоже не завелась, к сожалению.

#11: Author: alexanderwdark, Location: Россия

Posted: Wed Oct 23, 2019 19:44
—

lsched wrote:

alexanderwdark wrote:

По данным самой ОС там стоят все обновления, но ряда библиотек нет

Статичная версия всё нужное носит с собой, поэтому вывод один - какие-то экспорты в системных библиотеках отсутствуют, т.е. требуются более поздние версии. И поэтому всё заводится на чистых установках из официальных образов семёрки или десятки. Библиотек прилинковано множество, и ц каждой своя зависимость. Но на то она и статика, что здесь всё, включая рантайм - в одном файле. Для проверки можно использовать fileinfo или dependency walker, но и они не гарантируют абсолютно достоверную информацию.

#12: Author: lsched, Location: Россия, Саратов

Posted: Wed Oct 23, 2019 19:54
—
alexanderwdark, вы так и не ответили на один, ни на другой вопрос.
Какие библиотеки нужны и почему с другими программами проблем нет?

#13: Author: alexanderwdark, Location: Россия

Posted: Wed Oct 23, 2019 19:56
—
Посмотрите через плагин fileinfo, только системные нужны, коробочные. Я ее специалист Майкрософт, не могу вам ответить по различиями между сборками и сервис-паками ОС.

#14: Author: junk,

Posted: Wed Oct 30, 2019 11:50
—
Упоминаемое Вами ucrt - не в коробочной поставке, а в составе SDK.
Поэтому, чтобы работало везде, - только статическая сборка.

Total Commander -> Плагины Total Commander

output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Page 1 of 1