Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

WCX_RedTess - Распознавание PDF и изображений (сканов)

 
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander printer-friendly view
View previous topic :: View next topic  
Author Message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Tue Oct 15, 2019 15:30    Post subject: WCX_RedTess - Распознавание PDF и изображений (сканов) Reply with quote

WCX плагин позволяет работать с изображениями и PDF как с архивами, содержащими текстовые файлы (с кодом языка в качестве имени).

Вход в "архив" - Ctrl+PgDown.

Code:
WCX_TESS - C++ image to text & PDF to text converter in the form of TC packer plugin.

Based on code from Tesseract, Poppler, Leptonica and/or OpenCV libraries.

Text recognition here working using "trained models" from Tesseract.

Russian and English models are included in basic archive (*.traineddata files).

If you need any other models, download it and write language codes into "redtess.json" config.

You need "langs" key for this. Mixed records such as "eng, rus" are allowed.

You will see all these values in TC panel as virtual archive's files with txt extension.

There is "Fast" version of "trained models" by default.

It works fast, though can have some problems (but no so bad!).

But you can get "Best" version of models using this link:
https://github.com/tesseract-ocr/tessdata_best
And replace tessdata folder content.

Or use normal models:
https://github.com/tesseract-ocr/tessdata

Also you can enable support of many other image formats (see "formats" key in config).

You can use any of Leptonica or OpenCV supported pictures with this plugin.

Multi-page at this moment enabled for TIFF format.

PDF get rasterized in memory before recognition, so try to tune DPI in configuration file.

Leptonica is default library for plugin, but you can switch to OpenCV.



Актуальная версия здесь


Last edited by alexanderwdark on Tue Oct 22, 2019 13:03; edited 3 times in total
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Fri Oct 18, 2019 15:45    Post subject: Reply with quote

18.10.2019 Доступа статичная версия RedTess без динамических библиотек. Обе x86 и x86-64 версии в одном архиве

(собрано с пропатчеными poppler и glib)
Back to top
View user's profile Send private message
lsched



Joined: 20 Oct 2009
Posts: 63
Location: Россия, Саратов

Post (Separately) Posted: Fri Oct 18, 2019 23:03    Post subject: Reply with quote

Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете.
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Mon Oct 21, 2019 10:57    Post subject: Reply with quote

lsched wrote:
Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете.


По какой причине некоторые рабочие системы не содержат необходимых библиотек, хотя после установки из чистых образом что 7ка, что 10ка - содержат.

Судя по имеющейся информации, это случается на необновленных (некорректно обновленных) системах.
Back to top
View user's profile Send private message
lsched



Joined: 20 Oct 2009
Posts: 63
Location: Россия, Саратов

Post (Separately) Posted: Mon Oct 21, 2019 18:00    Post subject: Reply with quote

alexanderwdark wrote:
18.10.2019 Доступа статичная версия RedTess без динамических библиотек

alexanderwdark wrote:
По какой причине некоторые рабочие системы не содержат необходимых библиотек

А каких именно библиотек не хватает? Что нужно доставить?
И что значит «некорректно обновленных системах»? Это как?
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Tue Oct 22, 2019 09:11    Post subject: Reply with quote

lsched wrote:
alexanderwdark wrote:
18.10.2019 Доступа статичная версия RedTess без динамических библиотек

alexanderwdark wrote:
По какой причине некоторые рабочие системы не содержат необходимых библиотек

А каких именно библиотек не хватает? Что нужно доставить?
И что значит «некорректно обновленных системах»? Это как?



Некорректно обновленных - это как у меня одна система. По данным самой ОС там стоят все обновления, но ряда библиотек нет, к-рые присутствуют в чистой MSDN системе той же версии. Речь идет о ucrt. Если использовать fileinfo плагин для TC или dependency walker, на проблемной ОС заметна нехватка зависимостей даже для ряда системных библиотек.

Поскольку плагин сейчас скомпилирован со статическим CRT, ucrt отдельный ему не требуется. Всё дело в системе. Сейчас с нуля поставил десятку 1903 бизнес-редакции. Плагин завелся безо всякой подготовки.
Back to top
View user's profile Send private message
Monarch-LFV



Joined: 22 Jul 2019
Posts: 7

Post (Separately) Posted: Tue Oct 22, 2019 12:01    Post subject: Reply with quote

Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду))
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Tue Oct 22, 2019 12:19    Post subject: Reply with quote

Monarch-LFV wrote:
Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду))



Одновременно можно. Посмотрите в ReadMe.txt.
Добавляйте в список rus+eng например. Или вообще любой другой язык.
Возможно, переход на best-версию модели улучшит и качество распознавания. А так, всё ограничено движком - улучшить разве что какими-то фильтрами можно с блочным разбором и словарной поддержкой, но пока руки не доходят.

Добавлено спустя 45 минут:

22.10.19 Новая сборка (некоторые исправления).
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Oct 23, 2019 16:56    Post subject: Reply with quote

23.10.19 Новая сборка тут.
Back to top
View user's profile Send private message
lsched



Joined: 20 Oct 2009
Posts: 63
Location: Россия, Саратов

Post (Separately) Posted: Wed Oct 23, 2019 19:17    Post subject: Reply with quote

alexanderwdark wrote:
По данным самой ОС там стоят все обновления, но ряда библиотек нет
Возможно, я как-то не так спросил. Повторюсь - какие именно библиотеки нужны? Вы же знаете, какие именно ваша программа использует?
Заодно - почему-то другие проги никакой некорректности не замечают, все работают замечательно. Кроме вашей.
Новая версия тоже не завелась, к сожалению.
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Oct 23, 2019 19:44    Post subject: Reply with quote

lsched wrote:
alexanderwdark wrote:
По данным самой ОС там стоят все обновления, но ряда библиотек нет
Возможно, я как-то не так спросил. Повторюсь - какие именно библиотеки нужны? Вы же знаете, какие именно ваша программа использует?
Заодно - почему-то другие проги никакой некорректности не замечают, все работают замечательно. Кроме вашей.
Новая версия тоже не завелась, к сожалению.


Статичная версия всё нужное носит с собой, поэтому вывод один - какие-то экспорты в системных библиотеках отсутствуют, т.е. требуются более поздние версии. И поэтому всё заводится на чистых установках из официальных образов семёрки или десятки. Библиотек прилинковано множество, и ц каждой своя зависимость. Но на то она и статика, что здесь всё, включая рантайм - в одном файле. Для проверки можно использовать fileinfo или dependency walker, но и они не гарантируют абсолютно достоверную информацию.
Back to top
View user's profile Send private message
lsched



Joined: 20 Oct 2009
Posts: 63
Location: Россия, Саратов

Post (Separately) Posted: Wed Oct 23, 2019 19:54    Post subject: Reply with quote

alexanderwdark, вы так и не ответили на один, ни на другой вопрос.
Какие библиотеки нужны и почему с другими программами проблем нет?
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Oct 23, 2019 19:56    Post subject: Reply with quote

Посмотрите через плагин fileinfo, только системные нужны, коробочные. Я ее специалист Майкрософт, не могу вам ответить по различиями между сборками и сервис-паками ОС.
Back to top
View user's profile Send private message
junk



Joined: 27 Jul 2015
Posts: 21

Post (Separately) Posted: Wed Oct 30, 2019 11:50    Post subject: Reply with quote

Упоминаемое Вами ucrt - не в коробочной поставке, а в составе SDK.
Поэтому, чтобы работало везде, - только статическая сборка.
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander All times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group