Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

TextSearch (Content-плагин)
Goto page Previous  1, 2, 3, ... 17, 18, 19  Next
 
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander printer-friendly view
View previous topic :: View next topic  
Author Message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Tue Aug 14, 2007 23:28    Post subject: Reply with quote

Скачал новую версию - большое спасибо Smile

Может быть дать полностью описание настроек плагина - чтобы народ и сам смог подключать новые конверторы?

Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF (его нет вообще);
3) В листер-плагине (PDF)Filter строка выглядит так:
Quote:
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI

На просмотр это работает - если есть текстовый слой.
Думаю, что нужно танцевать от подобных настроек...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Wed Aug 15, 2007 05:21    Post subject: Reply with quote

Quote:
Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF


Я сам настраивать XPDF не буду.
Если кто настроит, присылайте мне.
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Wed Aug 15, 2007 11:28    Post subject: Reply with quote

Тогда давай список команд для плагина...
Что ещё есть, кроме "{In}" "{Out}" ?
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Wed Aug 15, 2007 11:44    Post subject: Reply with quote

Написал в Readme, секция "Configuration file"...
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Wed Aug 15, 2007 14:32    Post subject: Reply with quote

Краткий отчёт о быстром тестировании Smile :

1) PDF:

При использовании XPDF, действительно, нужно скачать на той же странице внизу файлик для кириллицы, там есть образец файла настроек, из него нужно взять весь небольшой текст и скопировать его в файл xpdf (без расширения) - файл настроек (если его нет в директории XPDF - создать).
Однако, в этом варианте текст конвертируется в ту кодировку, что заложена(?) в PDF - если настроить конвертацию KOI-8R, то Windows-1251 не виден.
(PDF)Filter решает эту проблему наличием двух вариантов просмотра и ручным переключением между ними (кстати - он тоже позволяет искать в PDF - но изнутри себя).

GetText c PDF работает не очень правильно - если не может конвертировать, то выдаёт ошибку, что не даёт перейти к следующему файлу и вообще отвлекает (или это мои личные глюки? - попробуйте, плз, у кого есть файл с текстовым слоем - и без...). Может как-то делать отдельный список в логе - что сконвертировалось, а что нет? Чтобы юзер видел результаты работы!
Кстати, здесь, похоже, та же проблема с кодировками - в одной ищет, в другой - нет...
ИМХО, нужно предупреждение для юзера и какой-то переключатель кодировок - либо искать два раза с разными настройками?
Хотя, вроде, ищет... - нужно, ИМХО, дальнейшее тестирование - но, при этом, следует точно знать кодировку исходного PDF...

Grig Software converters (PDF DFM) - вообще непонятно как прикрутить - это DLL? И будет ли он работать?

Adobe PDF IFilter - тоже DLL, как её правильно запустить?

2) DOC, XLS:

GetText - всё отлично работает и ищется! Но я не верифицировал на полноту и адекватность поиска...

AntiWord - установить толком не смог - больно замудрёно всё. Кто разобрался, как его установить и с ним работать - черкните, плз. Должна быть полезная прога!

SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?

3) DjVu:

DjVu IFilter - вообще непонятно как прикрутить - это DLL? Я его установил - и куда он делся? Smile

4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

ИМХО, общая проблема - множественность кодировок русского языка и отказ ТК работать с KOI-8R и с некоторыми Уникодами...

Пока всё Smile
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Stepan_Lameroff



Joined: 20 Feb 2007
Posts: 7

Post (Separately) Posted: Wed Aug 15, 2007 17:06    Post subject: Reply with quote

2 Alextp
По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже Sad ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Evil or Very Mad Но думаю сегодня доделать. Если интересно - могу выложить.

Free Components Package
Использование IFilter в Delphi (может боян, сильно не пинайте)
Quote:

GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here.
Back to top
View user's profile Send private message
Stepan_Lameroff



Joined: 20 Feb 2007
Posts: 7

Post (Separately) Posted: Wed Aug 15, 2007 17:25    Post subject: Reply with quote

И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?
Back to top
View user's profile Send private message
Stepan_Lameroff



Joined: 20 Feb 2007
Posts: 7

Post (Separately) Posted: Wed Aug 15, 2007 17:50    Post subject: Reply with quote

Проблема с PDF решилась добавлением C:\Program Files\Adobe\Acrobat 8.0\Acrobat в PATH.
Все равно непонятно, почему LoadLibrary не хочет загружать AcroIF.dll (передается правильный полный путь).
Извиняюсь за OFFTOP (накипело, однако)
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Wed Aug 15, 2007 18:42    Post subject: Reply with quote

А почему FoxItReader без установленного Adobe Acrobat Reader не умеет выделять и копировать слова из текстового слоя - а после установки Ридера - легко это делает?

Ответ:
потому-что монополисты, вроде Адоба делают всё через ж.. и брешут пользователям...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1517
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Thu Aug 16, 2007 09:15    Post subject: Reply with quote

Ник wrote:
4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

Да ну, зачем?
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст.
Возможно распознать кодировку, если напрямую не прописана.
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 10:19    Post subject: Reply with quote

Моторокер wrote:
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст


Элементарно - сделайте и расскажите здесь...
Или это теория?
Я пока делаю то, что могу сделать реально!
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 10:25    Post subject: Reply with quote

Ник
Потом посмотрю.


Stepan_Lameroff
Quote:
--По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить.


Выложите (желательно пак: настроенный конвертер в папке Conv + TExtSEarch.ini).


Quote:
--И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?


Все равно же IFilter может обрабатывать не все расширения. Почему не перечислить их все?
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 10:29    Post subject: Reply with quote

По поводу FB2:

нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Тогда можно записать:

HTML=Conv\tags.exe "{In}" "{Out}"
XML=HTML
FB2=HTML
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 10:51    Post subject: Reply with quote

Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 10:57    Post subject: Reply with quote

Не знаю. Утилита должна учитывать эти объекты.
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander All times are GMT + 4 Hours
Goto page Previous  1, 2, 3, ... 17, 18, 19  Next
Page 2 of 19

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group