TextSearch (Content-плагин)
Select messages from
# through # FAQ
[/[Print]\]
Goto page Previous  1, 2, 3, ... 17, 18, 19  Next  :| |:
Total Commander -> Плагины Total Commander

#16:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 23:28
    —
Скачал новую версию - большое спасибо Smile

Может быть дать полностью описание настроек плагина - чтобы народ и сам смог подключать новые конверторы?

Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF (его нет вообще);
3) В листер-плагине (PDF)Filter строка выглядит так:
Quote:
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI

На просмотр это работает - если есть текстовый слой.
Думаю, что нужно танцевать от подобных настроек...

#17:  Author: Alextp PostPosted: Wed Aug 15, 2007 05:21
    —
Quote:
Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF


Я сам настраивать XPDF не буду.
Если кто настроит, присылайте мне.

#18:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 11:28
    —
Тогда давай список команд для плагина...
Что ещё есть, кроме "{In}" "{Out}" ?

#19:  Author: Alextp PostPosted: Wed Aug 15, 2007 11:44
    —
Написал в Readme, секция "Configuration file"...

#20:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 14:32
    —
Краткий отчёт о быстром тестировании Smile :

1) PDF:

При использовании XPDF, действительно, нужно скачать на той же странице внизу файлик для кириллицы, там есть образец файла настроек, из него нужно взять весь небольшой текст и скопировать его в файл xpdf (без расширения) - файл настроек (если его нет в директории XPDF - создать).
Однако, в этом варианте текст конвертируется в ту кодировку, что заложена(?) в PDF - если настроить конвертацию KOI-8R, то Windows-1251 не виден.
(PDF)Filter решает эту проблему наличием двух вариантов просмотра и ручным переключением между ними (кстати - он тоже позволяет искать в PDF - но изнутри себя).

GetText c PDF работает не очень правильно - если не может конвертировать, то выдаёт ошибку, что не даёт перейти к следующему файлу и вообще отвлекает (или это мои личные глюки? - попробуйте, плз, у кого есть файл с текстовым слоем - и без...). Может как-то делать отдельный список в логе - что сконвертировалось, а что нет? Чтобы юзер видел результаты работы!
Кстати, здесь, похоже, та же проблема с кодировками - в одной ищет, в другой - нет...
ИМХО, нужно предупреждение для юзера и какой-то переключатель кодировок - либо искать два раза с разными настройками?
Хотя, вроде, ищет... - нужно, ИМХО, дальнейшее тестирование - но, при этом, следует точно знать кодировку исходного PDF...

Grig Software converters (PDF DFM) - вообще непонятно как прикрутить - это DLL? И будет ли он работать?

Adobe PDF IFilter - тоже DLL, как её правильно запустить?

2) DOC, XLS:

GetText - всё отлично работает и ищется! Но я не верифицировал на полноту и адекватность поиска...

AntiWord - установить толком не смог - больно замудрёно всё. Кто разобрался, как его установить и с ним работать - черкните, плз. Должна быть полезная прога!

SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?

3) DjVu:

DjVu IFilter - вообще непонятно как прикрутить - это DLL? Я его установил - и куда он делся? Smile

4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

ИМХО, общая проблема - множественность кодировок русского языка и отказ ТК работать с KOI-8R и с некоторыми Уникодами...

Пока всё Smile

#21:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:06
    —
2 Alextp
По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже Sad ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Evil or Very Mad Но думаю сегодня доделать. Если интересно - могу выложить.

Free Components Package
Использование IFilter в Delphi (может боян, сильно не пинайте)
Quote:

GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here.

#22:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:25
    —
И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?

#23:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:50
    —
Проблема с PDF решилась добавлением C:\Program Files\Adobe\Acrobat 8.0\Acrobat в PATH.
Все равно непонятно, почему LoadLibrary не хочет загружать AcroIF.dll (передается правильный полный путь).
Извиняюсь за OFFTOP (накипело, однако)

#24:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 18:42
    —
А почему FoxItReader без установленного Adobe Acrobat Reader не умеет выделять и копировать слова из текстового слоя - а после установки Ридера - легко это делает?

Ответ:
потому-что монополисты, вроде Адоба делают всё через ж.. и брешут пользователям...

#25:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 09:15
    —
Ник wrote:
4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

Да ну, зачем?
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст.
Возможно распознать кодировку, если напрямую не прописана.

#26:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 10:19
    —
Моторокер wrote:
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст


Элементарно - сделайте и расскажите здесь...
Или это теория?
Я пока делаю то, что могу сделать реально!

#27:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:25
    —
Ник
Потом посмотрю.


Stepan_Lameroff
Quote:
--По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить.


Выложите (желательно пак: настроенный конвертер в папке Conv + TExtSEarch.ini).


Quote:
--И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?


Все равно же IFilter может обрабатывать не все расширения. Почему не перечислить их все?

#28:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:29
    —
По поводу FB2:

нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Тогда можно записать:

HTML=Conv\tags.exe "{In}" "{Out}"
XML=HTML
FB2=HTML

#29:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 10:51
    —
Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

#30:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:57
    —
Не знаю. Утилита должна учитывать эти объекты.



Total Commander -> Плагины Total Commander


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Goto page Previous  1, 2, 3, ... 17, 18, 19  Next  :| |:
Page 2 of 19

Powered by phpBB © 2001, 2005 phpBB Group