View previous topic :: View next topic |
Author |
Message |
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Tue Aug 14, 2007 23:28 Post subject: |
|
|
Скачал новую версию - большое спасибо
Может быть дать полностью описание настроек плагина - чтобы народ и сам смог подключать новые конверторы?
Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF (его нет вообще);
3) В листер-плагине (PDF)Filter строка выглядит так:
Quote: | Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI |
На просмотр это работает - если есть текстовый слой.
Думаю, что нужно танцевать от подобных настроек... _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Wed Aug 15, 2007 05:21 Post subject: |
|
|
Quote: | Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF |
Я сам настраивать XPDF не буду.
Если кто настроит, присылайте мне. |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Wed Aug 15, 2007 11:28 Post subject: |
|
|
Тогда давай список команд для плагина...
Что ещё есть, кроме "{In}" "{Out}" ? _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Wed Aug 15, 2007 14:32 Post subject: |
|
|
Краткий отчёт о быстром тестировании :
1) PDF:
При использовании XPDF, действительно, нужно скачать на той же странице внизу файлик для кириллицы, там есть образец файла настроек, из него нужно взять весь небольшой текст и скопировать его в файл xpdf (без расширения) - файл настроек (если его нет в директории XPDF - создать).
Однако, в этом варианте текст конвертируется в ту кодировку, что заложена(?) в PDF - если настроить конвертацию KOI-8R, то Windows-1251 не виден.
(PDF)Filter решает эту проблему наличием двух вариантов просмотра и ручным переключением между ними (кстати - он тоже позволяет искать в PDF - но изнутри себя).
GetText c PDF работает не очень правильно - если не может конвертировать, то выдаёт ошибку, что не даёт перейти к следующему файлу и вообще отвлекает (или это мои личные глюки? - попробуйте, плз, у кого есть файл с текстовым слоем - и без...). Может как-то делать отдельный список в логе - что сконвертировалось, а что нет? Чтобы юзер видел результаты работы!
Кстати, здесь, похоже, та же проблема с кодировками - в одной ищет, в другой - нет...
ИМХО, нужно предупреждение для юзера и какой-то переключатель кодировок - либо искать два раза с разными настройками?
Хотя, вроде, ищет... - нужно, ИМХО, дальнейшее тестирование - но, при этом, следует точно знать кодировку исходного PDF...
Grig Software converters (PDF DFM) - вообще непонятно как прикрутить - это DLL? И будет ли он работать?
Adobe PDF IFilter - тоже DLL, как её правильно запустить?
2) DOC, XLS:
GetText - всё отлично работает и ищется! Но я не верифицировал на полноту и адекватность поиска...
AntiWord - установить толком не смог - больно замудрёно всё. Кто разобрался, как его установить и с ним работать - черкните, плз. Должна быть полезная прога!
SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?
3) DjVu:
DjVu IFilter - вообще непонятно как прикрутить - это DLL? Я его установил - и куда он делся?
4) FB2:
Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...
ИМХО, общая проблема - множественность кодировок русского языка и отказ ТК работать с KOI-8R и с некоторыми Уникодами...
Пока всё _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Stepan_Lameroff
Joined: 20 Feb 2007 Posts: 7
|
(Separately) Posted: Wed Aug 15, 2007 17:06 Post subject: |
|
|
2 Alextp
По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить.
Free Components Package
Использование IFilter в Delphi (может боян, сильно не пинайте)
Quote: |
GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here.
|
|
|
Back to top |
|
|
Stepan_Lameroff
Joined: 20 Feb 2007 Posts: 7
|
(Separately) Posted: Wed Aug 15, 2007 17:25 Post subject: |
|
|
И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию? |
|
Back to top |
|
|
Stepan_Lameroff
Joined: 20 Feb 2007 Posts: 7
|
(Separately) Posted: Wed Aug 15, 2007 17:50 Post subject: |
|
|
Проблема с PDF решилась добавлением C:\Program Files\Adobe\Acrobat 8.0\Acrobat в PATH.
Все равно непонятно, почему LoadLibrary не хочет загружать AcroIF.dll (передается правильный полный путь).
Извиняюсь за OFFTOP (накипело, однако) |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Wed Aug 15, 2007 18:42 Post subject: |
|
|
А почему FoxItReader без установленного Adobe Acrobat Reader не умеет выделять и копировать слова из текстового слоя - а после установки Ридера - легко это делает?
Ответ:
потому-что монополисты, вроде Адоба делают всё через ж.. и брешут пользователям... _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Thu Aug 16, 2007 09:15 Post subject: |
|
|
Ник wrote: | 4) FB2:
Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа... |
Да ну, зачем?
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст.
Возможно распознать кодировку, если напрямую не прописана. _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 10:19 Post subject: |
|
|
Моторокер wrote: | Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст |
Элементарно - сделайте и расскажите здесь...
Или это теория?
Я пока делаю то, что могу сделать реально! _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Aug 16, 2007 10:25 Post subject: |
|
|
Ник
Потом посмотрю.
Stepan_Lameroff
Quote: | --По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить. |
Выложите (желательно пак: настроенный конвертер в папке Conv + TExtSEarch.ini).
Quote: | --И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию? |
Все равно же IFilter может обрабатывать не все расширения. Почему не перечислить их все? |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Aug 16, 2007 10:29 Post subject: |
|
|
По поводу FB2:
нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file
Тогда можно записать:
HTML=Conv\tags.exe "{In}" "{Out}"
XML=HTML
FB2=HTML _________________ UniViewer - CudaText - LogViewer
|
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 10:51 Post subject: |
|
|
Alextp wrote: | По поводу FB2: нужна утилита, которая стрипает теги |
Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать? _________________ Xubuntu 20.10 |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
|