Quote: |
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI |
Quote: |
Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы; 2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF |
Quote: |
GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here. |
Ник wrote: |
4) FB2:
Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа... |
Моторокер wrote: |
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст |
Quote: |
--По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить. |
Quote: |
--И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию? |
Alextp wrote: |
По поводу FB2: нужна утилита, которая стрипает теги |
output generated using printer-friendly topic mod. All times are GMT + 4 Hours