Total Commander :: TextSearch (Content-плагин)

through

[^/[Print]\]

Total Commander -> Плагины Total Commander

#1: TextSearch (Content-плагин) Author: Alextp,

Posted: Tue Aug 14, 2007 07:16
—
То, что обсуждалось здесь.
На данный момент плагин имеет конвертер только для OpenOffice.org. Ищется конвертер для DOC/XLS.

Скачать

#2: Author: d-view, Location: xUSSR

Posted: Tue Aug 14, 2007 10:52
—
Конвертер PDF->TXT из плагина (PDF)filter 1.05.51
http://wincmd.ru/plugring/filter.html

Конвертеры MS (плагин Office 1.1) перегоняют только в RTF или могут и в TXT?
http://wincmd.ru/plugring/office.html

#3: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Tue Aug 14, 2007 12:43
—

d-view wrote:

Конвертеры MS (плагин Office 1.1) перегоняют только в RTF или могут и в TXT?

Разве проблема перегнать RTF в TXT?

#4: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 13:31
—
Круто!
Алексей, как всегда, на высоте Smile

Сразу ламерский вопрос:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.
Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо, CHM, MHT - и всё это должен быть один и тот же текст.
Я хочу проверить - есть ли мелкие различия между файлами и оставить наиболее полную версию.
Сейчас приходиться всё экспортировать в текст, а потом сравнивать.
Может с этим плагином такое сравнение пойдёт без этапа ручной конвертации?

Спасибо Smile

Last edited by Ник on Tue Aug 14, 2007 13:43; edited 2 times in total

#5: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 13:37
—
Видимо, нужно вот это:

Quote:

Xpdf 3.01 pl2 - утилита командной строки, конвертер PDF-файлов. Файлы настроек для конвертации файлов с русским языком включены. Бесплатно. 1,67 Мб. 08.02.2006. http://www.foolabs.com/xpdf/home.html

и вот это:

Quote:

Converters pack for PDF-Filter plugin 1.1 - несколько фильтров-конвертеров с настройками для плагина (PDF)Filter: DjVu, DMP (Windows minidump), ExeDLL, Inx (Installshield decompiler), Java, PDF, PS. Freeware. 4,2 Мб. Автор: Vladimir L. Olovyannikov. 01.06.2006. http://wincmd.ru/plugring/pdf_filter_converters_pack.html

#6: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 14:07
—
И вот ещё - есть какой-то странный
DjVu IFilter
http://www.lizardtech.com/download/dl_download.php?detail=doc_ifilter&platform=win
но я так и не смог с ним разобраться и понять - зачем он нужен...
Вроде бы, это то самое и есть.

Консольный DjVuDecode я тоже не смог заставить работать - у кого получается - выложите MD5, плз, - может у меня не та версия...

#7: Author: Stepan_Lameroff,

Posted: Tue Aug 14, 2007 14:40
—
Прикрутил к Вашему плагину извлечение текста при помощи IFilter.
Работает замечательно, большое спасибо.
SRC: QA Извлечение текста документов (IFilter)

#8: Author: Stepan_Lameroff,

Posted: Tue Aug 14, 2007 17:06
—
Если не устраивает IFilter, то есть еще такая приблуда:
GetText

Quote:

GetText is a free file-to-text conversion command-line utility which extracts textual contents from files of multiple formats.
To perform text conversion, GetText uses Text Filters (read more about Text Filters). Kryloff Technologies, Inc. supplies this utility with the following filters:
* Htm2Txt.dll which converts HTM and HTML files into TXT files;
* Rtf2Txt.dll for RTF convertion (Rich Text Format files);
* Pdf2Txt.dll for PDF convertion (Adobe Portable Document Format files);
* Wpd2Txt.dll for WPD convertion (Word Perfect files).
* Hlp2Txt.dll which converts MS Help (.HLP) files into TXT files;
* DocDll.dll for DOC convertion (MS Word files); the filter is designed to function under MS Windows 2000, XP, 2003, Vista and later;
* XLSDll.dll for XLS convertion (MS Excel files); functions under MS Windows 2000, XP, 2003, Vista and later;
* PPTDll.dll for PPT convertion (MS Power Point files); functions under MS Windows 2000, XP, 2003, Vista and later;
* Uncd2Txt.dll to extract plain text from UNICODE files.
* XMLDll.dll to extract plain text from or convert XML file contents into an appropriate code page.

Kryloff Technologies

#9: Author: Alextp,

Posted: Tue Aug 14, 2007 17:54
—

Quote:

--Конвертер PDF->TXT из плагина (PDF)filter 1.05.51

Я смотрел. Это XPDF, он работает. Я послал запрос автору, можно ли включить XPDF в поставку моего плагина.

Quote:

-Конвертеры MS (плагин Office 1.1) перегоняют только в RTF

А там самих конвертеров нет.

Quote:

--Сразу ламерский вопрос:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.
Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо

IMHO нельзя. У Тотала нет таких средств.
Тут где-то тема была

Quote:

--Converters pack for PDF-Filter plugin 1.1 - несколько фильтров-конвертеров с настройками для плагина (PDF)Filter: DjVu, DMP (Windows minidump), ExeDLL

Не качается..

Quote:

--Если не устраивает IFilter, то есть еще такая приблуда:
GetText

То что нужно.

#10: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 18:20
—

Alextp wrote:

там самих конвертеров нет

Выложил сюда
http://webfile.ru/1497074
пароль 123, там 5 Мб, но это от МСО - проблемы лицензии.
Хотя, ИМХО, если у кого стоит МСО - он использовать имеет право.

Alextp wrote:

Quote:

Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов. Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо

IMHO нельзя. У Тотала нет таких средств.
Тут где-то тема была

Где?!?!

Alextp wrote:

Quote:

Converters pack for PDF-Filter plugin 1.1

Не качается..

Выложил
http://webfile.ru/1497077
пароль 123, там почти 5 Мб, но там бОльшую часть занимает xpdf и DjVudecode (они есть отдельно).

#11: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 18:22
—

Stepan_Lameroff wrote:

Если не устраивает IFilter, то есть еще такая приблуда: GetText

Как я понял, он использует KT Text Filters (библиотеки) http://www.kryltech.com/filters.htm - а они платные...

#12: Author: Alextp,

Posted: Tue Aug 14, 2007 18:40
—
Ник

http://forum.wincmd.ru/viewtopic.php?t=9314&highlight=

Quote:

Как я понял, он использует KT Text Filters (библиотеки) - а они платные...

Жалко. Там для DOC конвертер.

Хорошо бы сделать пак: все конвертеры + TextSEarch.Sample.ini
чтобы распаковать его в каталог с плагином и работать.

#13: Author: Lev,

Posted: Tue Aug 14, 2007 18:49
—

Quote:

Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.

Посмотрите в сторону CompareIt - шароварный компаратор, но автор не сильно протестует против его использования после истечения срока действия. Бета 4-й версии автоматом конвертирует разные файлы в текст и сравнивает. Конвертеры разных форматов в текст с поддержкой коммандной строки можно найти на http://www.grigsoft.com/wc3addin.htm . Не думаю, что их можно свободно распространять с TextSearch plugin, но для личных целей...
Часть конвертеров встроена в прогу и отдельно не лежит.

PS кстати, теперь можно попытаться реализовать уже обсуждавшееся сравнение по пользовательским колонкам для различных файлов. Нужен только генератор текстиков с результатами.

#14: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 19:05
—

Alextp wrote:

Quote:

Как я понял, он использует KT Text Filters (библиотеки) - а они платные...

Жалко. Там для DOC конвертер.

Я попробовал - всё работает на ура Shocked

Посмотри лицензию - вроде можно как-то с автором договориться.
Он явно наш человек Smile

Я в конкретных правовых ситуациях софта не очень секу - только теория Smile

За ссылки большое спасибо Smile

#15: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 19:15
—

Lev wrote:

Посмотрите в сторону CompareIt - шароварный компаратор...

Хотелось бы остаться в рамках ТК. Для частных целей, ИМХО, достаточно.

Если начну пользоваться профессионально, придёться покупать CompareIt..

#16: Author: Ник, Location: Москва

Posted: Tue Aug 14, 2007 23:28
—
Скачал новую версию - большое спасибо Smile

Может быть дать полностью описание настроек плагина - чтобы народ и сам смог подключать новые конверторы?

Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF (его нет вообще);
3) В листер-плагине (PDF)Filter строка выглядит так:

Quote:

Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI

На просмотр это работает - если есть текстовый слой.
Думаю, что нужно танцевать от подобных настроек...

#17: Author: Alextp,

Posted: Wed Aug 15, 2007 05:21
—

Quote:

Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF

Я сам настраивать XPDF не буду.
Если кто настроит, присылайте мне.

#18: Author: Ник, Location: Москва

Posted: Wed Aug 15, 2007 11:28
—
Тогда давай список команд для плагина...
Что ещё есть, кроме "{In}" "{Out}" ?

#19: Author: Alextp,

Posted: Wed Aug 15, 2007 11:44
—
Написал в Readme, секция "Configuration file"...

#20: Author: Ник, Location: Москва

Posted: Wed Aug 15, 2007 14:32
—
Краткий отчёт о быстром тестировании Smile

:

1) PDF:

При использовании XPDF, действительно, нужно скачать на той же странице внизу файлик для кириллицы, там есть образец файла настроек, из него нужно взять весь небольшой текст и скопировать его в файл xpdf (без расширения) - файл настроек (если его нет в директории XPDF - создать).
Однако, в этом варианте текст конвертируется в ту кодировку, что заложена(?) в PDF - если настроить конвертацию KOI-8R, то Windows-1251 не виден.
(PDF)Filter решает эту проблему наличием двух вариантов просмотра и ручным переключением между ними (кстати - он тоже позволяет искать в PDF - но изнутри себя).

GetText c PDF работает не очень правильно - если не может конвертировать, то выдаёт ошибку, что не даёт перейти к следующему файлу и вообще отвлекает (или это мои личные глюки? - попробуйте, плз, у кого есть файл с текстовым слоем - и без...). Может как-то делать отдельный список в логе - что сконвертировалось, а что нет? Чтобы юзер видел результаты работы!
Кстати, здесь, похоже, та же проблема с кодировками - в одной ищет, в другой - нет...
ИМХО, нужно предупреждение для юзера и какой-то переключатель кодировок - либо искать два раза с разными настройками?
Хотя, вроде, ищет... - нужно, ИМХО, дальнейшее тестирование - но, при этом, следует точно знать кодировку исходного PDF...

Grig Software converters (PDF DFM) - вообще непонятно как прикрутить - это DLL? И будет ли он работать?

Adobe PDF IFilter - тоже DLL, как её правильно запустить?

2) DOC, XLS:

GetText - всё отлично работает и ищется! Но я не верифицировал на полноту и адекватность поиска...

AntiWord - установить толком не смог - больно замудрёно всё. Кто разобрался, как его установить и с ним работать - черкните, плз. Должна быть полезная прога!

SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?

3) DjVu:

DjVu IFilter - вообще непонятно как прикрутить - это DLL? Я его установил - и куда он делся? Smile

4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

ИМХО, общая проблема - множественность кодировок русского языка и отказ ТК работать с KOI-8R и с некоторыми Уникодами...

Пока всё Smile

#21: Author: Stepan_Lameroff,

Posted: Wed Aug 15, 2007 17:06
—
2 Alextp
По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже Sad

). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Evil or Very Mad

Но думаю сегодня доделать. Если интересно - могу выложить.

Free Components Package
Использование IFilter в Delphi (может боян, сильно не пинайте)

Quote:

GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here.

#22: Author: Stepan_Lameroff,

Posted: Wed Aug 15, 2007 17:25
—
И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?

#23: Author: Stepan_Lameroff,

Posted: Wed Aug 15, 2007 17:50
—
Проблема с PDF решилась добавлением C:\Program Files\Adobe\Acrobat 8.0\Acrobat в PATH.
Все равно непонятно, почему LoadLibrary не хочет загружать AcroIF.dll (передается правильный полный путь).
Извиняюсь за OFFTOP (накипело, однако)

#24: Author: Ник, Location: Москва

Posted: Wed Aug 15, 2007 18:42
—
А почему FoxItReader без установленного Adobe Acrobat Reader не умеет выделять и копировать слова из текстового слоя - а после установки Ридера - легко это делает?

Ответ:
потому-что монополисты, вроде Адоба делают всё через ж.. и брешут пользователям...

#25: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Thu Aug 16, 2007 09:15
—

Ник wrote:

Да ну, зачем?
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст.
Возможно распознать кодировку, если напрямую не прописана.

#26: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 10:19
—

Моторокер wrote:

Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст

Элементарно - сделайте и расскажите здесь...
Или это теория?
Я пока делаю то, что могу сделать реально!

#27: Author: Alextp,

Posted: Thu Aug 16, 2007 10:25
—
Ник
Потом посмотрю.

Stepan_Lameroff

Quote:

--По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить.

Выложите (желательно пак: настроенный конвертер в папке Conv + TExtSEarch.ini).

Quote:

--И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?

Все равно же IFilter может обрабатывать не все расширения. Почему не перечислить их все?

#28: Author: Alextp,

Posted: Thu Aug 16, 2007 10:29
—
По поводу FB2:

нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Тогда можно записать:

HTML=Conv\tags.exe "{In}" "{Out}"
XML=HTML
FB2=HTML

#29: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 10:51
—

Alextp wrote:

По поводу FB2: нужна утилита, которая стрипает теги

Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

#30: Author: Alextp,

Posted: Thu Aug 16, 2007 10:57
—
Не знаю. Утилита должна учитывать эти объекты.

#31: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 11:32
—
Вот я и веду переговоры с автором FB2 to Any Smile

#32: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Thu Aug 16, 2007 12:54
—

Ник wrote:

Alextp wrote:

По поводу FB2: нужна утилита, которая стрипает теги

Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

Элементарно – всё что между <binary и </binary>

Alextp wrote:

нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Ща попробую, есть эфбэшки.

#33: Author: Alextp,

Posted: Thu Aug 16, 2007 13:17
—
Моторокер
Надо чтобы текст разделялся пробелами после стрипанья тегов.

Last edited by Alextp on Thu Aug 16, 2007 14:18; edited 4 times in total

#34: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 13:18
—
Я кручу FB2 to Any.

Скрипт fb2txt_interactive.vbs работает отлично.
Скрипт fb2txt_commandline.vbs даёт ошибку на 90 строке 1 позиция - так и не понял - ошибка в скрипте или в документе - я не особо волоку в скриптах.

Посмотрите кто-нибудь, плз, - инструмент уже готовый, его, ИМХО, просто надо настроить и научиться им пользоваться.

Файлы FB2 для проверки могу прислать...

#35: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Thu Aug 16, 2007 14:04
—

Alextp wrote:

Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов.

Что это значит?
Просто тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку:
xml2txt.rar (22 Kb)
Параметры – входной [и выходной] файл

#36: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 14:48
—

Моторокер wrote:

Alextp wrote:

Хорошо. Надо только чтобы текст разделялся пробелами после стрипанья тегов.

Что это значит?

Значит - чтобы слова не слипались после удаления тэгов... Smile

#37: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 14:50
—

Моторокер wrote:

тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку

Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

#38: Author: Alextp,

Posted: Thu Aug 16, 2007 14:57
—

Quote:

Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... Smile

Именно. Сейчас слипаются.

#39: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 15:07
—
И потом - в FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 - ТК вроде как не работает нормально и полноценно с Уникодом (особенно без ручного выставления кодировки при поиске и просмотре).

Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...

Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?

Иначе легче искать AVSearch, который все эти кодировки поддерживает + RTF видит нормально...

#40: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Thu Aug 16, 2007 15:21
—

Ник wrote:

Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

Работает хоть быстрее? Smile

Я же говорю, решение в лоб – чтобы показать, что это возможно и без других программ. По идее файл надо грузить/резать
частями.
Ещё и кодировку текста надо определять (FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 ).
И тэги символов (&) заменять на сами символы (&).

Ник wrote:

Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.

Поддерживаю.

Ник wrote:

для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой

А как он узнает, что кодировка та?
А если узнает, зачем выдывать ошибки? Сделать, чтобы кодировка была та, конвертировать.

#41: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 15:31
—

Моторокер wrote:

Работает хоть быстрее?

Медленнее намного...
И мусор остаётся (что естественно).

Лучше посмотрите, плз, скрипт от FB2 to Any - там, ИМХО, совсем легко - а прога уже отлаженная...

Алексей!
Idea

Думаю данный плагин + GetText решают, наконец, проблему поиска в RTF!
Спасибо большое! Very Happy

Конечно, по удобству интерфейса в этой операции ТК не дотягивает до AVSearch - но важна принципиальная способность искать...

#42: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 15:59
—

Моторокер wrote:

как он узнает, что кодировка та?

Советую скачать и внимательно прочитать описание View64 (кстати - был бы идеальный конвертор для данного плагина - но автор куда-то делся...):

Quote:

файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8

#43: Author: Stepan_Lameroff,

Posted: Thu Aug 16, 2007 16:11
—
GetTextIFilter ALPHA, Version 0.0.1.24023
bin+src

Для работы требуется .Net Framework 2.0+
Известные проблемы:
Не работает с Adobe 8+ AcroIF.dll (решается путем добавления %ProgramFiles%\Adobe\Acrobat 8.0\Acrobat\ в PATH)
C Foxit PDF IFilter работает нормально.

Параметры командной строки:
/(-)s <полный путь к исходному файлу> ({In})
/(-)d <путь к файлу с извлеченным текстом> ({Out})
[/(-)l] запись ошибок и исключений в лог (error.txt в каталоге программы)
[/(-)? | /(-)h | --help ] думаю понятно Smile

Посмотреть список присутствующих в системе фильтров можно при помощи
IFilter Explorer

Много качественных фильтров
IFilterShop

Пинки, пожелания и предложения слать (посылать можно тоже Smile

) мой_ник at mail.ru

#44: Author: Моторокер, Location: г. Пермь (читается Перьмь)

Posted: Thu Aug 16, 2007 16:31
—

Ник wrote:

описание View64

Я про то же.
Только если уже узнали, что кодировка «неверная», то об этом говорить не надо, а надо привести к «верной».

#45: Author: Alextp,

Posted: Thu Aug 16, 2007 18:22
—
Ник

Quote:

--SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?

Я добавлю ключ {UTF8} для автоматической конвертации UTF-8 -> Text.
Также {OEM}. Еще какие-нибудь нужно? {RTF}? {UTF16}?

#46: Author: Alextp,

Posted: Thu Aug 16, 2007 18:34
—
Ник

Quote:

Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...

А что плагин должен для этого делать?

Quote:

Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?

Можно. Что писать в лог-файл? Smile

Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?

Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...

#47: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 18:41
—

Alextp wrote:

Еще какие-нибудь нужно? {RTF}? {UTF16}?

Что такое в данном контексте RTF, мне не ясно - а вот последнее, думаю, пригодится.
Нужно - ИМХО - обязательно ASCII (866) и KOI-8R.

#48: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 18:45
—

Alextp wrote:

Что писать в лог-файл? Smile

Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?

Ну типа какая кодировка была - т.е. какую плагин "выявил" (если это реально), а юзер уже сравнит с тем, что есть на самом деле...

Alextp wrote:

Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...

Вот это не очень ясно - плагин сам сконвертирует?
А как тогда, если кодировка внутри RTF неправильно задана? Или это пусть юзер сам приводит в чувство свои файлы (в RTF часто такой бред внутри с форматами и кодировками)?

#49: Author: Ник, Location: Москва

Posted: Thu Aug 16, 2007 18:47
—

Stepan_Lameroff wrote:

GetTextIFilter...
...
Для работы требуется .Net Framework 2.0+

Это, ИМХО, не наш метод Smile

#50: Author: Alextp,

Posted: Thu Aug 16, 2007 18:49
—

Quote:

OK. Будет {UTF8}, {OEM} и {KOI8R}.

#51: Author: Alextp,

Posted: Thu Aug 16, 2007 19:04
—
Ник

Quote:

Нет, он не выявляет ничего. Хотя можно сделать {Auto} для выявления (UTF8, UTF16).

Quote:

Вот это не очень ясно - плагин сам сконвертирует?

Да, если укажешь {...} в комстроке.

Quote:

А как тогда, если кодировка внутри RTF неправильно задана?

Не знаю.

#52: Author: Alextp,

Posted: Thu Aug 16, 2007 22:36
—
Плагин обновлен. Ник?

#53: Author: Stepan_Lameroff,

Posted: Fri Aug 17, 2007 00:07
—
FiltDump от Microsoft (лежала приблуда в Platform SDK Smile

)
Передается имя файла, результат выводит в stdout.
Работает кривовато (имеется в виду качество извлечения текста), но быстро.

#54: Author: Ник, Location: Москва

Posted: Fri Aug 17, 2007 12:31
—
Извини, что-то извещение об ответе на мыло не пришло...

Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.

ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов" и предложить залезть в лог, чтобы посмотреть их список.

ОФФ:
Совет - все конверторы в текст, которые Вы используете с данным плагином - загоните также в настройки (PDF)filter http://wincmd.ru/plugring/filter.html - он работает по тому же принципу, но листер-плагин.
Тогда Вы, найдя нужные файлы, сделаете список на панели и сразу по F3 или Ctrl-Q сможете все эти файлы посмотреть практически в том виде, в каком их увидел TextSearch - и сможете найти конкретное слово в конкретном файле (в т.ч. в (PDF)filter встроен поиск с последовательной конвертацией страниц для тех конверторов, что не конвертируют больше 1 страницы за раз).
В общем, комбинируйте и экспериментируйте... Smile

НЕ-ОФФ.

Алексей - огромное спасибо! Smile

#55: Author: Alextp,

Posted: Fri Aug 17, 2007 12:41
—

Quote:

Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Там могут быть отличия. ты сам говорил, в RTF быйда с кодировками

Quote:

Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.

И предлагаешь сделать опцию? для отключения messagebox? Можно.

Quote:

ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов"

Это не получится. "В самом конце"- плагин об этом не знает..

#56: Author: Ник, Location: Москва

Posted: Fri Aug 17, 2007 12:59
—
Тогда, видимо, нужно делать опцию отключения мессаджа в настройках - и тут же написать - "Включите сразу же лог - иначе ничего не поймёте"...

Сейчас найду разные RTF и покручу...

#57: Author: Ник, Location: Москва

Posted: Fri Aug 17, 2007 13:40
—
Проверка RTF:

Взято 41 файл RTF, 25 штук ANSI 1251, остальные другие (разные). Общий объём 65 Мб. Файлы по типу совершенно разные.

Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не", в одном - полная задница с кодировкой (хотя View64 можно настроить так, чтобы он его видел).

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...

Образцы файлов могу сжать и прислать - или выложить куда-нибудь.

#58: Author: Ник, Location: Москва

Posted: Fri Aug 17, 2007 15:07
—

Stepan_Lameroff wrote:

FiltDump...

Может это и "приблуда", но не утилита Wink

Она берёт список фильтров, установленных в системе, сама только их использует для конвертации.
Может быть иногда полезной.

#59: Author: Alextp,

Posted: Fri Aug 17, 2007 16:17
—
Ник

Quote:

Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не"

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...

Так потому что "мой" rtf конв. понимает только ANSI RTF. Поэтому и нашлось 25 файлов ANSI + 1 случайный не в той кодировке в котором тоже есть слово "не". Так что все ОК. Вот если научиться распознавать кодировку RTF..

SL
Утилиту не включаю в списвко потому что нет ридми, нет настроенного конфига TextSEarch.ini

#60: Author: Ник, Location: Москва

Posted: Fri Aug 17, 2007 16:37
—

Alextp wrote:

Вот если научиться распознавать кодировку RTF

Она же там явно вроде бы прописана- есть же спецификация формата.
Правда, может быть текст из кусков на нескольких языках - вроде бы перед каждым куском указывается его кодировка.

Другое дело, что нужно различать "классический RTF" и "RTF от MSO" - вот это действительно проблема...

Единственная радость - как я понимаю, в варианте от МСО русский текст содержится в явном виде - конвертация не ухудшает поисковой ситуации Smile

Правда, ещё есть проблемы Уникодного RTF и Ансишного...
Но View64 распознает и показывает их правильно - может попытаться найти его автора и попросить исходники?

#61: Author: funduk, Location: Санкт-Петербург

Posted: Sat Aug 18, 2007 18:39
—

Stepan_Lameroff wrote:

FiltDump от Microsoft (лежала приблуда в Platform SDK Smile

Быстро до офигения! Однако, я так понял, что в документах, содержащих гиперссылки, оные в текст не переводятся, а просто игнорируются. А есть такие утилиты, которые не игнорируют их?

#62: Author: Alextp,

Posted: Mon Aug 20, 2007 03:22
—
Плагин обновлен:
добавлены кодировки UTF16, UTF16LE, UTF16BE.

#63: Author: Alextp,

Posted: Mon Aug 20, 2007 03:26
—

funduk wrote:

я так понял, что в документах, содержащих гиперссылки, оные в текст не переводятся, а просто игнорируются. А есть такие утилиты, которые не игнорируют их?

В ридми в секции Converters 4 конв. для DOC / 2 для HTML (надо смотреть).

#64: Author: Ник, Location: Москва

Posted: Fri Aug 24, 2007 19:52
—
Всё-таки остаётся проблема поиска в DjVu.
Выяснилось, что в них можно добавлять текстовый слой Smile

- WinDjVu этот слой видит - я у себя несколько таких файлов нашёл.

На разных форумах предлагается для поиска использовать dtSearch + плагин от Лизарда - но эта утилита сугубо платная...

Ни у кого нет никаких идей по поиску в DjVu файлах? Формат-то вроде открытый...

#65: Author: Athari, Location: Казань

Posted: Fri Aug 24, 2007 22:10
—

Quote:

добавлены кодировки UTF16, UTF16LE, UTF16BE

Не думаешь добавить полноценную поддержку всех кодировок, которые держит Винда?

#66: Author: Alextp,

Posted: Fri Aug 24, 2007 22:14
—

Athari wrote:

Не думаешь добавить полноценную поддержку всех кодировок, которые держит Винда?

Нет пока.
С кодировками я буду возиться в Universal Viewer. вот где можно развернуться. Smile

#67: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 02:15
—
По поводу поиска в FB2:

Владимир Оловянников, автор листер-плагина (PDF)Filter любезно подсказал мне, как правильно запустить скрипт от FB2 to Any в командной строке.
Указанная им команда отлично работает для его листер-плагина, но перенести на данный плагин я её не смог - конверсия не производится.

Что может быть неверно в данной команде:

Quote:

FB2=wscript.exe /B /NoLogo "c:\Program Files\FB2 to Any\fb2txt_commandline.vbs" "{In}" "{Out}" {CP:UTF8}

Может, плагин не понимает опций функции или имени скрипта как аргумента?

#68: Author: Alextp,

Posted: Sat Aug 25, 2007 02:22
—
Могу обновить плагин, чтобы при ошибке запуска конв. он писал в лог командную строку.
Тогда просто будешь видетьЮ что там запускается.

#69: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 02:57
—
Да, так, наверное, было бы легче его отладить...

#70: Author: Alextp,

Posted: Sat Aug 25, 2007 03:01
—
Обновил до 1.3.6
Если не поможет, присылай архив: скрипт + FB2...

#71: Author: Alextp,

Posted: Sat Aug 25, 2007 03:15
—

Ник wrote:

И вот ещё - есть какой-то странный
DjVu IFilter
http://www.lizardtech.com/download/dl_download.php?detail=doc_ifilter&platform=win
но я так и не смог с ним разобраться и понять - зачем он нужен...

А этот использовать через GetTextIFilter - ссылка в readme..

Last edited by Alextp on Sat Aug 25, 2007 03:37; edited 1 time in total

#72: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 03:29
—
Спасибо Smile

Не работает всё равно - по-моему, ошибка в самом скрипте и (или) стилевом файле:

Quote:

Windows Script Host

Script: c:\Program Files\FB2 to Any\fb2txt_commandline.vbs
Line: 90
Char: 1
Error: The stylesheet does not contain a document element. The
stylesheet may be empty, or it may not be a well-formed XML document
Code: 80004005
Source: FB2_to_TXT.FB2TXTExport

Конвертация в RTF работает отлично, но двойная конвертация - изврат, ИМХО.

Подождём его ответа. Не хотелось бы самому копаться в стилевом файле...

#73: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 03:40
—

Alextp wrote:

использовать через GetTextIFilter

Спасибо, но он на .NET - я такой софт принципиально не использую - после того, как выкачал пачку обновлений безопасности для него чуть ли не больше его самого...

Пусть Билл Г. свой отстой пользует... Smile

А фильтры к нему - платные - кроме DjVu.

Может, автор перепишет на чём другом - было бы круто...?

#74: Author: Alextp,

Posted: Sat Aug 25, 2007 03:43
—
Может ему каталог(текущий) надо задавать?

#75: Author: Alextp,

Posted: Sat Aug 25, 2007 03:46
—

Ник wrote:

))

Тут кто-то постил другой IFilter конвертер.

#76: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 03:51
—

Alextp wrote:

Может ему каталог (текущий) надо задавать?

ХЗ. А почему тогда конвертор в RTF отлично работает?

#77: Author: Alextp,

Posted: Sat Aug 25, 2007 03:55
—
Может конв. в RTF не нужен текущий путь.

#78: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 04:22
—
Переписка с автором плагина (PDF)Filter:
у него скрипты работают.

Попробуй, плз, у себя - у меня Винда 2000 - может версия библиотек не та?

Quote:

FB2Any 0.2 - конвертор из формата FB2 в текст, гипертекст, RTF и прочее. Бесплатно. Автор: Дмитрий Грибов. 2,9 Мб. 19.04.2006. http://www.gribuser.ru/xml/fictionbook/

#79: Author: Alextp,

Posted: Sat Aug 25, 2007 04:40
—
Поставил. У меня конвертирует нормально, и WDX Guide показывает,
что все отработало и сконвертировалось в нормальный текст. Только я убрал из твоей комстроки {CP:UTF8},
это там зачем?

#80: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 12:48
—
У меня показывает ошибку - может какие библиотеки нужны или Винды старые - у меня Windows 2000 SP4 ?

У меня следующие файлы есть в System32:

Quote:

MsXML.dll Microsoft Data Access Components 8.0.6730.0
MSXML3.dll Microsoft(R) MSXML 3.0 SP 7 8.70.1113.0
MSXML3A.dll Microsoft Data Access Components 8.20.8730.1
MSXML3R.dll Microsoft Data Access Components 8.20.8730.1
MSXML4.dll Microsoft(R) MSXML 4.0 SP 2 4.20.9841.0
MSXML4R.dll Microsoft(R) MSXML 4.0 SP1 4.10.9404.0
MSXMLR.dll Microsoft Data Access Components 8.0.6730.0

Никакого MSXML2.dll нет, а в скрипте Грибов пишет:

Quote:

Msxml2.FreeThreadedDOMDocument.4.0

Может нужна ещё какая библиотека?

Кстати, WDX Guide - это твой? А какая версия последняя и от какого числа?

#81: Author: Alextp,

Posted: Sat Aug 25, 2007 13:19
—

Quote:

У меня показывает ошибку - может какие библиотеки нужны или Винды старые - у меня Windows 2000 SP4 ?
У меня следующие файлы есть в System32:

Это уже не связано с моим плагином. Если не хватает библиотек,
то и из комстроки конвертер у тебя запускаться не будет.
Наверное писать надо Грибову.

Quote:

Кстати, WDX Guide - это твой?

Мой. Версия здесь...

#82: Author: Ник, Location: Москва

Posted: Sat Aug 25, 2007 13:35
—

Alextp wrote:

Если не хватает библиотек, то и из комстроки конвертер у тебя запускаться не будет.
Наверное писать надо Грибову.

У него от величия корона в потолок упёрлась...

Напиши, плз, есть ли у тебя в системе MSXML 5.* и - если не трудно - какие у тебя версии всех этих MSXML от 1 до 6 (можно в личку).

#83: Author: Ник, Location: Москва

Posted: Tue Aug 28, 2007 22:24
—
Народ, в последней версии ReadMe - ссылка на утилиту и строку настройки для поиска в DjVu файлах (у которых есть текстовый слой) - протестируйте, плз, у себя - нужно посмотреть как работает на разных компах и системах...

#84: Author: Alextp,

Posted: Thu Aug 30, 2007 12:28
—
На гислере предложили искать в TC сразу в неск. кодировках. Еще в 2004 г. Что если сделать это здесь, в TS?
Кому-нибудь поиск в неск. кодировках нужен?

Задаем в строке {ANSI} {OEM} {UTF8} = ищутся сразу 3 кодировки.

#85: Author: Lev,

Posted: Thu Aug 30, 2007 15:29
—
Еще тогда кодировку {All} = ищутся все известные плагину кодировки

#86: Author: Ник, Location: Москва

Posted: Thu Aug 30, 2007 17:20
—
ИМХО, это нужно именно самому ТК - галки выбора кодировки ставить.

Для плагина, как мне кажется, это нужно только, если файлы могут быть в разных кодировках - и если ТК не поддерживает мультикодировочный поиск в этих типах файлов.

Например: TXT, HTML, MSG (EML). Насколько я понимаю, кодировки DOC, PDF, DJVU, FB2 - жёстко заданы.
Непонятно RTF ?

Кстати, а куда делась кодировка KOI8-R (у меня часто письма хранятся именно в ней)?

#87: Author: Alextp,

Posted: Thu Aug 30, 2007 17:35
—

Lev wrote:

Еще тогда кодировку {All} = ищутся все известные плагину кодировки

Согласен. Хотя, не знаю. Это сделает поиск ОЧЕНЬ медленным. У меня же там всякие KOI8R, KOI8U, ISO. ISO вообще непонятно что. Я ее случайно нашел.

#88: Author: Alextp,

Posted: Thu Aug 30, 2007 17:40
—

Ник wrote:

ИМХО, это нужно именно самому ТК - галки выбора кодировки ставить.

Да. Согласен. Самому ТК нужно.
Но пока можно реа-ть плагином.

Quote:

Для плагина, как мне кажется, это нужно только, если файлы могут быть в разных кодировках - и если ТК не поддерживает мультикодировочный поиск в этих типах файлов.

А так и есть. Он же не поддерживает.
Значит нужен.

поясню, как будет делдаться поиск: плагин конвертит текст, пишет его в разных кодировках в строки. Теперь если есть неск. кодировок, он слепляет строки через #13#10. И ТК находит в одной из код-к.
Или не находит.

Quote:

Кстати, а куда делась кодировка KOI8-R (у меня часто письма хранятся именно в ней)?

Никуда. Она в ридми. Smile

Code:

if ParamCP = 'KOI8R' then
FText:= SConvertToANSI(FText, cpKOI8RToANSI)
else
if ParamCP = 'KOI8U' then
FText:= SConvertToANSI(FText, cpKOI8UToANSI)
else

#89: Author: Ник, Location: Москва

Posted: Thu Aug 30, 2007 20:10
—
Спасибо, понял... Smile

Alextp wrote:

как будет делаться поиск: плагин конвертит текст, пишет его в разных кодировках в строки. Теперь если есть неск. кодировок, он слепляет строки через #13#10. И ТК находит в одной из код-к.
Или не находит.

То есть, поиск замедлится в несколько раз?

Нельзя ли как-то автоопределение кодировок поставить - или предупреждать в логе юзера, что не все файлы в "стандартной" кодировке?

Или это ещё больший гемор?

ЗЫ: ISO это сила! Smile

А ведь для кириллицы есть ещё пара десятков кодировок разных... Wink

И транслит! Smile

)

#90: Author: Alextp,

Posted: Fri Aug 31, 2007 09:14
—

Quote:

То есть, поиск замедлится в несколько раз?

Да, хотя поиск только текста в буфере замедлится.
А реально, поиск состоит еще и из чтения файла с диска, конвертации плагином текста и т.п. Т.е. реально все замедлится не в N раз. А где-то процентов на 10-50%. IMHO.

Quote:

Нельзя ли как-то автоопределение кодировок поставить

Определение кодировок больное место.
Я его еще в Universal Viewer не реализовал. Хотя планирую.

Quote:

ISO это сила! Smile

Как организация по стандартизации. Smile

Quote:

А ведь для кириллицы есть ещё пара десятков кодировок разных... Wink

Ты их используешь? Smile

#91: Author: Ник, Location: Москва

Posted: Fri Aug 31, 2007 10:16
—

Alextp wrote:

Ты их используешь?

Конечно нет - но здесь другая проблема - у юзера может быть масса файлов в соврешенно разных кодировках на диске, а он об этом толком знать не будет (особенно, если он не особо дружит с компом).

ИМХО, нужно кратко описать проблему кодировок при поиске и дать чёткий алгоритм предварительной обработки файлов:

1) Возьмите такой-то контентный плагин и сгруппируйте все Ваши файлы TXT, HTML, MSG, EML (ещё какие?) по кодировкам.
2) Составьте себе список имеющихся у Вас кодировок и попробуйте уменьшить этот список через переконвертацию файлов (ссылки на редакторы или способы).
3) Если все эти кодировки Вам нужны, задайте правильно запрос на поиск (настройки контентно-поискового плагина), чтобы не потерять текст в "нестандартной" кодировке - здесь десяток примеров, готовых для переноса в ИНИ.

Это гемор - но совесть будет спокойна Smile

#92: Author: Alextp,

Posted: Fri Aug 31, 2007 10:35
—
Думаю, это лишнее для моего ридми.
Алгоритм работы описывать. Я опишу, как делать многокодировочный поиск - и все..

Чтобы делать поиск в файлах с любым расшириением, будет "расширение" "*"...

#93: Author: Ник, Location: Москва

Posted: Fri Aug 31, 2007 10:52
—
Хозяин - барин Smile

#94: Author: Alextp,

Posted: Sun Sep 02, 2007 12:06
—
Плагин обновлен: добавлен поиск по нескольким код. страницам.

Гислер плагин похвалил!:
http://www.ghisler.ch/board/viewtopic.php?p=132291#132291

#95: Author: Ник, Location: Москва

Posted: Sun Sep 02, 2007 12:38
—
Поздравляю Smile

#96: Author: Alextp,

Posted: Sun Sep 02, 2007 12:54
—
Спасибо. Я уже 4-5 лицензий на TC мог получить. =)

#97: Author: Lev,

Posted: Mon Sep 03, 2007 15:15
—
[off]Имхо лицензии даются по количеству голов программиста Smile

а не по кол-ву прог. Для получения очередной лицензии придётся выдать себя за другого человкека и писать плаги от его лица[/off]

#98: Author: D1P, Location: Тбилиси

Posted: Mon Sep 03, 2007 15:40
—

Quote:

[off]Имхо лицензии даются по количеству голов программиста а не по кол-ву прог. Для получения очередной лицензии придётся выдать себя за другого человкека и писать плаги от его лица[/off]

Не уверен. Думаю, если попросить за свою работу плагин для кого-нибудь (друга, члена семьи, любимого кота Толстопуза) Гислер даст. Давно хочу попробовать получить дополнительно пару-другую лицензий, но всё никак не решу, кому их дарить Smile

#99: Author: Alextp,

Posted: Mon Sep 03, 2007 15:59
—

D1P wrote:

Гислер даст. Давно хочу попробовать получить дополнительно пару-другую лицензий, но всё никак не решу, кому их дарить

У меня такая же ситуация. Попросил бы давно, не знаю кому дарить. Confused

#100: Author: Lev,

Posted: Tue Sep 04, 2007 15:15
—
Где-то в форуме, кто-то писал, что никак не может получить лицензии на остальные плагины, после первого. Я и не пытался даже, хотя разадарить есть кому (друзья, племянники и т.д.).

#101: Author: CaptainFlint, Location: Москва

Posted: Tue Sep 04, 2007 15:59
—

Lev wrote:

Где-то в форуме, кто-то писал, что никак не может получить лицензии на остальные плагины, после первого.

Мне (и Вадиму) Гислер за русификацию сам хотел предложить лицензию, но поскольку у нас у обоих она уже была, он сказал, что может подарить её нашим помощникам по русификации, а даже если таковых нет, то просто знакомым или друзьям. Так что...

#102: Author: Alextp,

Posted: Thu Sep 13, 2007 09:29
—
Здесь дан конвертер, который может конвертировать

Quote:

.rtf Rich text
.docx Microsoft WORD 2007 (OOXML)
.xlsx Microsoft Excel 2007 (OOXML)
.pptx Microsoft PowerPoint 2007 (OOXML)
.doc Microsoft WORD ver5.0/95/97/2000/XP/2003
.xls Microsoft Excel ver5.0/95/97/2000/XP/2003
.ppt Microsoft PowerPoint 97/2000/XP/2003
.sxw/.sxc/.sxi/.sxd OpenOffice.org
.odt/.ods/.odp/.odg Open Document
.jaw/jtw Ichitaro ver5
.jbw/juw Ichitaro ver6
.jfw/jvw Ichitaro ver7
.jtd/jtt Ichitaro ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun New pine/pine 5/pine 6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF
.mht Web archive
.html HTML
.eml The export type of OutlookExpress

Сам пока не пробовал.

#103: Author: Ник, Location: Москва

Posted: Thu Sep 13, 2007 09:34
—
Там вроде сплошной японский...

#104: Author: Alextp,

Posted: Thu Sep 13, 2007 19:51
—
Настройка конвертера xdoc2txt с гислера: TextSearch.ini:

Quote:

; xdoc2txt
XDOC=%COMSPEC% /CCONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
sxw=XDOC
sxc=XDOC
sxi=XDOC
sxd=XDOC
odt=XDOC
ods=XDOC
odp=XDOC
odg=XDOC
docx=XDOC
docm=XDOC
xlsx=XDOC
xlsm=XDOC
pptx=XDOC
pptm=XDOC
doc=XDOC
xls=XDOC
ppt=XDOC
rtf=XDOC
jaw=XDOC
jtw=XDOC
jbw=XDOC
juw=XDOC
jfw=XDOC
jvw=XDOC
jtd=XDOC
jtt=XDOC
oas=XDOC
oa2=XDOC
oa3=XDOC
bun=XDOC
wj2=XDOC
wj3=XDOC
wk3=XDOC
wk4=XDOC
123=XDOC
wri=XDOC
pdf=XDOC
mht=XDOC
html=XDOC
eml=XDOC

#105: Author: Sam Dark, Location: Voronezh, Russia

Posted: Tue Sep 25, 2007 13:43
—
Мдя... занятная ситуация, когда некому подарить лицензию Smile

P.s. я бы не отказался Wink

#106: Author: Alextp,

Posted: Tue Sep 25, 2007 14:17
—
[OT]
Sam Dark
Я не знал, что у тебя нет лицензии.
Напишу тебе email'ом. Wink

[/OT]

#107: Author: SwapeR,

Posted: Fri Jan 04, 2008 13:02
—
Не смог найти ответ на такой вопрос. Как искать в архивах с использованием плагинов?

#108: TextSearch (Content-плагин) Author: antabu, Location: Новосибирск

Posted: Thu Sep 18, 2008 14:42
—
Есть архивы журнала "ХиЖ" за много лет в djvu c текстовым слоем, скачанные из разных источников. Установил TextSearch, DjVuLibre, настроил по Readme на UTF8 - находит текст в одних папках, а в других - нет. Заменил в TextSearch.ini UTF8 на ANSI - теперь наоборот, в других находит, а в одних - нет.
И ещё: для просмотра пользуюсьWinDjView, а DjVuLibre занимает много места, какие файлы из неё нужны непосредственно для поиска при помощи TextSearch?

#109: Author: Alextp,

Posted: Thu Sep 18, 2008 16:11
—
antabu
ПОпробуйте искать сразу в 2х кодировках. В UTF8 и ANSI.
Как это сделать, написано в Ридми плагина.
Можно и в 3-х

#110: TextSearch (Content-плагин) Author: antabu, Location: Новосибирск

Posted: Fri Sep 19, 2008 09:36
—
Спасибо, всё работает, только, кажется, медленнее. Кстати, djview.exe внутри файла находит и копирует текст только в UTF8, а WinDjView в обеих кодировках. И ещё, часть архивов представлена pdf файлами, где Adobe Reader копирует и находит текст на кириллице нормально, а хвалёный Foxit Reader2.3 нет - не знаю, какая там кодировка у текстового слоя.

#111: Связка TextSearch + xdoc2txt Author: zzpro,

Posted: Sun Sep 21, 2008 08:00
—
Не ищет DOCX-файлы по содержимому.
Те кто используют эту связку могут подсказать в чем дело?

#112: Author: Alextp,

Posted: Sun Sep 21, 2008 09:29
—
А DOCX конвертер установлен?..

#113: Связка TextSearch + xdoc2txt Author: zzpro,

Posted: Sun Sep 21, 2008 15:38
—
Да, установлен. В папке \plugins\wdx\TextSearch\Conv\xdoc\

Прописан в TextSearch.ini
; TextSearch.ini settings:
XDOC=%COMSPEC% /CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
sxw=XDOC
sxc=XDOC
sxi=XDOC
sxd=XDOC
odt=XDOC
ods=XDOC
odp=XDOC
odg=XDOC
docx=XDOC
docm=XDOC
xlsx=XDOC
xlsm=XDOC
pptx=XDOC
pptm=XDOC
doc=XDOC
xls=XDOC
ppt=XDOC
rtf=XDOC
jaw=XDOC
jtw=XDOC
jbw=XDOC
juw=XDOC
jfw=XDOC
jvw=XDOC
jtd=XDOC
jtt=XDOC
oas=XDOC
oa2=XDOC
oa3=XDOC
bun=XDOC
wj2=XDOC
wj3=XDOC
wk3=XDOC
wk4=XDOC
123=XDOC
wri=XDOC
pdf=XDOC
mht=XDOC
html=XDOC
eml=XDOC

#114: Author: Alextp,

Posted: Sun Sep 21, 2008 17:02
—
Здесь неправильно прописапн ключ у ComSpec:
должно быть /C "Conv\путь".

#115: Связка TextSearch + xdoc2txt Author: zzpro,

Posted: Mon Sep 22, 2008 07:53
—
Все понял.
В описании плагина TextSearch в файле Readme.html ошибка при описании подключения xdoc2txt. Пропущен пробел.

В описании:
XDOC=%COMSPEC% /CCONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"

Строка подключения должна быть:
XDOC=%COMSPEC% /C CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"

Просьба разработчику подправить Readme.html, чтоб народ не смушать Smile

После исправления строки подключения - все работает

#116: Author: Alextp,

Posted: Mon Sep 22, 2008 09:34
—

Quote:

Просьба разработчику подправить Readme.html,

Подправил.

#117: Связка TextSearch + xdoc2txt Author: zzpro,

Posted: Mon Sep 22, 2008 11:21
—
Спасибо

#118: Author: antabu, Location: Новосибирск

Posted: Mon Sep 22, 2008 20:10
—
Если файл, среди которых идёт поиск, окажется открытым, ТС зависает (замечено для djvu). Ситуация вероятная: найден файл с заданным текстом, его открыли, чтобы продолжить поиск внутри и забыли закрыть перед следующим поиском с TextSearch. Надо предупреждать...

#119: Author: Alextp,

Posted: Tue Sep 23, 2008 15:58
—
antabu
зависает плагин или именно DJV-конветрер? Возможно, второе, тогда это не смогу поправить...

#120: Author: antabu, Location: Новосибирск

Posted: Tue Sep 23, 2008 17:03
—
Прошу прощения, это был глюк. На другом компе не виснет.

#121: TextSearch (Content-плагин) Author: antabu, Location: Новосибирск

Posted: Wed Oct 15, 2008 19:04
—
Не работает поиск в некоторых pdf файлах. Помогите, пожалуйста, определить кодировку текстового слоя в файле (после распаковки):
http://www.hij.ru/EV/01_2008.zip

#122: Author: Ник, Location: Москва

Posted: Wed Oct 15, 2008 19:29
—
Ощущение, что заголовки и текст в разных кодировках - заголовки в UTF-8, а текст хрен знает в чём...

#123: Author: antabu, Location: Новосибирск

Posted: Thu Oct 16, 2008 12:27
—
Насколько я понял, универсального средства вытащить текст из пдф не существует. Помнится, в своё время фирма Promt пыталась решить задачу, применяя средство распознавания текста от Readiris, кажется, неудачно, возможно и незаконно.

#124: Author: Ник, Location: Москва

Posted: Thu Oct 16, 2008 13:36
—
На данном PDF может стоять защита, причём, заголовки статей не защищены от копирования, а сами статьи защищены...

#125: Author: antabu, Location: Новосибирск

Posted: Thu Oct 16, 2008 14:58
—
Adobe Reader 8 показывает, что защиты нет. Этот файл приведён для примера, у меня их много.

#126: Author: Ник, Location: Москва

Posted: Thu Oct 16, 2008 16:06
—
Может исходный текст сделан криво - обратитесь к его авторам и спросите, почему текстовый слой выглядит так странно - сошлитесь на невозможность правильно скопировать кусок текста для цитирования...

#127: Author: antabu, Location: Новосибирск

Posted: Thu Oct 16, 2008 16:55
—
Спасибо за совет, переписку я веду, проблема в том, что эти файлы скачаны с неофициальной странички официального сайта, а подписка на них стоит 180 р. за 6 номеров.

#128: Author: antabu, Location: Новосибирск

Posted: Sun Oct 19, 2008 07:23
—
На мой запрос:
"Посоветуйте, пожалуйста, по какому адресу можно обратиться к специалисту
для ответа на вопрос: в каких кодировках сделан текстовый слой в pdf файлах
журналов за последние годы? Это важно не только для поиска, но и для
цитирования."
получен ответ из которого я мало что понял:
"Честно говоря, вопрос совершенно непонятен. Кодировка одна - Виндовс кир,
используется по умолчанию, никаких хитростей мы не прилагали. Шрифты были
разные - раньше гельветика, теперь - прагматика. Под хп гельветики,
насколько я знаю, нету. Возможно, именно с этим связаны проблемы, поскольку
в 2004 году мы еще верстали гельветикой.

Тестовый слой в пдф делается автоматически, как задано по умолчанию, так и
делается. Не исключено, что он делается третьи акробатом и адоб что-нибудь в
седьмом уж сильно поменял и то, что было по умолчанию раньше, теперь не
работает. Не знаю.

Вообще-то, это все, что я могу Вам сказать.

Сергей Комаров

журнал "Химия и жизнь""

#129: Author: Ник, Location: Москва

Posted: Sun Oct 19, 2008 10:14
—
Шрифт, ИМХО, на кодировку текстового слоя не влияет...
Скачайте у них легально хоть один файл с теми же проблемами и официально потребуйте привести в чувство текстовый слой...
Только тогда, ИМХО, получите внятный ответ (и то не гарантия).

#130: Author: antabu, Location: Новосибирск

Posted: Sun Oct 19, 2008 12:14
—
А я с этого начал, скачал 6 номеров со страницы
http://www.hij.ru/elektrversia.shtml
и спросил, почему в них не работает поиск средствами Adobe Reader 8.
Мне сначала ответили:
"А поиск в pdf-номерах и не должен работать - на это есть архив с 1 номера 65 года, в котором все работает."
Но в тех номерах плагин работает нормально, т. е. Ваш критерий "с теми же проблемами" здесь не проходит.
Похоже, виноват Adobe.

#131: Author: Ник, Location: Москва

Posted: Sun Oct 19, 2008 12:25
—
antabu
Я смотрю не Адобом, а FoxIt Reader и тоже не могу понять значительную часть текстового слоя...

#132: Author: antabu, Location: Новосибирск

Posted: Sun Oct 19, 2008 16:13
—
У меня стоят оба, и среди проблемных файлов есть такие, где плагин и Адоб находят, а Фоксит нет, есть такие, где находит только плагин, а в 01_2008 никто не находит - придётся пробовать Readiris.

#133: Re: TextSearch (Content-плагин) Author: antabu, Location: Новосибирск

Posted: Tue Nov 04, 2008 10:23
—

antabu wrote:

Не работает поиск в некоторых pdf файлах. Помогите, пожалуйста, определить кодировку текстового слоя в файле (после распаковки):
http://www.hij.ru/EV/01_2008.zip

Модератор «1998» форума «Дизайн и Полиграфия» создал перекодировщик для этих файлов: http://rapidshare.de/files/40811224/pdf-recode.rar.html
После перекодировки Foxit Reader в режиме просмотра текста отображает текст правильно. А pdftotext извлекает его неправильно, ес-но плагин не найдёт искомый текст. Помогите настроить плагин для перекодированных файлов.

#134: Author: Alextp,

Posted: Tue Nov 04, 2008 11:38
—
может, pdftotext извлекает его в какой-то кодировке? Тогда применить команду {CP:xxx} плагина ..
Или вообще битый текст, тогда никак.

надо смотреть настройки pdftotext.

#135: Author: Ник, Location: Москва

Posted: Tue Nov 04, 2008 12:33
—
Alextp
Боюсь, что там в одном и том же файле в текстовом слое текст в нескольких кодировках сразу Sad

antabu
А как этот перекодировщик работает не пойму - есть небольшая инструкция?

#136: Author: antabu, Location: Новосибирск

Posted: Tue Nov 04, 2008 12:57
—
Насколько я понимаю, настройки pdftotext находятся в файле xpdfrc без расширения. После редактирования он требует "unicodeMap file".
Конкретная просьба: скачать файлы по ссылкам, перекодировать, посмотреть, настроить xpdfrc и/или TextSearch.ini и выложить их, сам я пытаюсь разобраться, но не получается.
Или вот самый маленький из всех файлов, перекодированный:
http://webfile.ru/2359481

#137: Author: antabu, Location: Новосибирск

Posted: Tue Nov 04, 2008 13:21
—
Извините, разобрался: убрал расширение у xpdfrc.txt, вроде, всё работает с настройками по умолчанию (плагин, встроенный в Universal Viewer вместе с wlx_multilister сам находит правильную кодировку вывода текста).

#138: Author: Alextp,

Posted: Tue Nov 04, 2008 20:11
—

Ник wrote:

Боюсь, что там в одном и том же файле в текстовом слое текст в нескольких кодировках сразу

это для плагина даже хорошо. Хотя бы в одной найдет Smile

#139: Author: Ник, Location: Москва

Posted: Tue Nov 04, 2008 21:27
—
Alextp
В том-то и проблема - заголовки статей в Уникоде, а текст статей непонятно в чём (дубляжа текста нет).

#140: Author: Ник, Location: Москва

Posted: Tue May 05, 2009 13:02
—
Alextp
Спасибо за новую версию! Smile

И с праздниками! Smile

Вопросы:

1) М.б. не включать в пакет программы других авторов (IFilter, XPDF) - продвинутые пользователи всё равно ищут версии этих программ отдельно и настраивают их сами - а ради лохов и халявщиков раздувать пакет в два раза - стоит ли?
(Я, например, dotNET вообще не использую и программы с ним не ставлю - т.е. от использования IFilter сразу отказался).

2) М.б., в пакет не включать и выложить отдельно Ваш конвертор ODF2TXT - вряд ли динамика обновлений этих программ будет синхронной (да и всем ли именно этот конвертор нужен и удобен) - а так пакет станет "стройнее"?

Спасибо Smile

#141: Author: Alextp,

Posted: Wed May 06, 2009 12:00
—
Мне кажется, проще настроить готовый пакет, чем

- искать конвертер xpdf
- скачивать его с сайта
- устанавливать его
- прописывать в textSearch.ini
...
(не забыть прочитать textsearxh readme)

Smile

так что пусть будет...

#142: Author: Alextp,

Posted: Wed May 06, 2009 12:24
—
а odf2txt занимает еще меньше, в основном место ест XPdf.

#143: Author: Ник, Location: Москва

Posted: Wed May 06, 2009 12:47
—
А XPDF всё равно придётся искать и устанавливать - в Вашем паке его версия более старая, чем та, что уже есть на оф. сайте.
Глупо, ИМХО, ждать, что сторонняя утилита не будет обновляться, пока Вы не обновите свой плагин Smile

К тому же, одна и та же утилита используется в нескольких плагинах - у меня XPDF минимум в трёх - и непонятно, зачем держать на диске три копии одной и той же утилиты, да ещё и разных версий?

Что касается настроек - можно включить типичные образцы настроек с пояснениями и всё будет ОК.
А ещё лучше - ИМХО - написать GUI для настроек, как это сделал автор PDF Filter - он же Multi Lister Smile

#144: Author: Alextp,

Posted: Wed May 06, 2009 19:19
—

Quote:

XPDF всё равно придётся искать и устанавливать - в Вашем паке его версия более старая, чем та, что уже есть на оф. сайте

ну не знаю - зачем обновлять xpdf, если нормально работает версия в паке..

#145: Author: Alextp,

Posted: Wed May 06, 2009 19:23
—

Ник wrote:

и непонятно, зачем держать на диске три копии одной и той же утилиты

можно стереть две. Smile

#146: Author: Ник, Location: Москва

Posted: Wed May 06, 2009 20:20
—
Alextp
Тогда можно ещё запаковать все необходимые DLL-ки и Тотал Коммандер и саму Винду до кучи засунуть в пакет - и предложить юзеру не обновлять ничего - типа и так всё работает.

Я ни в коем не отрицаю Ваше право делать любые паки, которые Вам захочется (хотя не понимаю причин создания таких паков), - но логика в данном случае странноватая Smile

#147: Author: Alextp,

Posted: Wed May 06, 2009 20:31
—
небольшой конвертер (1Мб) можно включить.

#148: Author: Ник, Location: Москва

Posted: Wed May 06, 2009 21:22
—
В любом случае - спасибо большое за плагин - это то, что нужно Smile

#149: Author: Den_Klimov, Location: Ukraine.Kiev

Posted: Mon Jul 13, 2009 01:08
—
Как по мне так наоборот надо включать как можно больше конвертеров в сам плагин. Опытным пользователем на самом деле без разницы, а вот неопытным счастье.
----------------
Кстати посоветуйте плиз. Какой самый быстрый конвертер для DOC и самый быстрый конвертер для DOCX? Ну естественно чтобы при этом все варианты формата конвертировали без проблем.

#150: Author: Ник, Location: Москва

Posted: Mon Jul 13, 2009 03:30
—
Den_Klimov
Без разницы - сколько качать и сколько потом руками выбрасывать лишнего?
Нет - разница существенная...

Во что Вы собираетесь конвертировать DOC и DOCX и как - в ком.строке или ГУИ?

Скорость для Вас важнее качества?

Какие "варианты формата" Вы имеете ввиду?

#151: Author: Den_Klimov, Location: Ukraine.Kiev

Posted: Mon Jul 13, 2009 20:23
—
Ник

Quote:

Без разницы - сколько качать и сколько потом руками выбрасывать лишнего?
Нет - разница существенная...

Сколько качать без разницы.
А лишнего не должно быть, чтобы его не пришлось выбрасывать.

Сейчас, имхо, наоборот слишком мало обязательно необходимых конвертеров входит в TextSearch. Слишком многое предлагается качать самостоятельно.

Quote:

Во что Вы собираетесь конвертировать DOC и DOCX и как - в ком.строке или ГУИ?

Скорость для Вас важнее качества?

Имелось в виду для использования с TextSearch. Только для этих целей. Именно потому и спрашиваю про скорость.

Quote:

Какие "варианты формата" Вы имеете ввиду?

Тот же DOC формат постоянно расширялся от версии к версии. Хотя подозреваю для конвертирования в текст это несущественно.

#152: Author: Alextp,

Posted: Tue Jul 14, 2009 00:20
—
я согласен, что надо DOC конв. включить. Писал автору XDoc, он не ответил... :\

#153: Author: Ник, Location: Москва

Posted: Tue Jul 14, 2009 11:00
—
Зачем? Я, например, им вообще не пользуюсь, а пользуюсь GetText.

И вообще - у меня для этого плагина и для MultiLister (бывший PDF Filter) одни и те же конверторы, зачем их включать в плагины - если я всё равно скачиваю их отдельно (чтобы иметь новую версию) и кладу отдельно - чтобы весь остальной софт их вызывал из одного и того же места.

#154: Author: Ник, Location: Москва

Posted: Mon Jan 04, 2010 20:37
—
Alextp
Если уж Вы валите в свой пак в одну кучу все конверторы - то и XPDF стоило обновить:
Xpdf 3.02 pl4 13.10.2009 http://www.foolabs.com/xpdf/home.html

И зачем включать в пак GetTextIFilter - если это ALPHA, Version 0.0.1.24023, да ещё и требующая для работы .Net Framework 2.0+ ?!?

Нельзя ли на оф. странице http://atorg.net.ru/utils/odf_to_text.htm выложить последнюю версию OdfToTxt и обновить в истории номер версии.

Спасибо Smile

Last edited by Ник on Mon Jan 04, 2010 21:01; edited 1 time in total

#155: Author: Alextp,

Posted: Mon Jan 04, 2010 21:01
—
Ник
Xpdf я как раз исключил. так что не кучу. Вместо него теперь другой, на 300К меньше.

OdfToTxt - выложу.

#156: Author: Alextp,

Posted: Mon Jan 04, 2010 21:43
—
GettextIFilter убрал.

#157: Author: Alextp,

Posted: Thu Dec 09, 2010 15:32
—
в архиве файл odftotxt.exe -был больше моего скомпилированного(+40K). Вирус не находится. (сейчас обновил odftotxt)
Кто знает как послать в KaspLab?

#158: Author: CJ Flash, Location: Череповец

Posted: Thu Dec 09, 2010 16:46
—

Alextp wrote:

Кто знает как послать в KaspLab?

newvirus@kaspersky.com
Файл высылать в архиве, на архив пароль virus.

#159: Author: Alextp,

Posted: Fri Dec 17, 2010 20:48
—
Был вирус KLAV-nnnnnn, каспер (и NOD) должны находить.

#160: Author: Flasher, Location: Москва

Posted: Fri Dec 17, 2010 21:02
—
Alextp
Онлайн-сканеры чем не годятся?

#161: Author: CJ Flash, Location: Череповец

Posted: Fri Dec 17, 2010 22:46
—

Alextp wrote:

Был вирус KLAV-nnnnnn

Такого обозначения вируса быть не может, это автоуведомление о создании тикета. Уже после этого должен ответить сотрудник лаборатории.

#162: Author: Alextp,

Posted: Fri Dec 17, 2010 22:53
—
А, понятно. ответить не ответили.

#163: Author: antabu, Location: Новосибирск

Posted: Thu Dec 23, 2010 15:14
—
Прошу поправить мою строку в файле настройки плагина
CHM=c:\WINDOWS\hh.exe -decompile "{Out}" "{In}"
Выдаёт ошибку. Или предложите другой вариант поиска в файлах справки.

#164: Author: Alextp,

Posted: Fri Jan 28, 2011 14:41
—
upd.
Fix: зависание на UTF16 files.

#165: Author: Alextp,

Posted: Fri Jan 28, 2011 15:28
—
chm2html.bat (все html сливаются в 1). Попробуйте его с запуском
chm=%comspec% /c ...

atorg.net.ru/temp/beta/

#166: Author: antabu, Location: Новосибирск

Posted: Tue Feb 01, 2011 15:26
—
Если не трудно, поподробнее, а то у меня не получается.
Сравнение конвертеров для .chm:
1. chm2txt от Jamal Mazrui http://empowermentzone.com/chm2txt.zip
не работает, возвращает ошибку.
далее сравнение проводилось на файле весом 107 метров
http://narod.ru/disk/3010096001/Новый%20справочник%20химика%20и%20технолога.chm.html на процессоре 1,4ГГц
2. FiltDump.exe из сообщенния http://forum.wincmd.ru/viewtopic.php?p=35058#35058 Конвертирует 10 минут, но с ошибками, в результате при поиске плагин зависает. На файлах нормального размера работает.
3. hh.exe -decompile конвертирует в .htm 3 мин, но использовать с плагином мне не удалось
4. UnCHMw.exe из плагина CHMDir при исключении картинок (-x*.gif -x*.jpg -x*.bmp и т.д.) конвертирует в .htm 0,5 мин., но встроить в TextSearch мне не удалось.

#167: Author: Alextp,

Posted: Tue Feb 01, 2011 16:45
—
Надо взять unchmw. потом взять мой bat- atorg.net.ru/temp/beta/- можешь его поправить сам? Если нет посмотрю

#168: Author: antabu, Location: Новосибирск

Posted: Wed Feb 02, 2011 14:50
—
В папку с TextSearch.wdx положил файлы chm2htm.bat, UnCHMw.exe и CHMDir.ini.
В файле chm2htm.bat исправил строку на
UnCHMw e %t% %1
в файле TextSearch.ini ввёл строку
chm=%comspec% /c chm2htm.bat "{In}">"{Out}"
Поиск не находит текст. (В проверяемом файле кодировка 1251)
Извините, что я не понимаю, что значит %comspec% и С без двоеточия.

#169: Author: Alextp,

Posted: Sat Feb 05, 2011 09:11
—
Unchmw e %1 %t%\ *.htm*
-это в .bat. ini: нет времени, может chm=%comspec% /c chm2htm.bat "{In}" "{Out}"

#170: Author: antabu, Location: Новосибирск

Posted: Mon Feb 07, 2011 14:08
—
В принципе решение найдено. Это архиваторный плагин Total7zip.
Строка в TextSearch.ini:

Code:

CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

Однако с этим большим файлом справки всё равно проблема: извлечение текста в файл \Temp\TextSrch.txt размером 216МБ заканчивается через 12 секунд после нажатия "Начать поиск", а через 96 с. этот временный файл удаляется при незавершённом поиске, коммандер зависает. Возможно, не хватает памяти на моём компе.
Осталось для поиска внутри файла приспособить этот конвертер к плагину wlx_multilister.

#171: Author: Alextp,

Posted: Tue Feb 08, 2011 15:04
—
не знаю, когда появ. время посмотреть этот завис(96с)... Сейчас тестироват неохота (к тому же)

#172: Author: Alextp,

Posted: Tue Feb 08, 2011 15:15
—
зависать может на кодир-и utf8. Если найти конвертер htm-txt, то тогда можно убрать {cp:utf8}. (если приспособить конв-р)

#173: Author: antabu, Location: Новосибирск

Posted: Wed Feb 09, 2011 09:26
—
Найти конвертер htm-txt не проблема, с этим справляются и gettext и XDoc, сложнее приспособить.
На этом принципе и основан конвертер chm2txt от Jamal Mazrui, который не работает. Он использует тот же распаковщик 7z от Igor Pavlov, только более раннюю версию.
Попробовал конвертировать вышеназванный "Новый справочник...chm" из командной строки. В полученном файле только 18% текста, остальное - теги. Разбил файл TextSrch.txt на куски разного размера и попробовал искать в них плагином. Обнаружил, что время поиска пропорционально квадрату размера файла.

#174: Author: Alextp,

Posted: Sat Feb 12, 2011 11:20
—
нет времени на Tsearch.

#175: Author: Alextp,

Posted: Thu Apr 14, 2011 13:05
—
antabu
Насчет "время проп. квадрату размера файла"-совсем нет времени разбираться. Насчет рабочего конвертера-это уже надо подбирать Вам, кто из них лучше делает htm-txt. тем более всего 18% текст.

#176: Author: Alextp,

Posted: Tue Nov 01, 2011 21:00
—
OdfToTxt (нет линка с главной)
http://www.uvviewsoft.com/utils/

#177: Author: Alexis2k,

Posted: Sun Nov 11, 2012 08:10
—
Если TC расположен на сетевой шаре, то с такой строкой запуска конвертера, которая присутствует в настоящий момент в инсталяторе:

Code:

XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

не ищет ничего, а с такой

Code:

XDOC=%COMSPEC% /C %COMMANDER_PATH%\Plugins\WDX\TextSearch\Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

ищет нормально и при запуске с сетевой шары, и при запуске с локального диска.
Думаю стОит поправить комплект.

#178: Author: Alextp,

Posted: Sun Nov 11, 2012 13:55
—
Alexis2k
На что поправить- на вашу строку не могу, она завязана на абсолютные пути (у меня плагин не там)

#179: Author: Flasher, Location: Москва

Posted: Sun Nov 11, 2012 15:35
—

Alextp wrote:

у меня плагин не там

Расположение относительно родительского каталога плагина и подразумевает, что он может быть где угодно.

#180: Author: al000032,

Posted: Sun Jan 06, 2013 21:10
—
Всем добрый день, и с НГ!
Здесь уже задавался вопрос - как осуществить поиск по тексту в архивах. Но ответа я не нашел.
Так все-таки, подскажите, пожалуйста, это возможно - искать в архивах, и, если да, то как?
Спасибо!

#181: Author: Alextp,

Posted: Sun Jan 06, 2013 21:19
—
Для rar можно написать такой конвертер RAR->TXT

Quote:

rar p c:\path\Arc.rar >c:\temp\txt.txt

Для zip пишется конвертер zip->txt на основе InfoZip unzip.exe:

Quote:

unzip -p c:\path\Arc.zip >c:\temp\txt.txt

#182: Author: al000032,

Posted: Sun Jan 06, 2013 23:03
—
Спасибо за ответ! Но это получается, что создается здоровенный временный файл с содержимым архива (в котором несколько десятков файлов), и по этому файлу уже делается поиск....
А как тогда понять, к какому именно файлу из архива относятся найденные слова?

#183: Author: Alextp,

Posted: Sun Jan 06, 2013 23:10
—
никак. Это уже не задача плагина, плагином можно только это

#184: Author: al000032,

Posted: Mon Jan 07, 2013 12:38
—
Ага, понял. А не знаете каким образом умудряется сам Total искать в архивах? Вроде бы и во временную директорию полностью архив не распаковывается?...
И еще - не знаете как в стандартом поиске Totala искать текст в файлах сразу и в ANSI и в UTF8, а не по очереди?

#185: Author: Avada, Location: Россия, Саратов

Posted: Mon Jan 07, 2013 16:21
—

al000032 wrote:

А не знаете каким образом умудряется сам Total искать в архивах? Вроде бы и во временную директорию полностью архив не распаковывается?...

Во-первых, есть такое слово "оффтоп" (ссылка на правила в шапке), а во-вторых, как говорится, важен не метод, а результат. Wink

al000032 wrote:

И еще - не знаете как в стандартом поиске Totala искать текст в файлах сразу и в ANSI и в UTF8, а не по очереди?

Никак, и в документации плагина это сказано.

#186: Author: al000032,

Posted: Mon Jan 07, 2013 17:19
—
Спасибо за ответы, и прошу прощения за уход от темы.
Но поиск в архивах хотелось бы. Если когда-нибудь этим заморочитесь, было бы здорово.

#187: Author: Alextp,

Posted: Mon Jan 07, 2013 22:06
—
Я уже сказал выше,не задача плагина

#188: как прикрутить айфильтр к текст сёрч Author: naumann, Location: Кемерово

Posted: Tue Aug 20, 2013 16:39
—
уважаемые знатоки, есть ли пошаговая инструкция для блондинок по прикручиванию ifilter. Задача следующая: пакетный поиск по ключевому слову внутри xls. После установки в систему FilterPackx64.exe от майкрософта explorer начал искать внутри файлов а тотошка нет. Я догадываюсь что нужно конвертер положить в папку конвертеров плагина но хоть убей невдомек каким образом теперь выкопать из системы установленный конвертер. Помогите разобраться пожалуйста.

#189: Author: Alextp,

Posted: Wed Aug 21, 2013 03:37
—
Gettextifilter.exe подхватывает -по идее- все установленные в ОС фильтры. Нужно просто его разрешить в textsearch.ini- там вроде что-то есть в коменте.

Добавлено спустя 45 секунд:

Фильтры видимо должны быть х32, не х64

#190: Author: Skif_off,

Posted: Fri Sep 27, 2013 23:29
—
Кто-нибудь обновлял xdoc2txt до 1.46 (2012/12/24)? Или даже до 2.00 (2013/01/23)?
В плагине версия 1.35 (2009/08/24).

#191: Author: Avada, Location: Россия, Саратов

Posted: Sun Sep 29, 2013 09:49
—
Skif_off
Я обновлял до 1.46. Правда, никаким сколь-либо активным тестированием не занимался, только убедился несколько раз, что искомый текст обнаруживается. 2.00 скачал, но ставить и проверять не стал — пока нет времени.

#192: Author: Skif_off,

Posted: Wed Nov 13, 2013 18:35
—
По версии 2.х:
отсюда + 2 поста как минимум.

#193: Re: как прикрутить айфильтр к текст сёрч Author: Mailk,

Posted: Wed Feb 05, 2014 16:33
—
Задача следующая: пакетный поиск по ключевому слову внутри xls. После установки в систему FilterPackx64.exe от майкрософта explorer начал искать внутри файлов а тотошка нет. Я догадываюсь что нужно конвертер положить в папку конвертеров плагина но хоть убей невдомек каким образом теперь выкопать из системы установленный конвертер. Помогите разобраться пожалуйста.[/quote]

Всегда искал слова в файлах только Тоталам (кроме закрытых форматов), галки проставь UTF-16 и другие. Удобство в том что после поиска быстро просмотреть можно что нашел. В 8.5 спецальная стоит галка для офис. Искал ключивые слова в файлах САПР Компаса, AUTOCAD, Solidworks, MS Offis (WORD, Exell).

Делал расцветку или колонку с найдыними в файле словами (например Разработчик: Иванов, обозначение АБВГ 123.24.55.) Правда притормаживет при таком варианте.

#194: Author: Skif_off,

Posted: Wed Feb 05, 2014 16:56
—
Mailk
В описании плагина посмотрите GetTextIFilter, ЕМНИП, он использует фильтры из системы. Ссылка есть в Readme, в архиве есть пример TextSearch.ini.

#195: Author: Skif_off,

Posted: Wed Sep 10, 2014 08:51
—
Доступна версия 1.48 (2014/05/04), испрвлен баг с Word и PDF.

2.05 пилиться (5й релиз в этом году), кстати, необходимы msvcp90.dll и msvcr90.dll.

#196: Author: Skif_off,

Posted: Thu Oct 30, 2014 19:52
—
Доступна версия 1.50 (2014/10/28), исправлены проблемы с работой с xlsx.

2.07

#197: Author: Skif_off,

Posted: Thu Dec 10, 2015 13:14
—
Доступна версия 1.52 (2015/11/19).

#198: Author: Mailk,

Posted: Mon Feb 15, 2016 01:07
—
2.14

http://ebstudio.info/home/xdoc2txt.html#download

я не понял чем отличается верм=сии 2.хх от 1.5хх ?

#199: Author: Skif_off,

Posted: Mon Feb 15, 2016 01:31
—
Mailk
Юникод + iFilter и вроде всё.

#200: Author: Alextp,

Posted: Tue Feb 16, 2016 02:07
—
Отпишусь-ка я от темы,а то тут полуспам какой-то идет,
хотя, если что, откомпилировать смогу (хоть я и не помню по коду ничерта, но это Окей)

#201: Author: Dimsok,

Posted: Sun Oct 09, 2016 13:03
—
А что, конвертеры должны быть только в папке с плагином? Подставляю абсолютый путь, вылетатет ошибка. Пытаюсь приспособить Calibre, но не получается. Годны только проги, которые по умолчанию в txt конвертят?

#202: Author: Avada, Location: Россия, Саратов

Posted: Sun Oct 09, 2016 15:29
—

Dimsok wrote:

Годны только проги, которые по умолчанию в txt конвертят?

А название TextSearch и слова в ридми "full-text search in any documents, which have command-line converters to the plain-text form" дают какой-то повод в этом усомниться?

#203: Author: Dimsok,

Posted: Sun Oct 09, 2016 16:06
—
Avada
Я к тому, что нельзя ли в textsearch.ini как-нибудь прописать для calibre ключ, чтобы он конвертировал именно в txt? Имя выходного файла.txt. Только те программы можно использовать, которые кроме как в txt ни во что не умеют?

#204: Author: Skif_off,

Posted: Sun Oct 09, 2016 16:26
—
Dimsok
В каких форматах вы хотите искать?

#205: Author: Dimsok,

Posted: Sun Oct 09, 2016 16:32
—

Skif_off wrote:

Dimsok
В каких форматах вы хотите искать?

Ну какие калибре поддерживает. Epub, lit, pdb, lrf, mobi.
Вот к примеру кнопка для конвертации выделенных файлов в txt

Code:

TOTALCMD#BAR#DATA
%ComSpec% /c for /f "delims=" %# in
('type %WF') do "c:\Program Files\Calibre\Calibre\ebook-convert.exe" "%%#" "%t%%~n#.txt"
C:\Program Files\Calibre\Calibre\calibredb.exe
Convert with Calibre to txt all to the other panel

1
-1

И как это дело можно приладить к textsearch. Батник писать.

#206: Author: Skif_off,

Posted: Sun Oct 09, 2016 16:52
—
Dimsok
Ну так и попробуйте в лоб, только для каждого формата в секции конвертеров:

Code:

EPUB=ebook-convert.exe "{In}" "{Out}"

По умолчанию в UTF-8, кажется, получится, если плаг не сможет искать, то можно что-то вроде такого для получения cp1251:

Hidden text

--max-line-length 0 не уверен, что нужно, но на случай, если строки могут резаться посередине слова.

#207: Author: Dimsok,

Posted: Sun Oct 09, 2016 17:25
—
Skif_off
Спасибо, ток конечно со скоростью у Calibre проблемы. Вспомнил про извлекатель текста от балаболки:

http://www.cross-plus-a.com/balabolka_text.zip

Работает в разы шустрей, правда не столько форматов поддерживает.
Поддерживаемые форматы файлов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PDF, PRC, RTF, TXT

Вот параметры для моей кнопки: -f "%%#" -e "utf8" -p "%t%%~n#"

Поможешь сконфигурировать?

#208: Author: Skif_off,

Posted: Sun Oct 09, 2016 20:47
—
Dimsok

Dimsok wrote:

ток конечно со скоростью у Calibre проблемы.

А с кодировкой что? С UTF-8 плаг работает?

Dimsok wrote:

-f "%%#" -e "utf8" -p "%t%%~n#"

Аналогично:

Code:

EPUB=путь\balabolka_text.exe -f "{In}" -p "{Out}"

Остаётся вопрос с кодировкой.

#209: Author: Dimsok,

Posted: Sun Oct 09, 2016 20:52
—

Quote:

Аналогично:

Я так и пробовал, вываливается ошибка, что нельзя сконвертировать TEMPTextSrch.txt, хотя он создается.

Добавлено спустя 3 минуты:

Quote:

А с кодировкой что? С UTF-8 плаг работает?

То, что под спойлерами работало, но оч. уж долго. Сравнил конвертацию, балаболкина утилита раз в 10 быстрей.

Временный файл создается TEMPTextSrch.txt.txt. Наверное, txt должно быть только в расширении.

Добавлено спустя 1 час 1 минуту:

В общем, у меня только так получилось:

FB2=cmd /c Conv\balabolka_text\balabolka_text.exe -f "{In}" -o > "{Out}"

Пришлось скопировать её в папку с плагином, потому что с абсолютным путём почему-то ничего не ищет.

Добавлено спустя 24 минуты:

Финальный вариант:

Code:

Balabolka_text=cmd /c Conv\balabolka_text\balabolka_text.exe -f "{In}" -o > "{Out}"
FB2=Balabolka_text
MOBI=Balabolka_text
AZW=Balabolka_text
EPUB=Balabolka_text
PRC=Balabolka_text
CHM=Balabolka_text
RTF=Balabolka_text

Добавлено спустя 24 минуты:

Ну и искать в архивах по файлам, которые поддживаает balabolka_text. Я держу в них те, которые сжимаются хорошо - txt, doc, fb2, mht, rtf

Code:

Balabolka_text_7z=cmd /c Conv\balabolka_text\7z.exe e "{In}" -so|Conv\balabolka_text\balabolka_text.exe -i -o > "{Out}
ZIP=Balabolka_text_7z
RAR=Balabolka_text_7z
7Z=Balabolka_text_7z

#210: Author: Dimsok,

Posted: Mon Oct 10, 2016 02:35
—
{CP:UTF16} у кого-нибудь работает? У меня не хочет.

#211: Author: Mailk,

Posted: Mon Oct 24, 2016 01:12
—
http://ebstudio.info/home/xdoc2txt.html#download

New ! 2016/06/28
xdoc2txt 2.16.1

#212: Author: Skif_off,

Posted: Mon Oct 24, 2016 13:51
—
Mailk
Вы проверяли, плагин работает с xdoc2txt линейки 2.х?

#213: Author: Mailk,

Posted: Mon Oct 24, 2016 15:45
—

Skif_off wrote:

Mailk
Вы проверяли, плагин работает с xdoc2txt линейки 2.х?

тот последний не ставил еще, а предыдущий работал искал..

#214: Author: Skif_off,

Posted: Mon Oct 24, 2016 15:58
—
Mailk
"Предыдущий" - это xdoc2txt 2.16 или xdoc2txt 1.52?

#215: Author: Mailk,

Posted: Mon Oct 24, 2016 16:03
—
2.14 я давал ссылку

#216: Author: Skif_off,

Posted: Wed Oct 26, 2016 23:17
—
Mailk
А в TextSearch.ini строка с xdoc2txt оставлена всё та же

Code:

%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

#217: Author: Dimsok,

Posted: Thu Oct 27, 2016 23:45
—
Тем временем в экстрактор текста от Балаболка добавилась поддержка pdb, wpd, tcr форматов

#218: Author: Mailk,

Posted: Fri Oct 28, 2016 19:44
—

Skif_off wrote:

Mailk
А в TextSearch.ini строка с xdoc2txt оставлена всё та же

Code:

%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

у меня такой .*ini и как он правилен не знаю...

[Converters]

TXT={CP:ANSI} {CP:UTF8} {CP:UTF16}

HTM={CP:ANSI} {CP:UTF8}
HTML=HTM

XML={CP:UTF8} {CP:ANSI}

;MS RTF
;RTF={CP:RTF}
WRI={CP:RTF}

;Adobe Acrobat
PDF=Conv\gettext\GetText.exe "{In}" "{Out}"
HLP=PDF
XLS=PDF
PPT=PDF
;DOC=PDF
PPS=PDF

XDOC=%COMSPEC% /C CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
mht=XDOC
doc=XDOC
docx=XDOC
;xls=XDOC
xlsx=XDOC
xlsm=XDOC
;ppt=XDOC
pptx=XDOC
pptm=XDOC
rtf=XDOC

CHM=Conv\Chm\FiltDump.exe -b -o "{Out}" "{In}" {CP:UTF16}
;CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

DJVU=Conv\Djvu\djvutxt.exe "{In}" "{Out}" {CP:UTF8}
DJV=DJVU

FB2=wscript.exe /B /NoLogo Conv\fb2txt\fb2txt_commandline.vbs "{In}" "{Out}"

#219: Author: Dimsok,

Posted: Sun Nov 27, 2016 22:40
—
У кого-нибудь остались ifilters от Citeknet? Во всём инете не сыскать.

#220: Ошибка у balabolka_text.exe Author: BigBadHort,

Posted: Sun Jan 15, 2017 14:31
—

Dimsok wrote:

cross-plus-a.___/balabolka_text.zip

Работает в разы шустрей, правда не столько форматов поддерживает.
Поддерживаемые форматы файлов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PDF, PRC, RTF, TXT

С сайта убрали balabolka_text.exe Crying or Very sad

Единственная которую нашел в сети 1.04 от 2013 года
Настроил все по вашему образцу - все находит но выдает ошибку (с противным блямканьем на каждом файле) - "This archive is not a valid Zip archive"
Причем по заголовку окна с ошибкой, видно что выдает ошибку balabolka_text.exe

(картнку не смог вставить)

Помогите исправить эту ошибку!!
Может у вас версия balabolka_text.exe поновее - прсьба выложить в обменник Rolling Eyes

з.ы.
вот мой конфиг

Code:

[Converters]

TXT={CP:ANSI} {CP:UTF8} {CP:UTF16}

HTM={CP:ANSI} {CP:UTF8}
HTML=HTM

XML={CP:UTF8} {CP:ANSI}

;MS RTF
;RTF={CP:RTF}
WRI={CP:RTF}

;Adobe Acrobat
;PDF=Conv\GetTextIFilter\GetTextIFilter.exe "{In}" "{Out}"
;HLP=PDF
;XLS=PDF
;PPT=PDF
;;DOC=PDF
;PPS=PDF

XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe -8 "{In}" > "{Out}" {CP:UTF8}
mht=XDOC
odt=XDOC
doc=XDOC
docx=XDOC
xls=XDOC
pdf=XDOC
;xls=XDOC
xlsx=XDOC
xlsm=XDOC
ppt=XDOC
;ppt=XDOC
pptx=XDOC
pptm=XDOC
rtf=XDOC

;CHM=Conv\Chm\chm2htm.bat -b -o "{Out}" "{In}" {CP:UTF16}
;CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

DJVUT=Conv\djvutxt\djvutxt.exe "{In}" "{Out}" {CP:UTF8}
djv=DJVUT
djvu=DJVUT

Balabolka_text=cmd /c Conv\balabolka\balabolka_text.exe -f "{In}" -o > "{Out}"
FB2=Balabolka_text
MOBI=Balabolka_text
AZW=Balabolka_text
EPUB=Balabolka_text
PRC=Balabolka_text
CHM=Balabolka_text
;RTF=Balabolka_text

Balabolka_text_7z=cmd /c Conv\balabolka_text\7z.exe e "{In}" -so|Conv\balabolka\balabolka_text.exe -i -o > "{Out} {CP:ANSI}
ZIP=Balabolka_text_7z
RAR=Balabolka_text_7z
7Z=Balabolka_text_7z
;FB2=wscript.exe /B /NoLogo Conv\fb2txt\fb2txt_commandline.vbs "{In}" "{Out}"

[/code]

#221: Author: Dimsok,

Posted: Sun Jan 15, 2017 16:20
—

Quote:

С сайта убрали balabolka_text.exe

А это что?
http://www.cross-plus-a.com/blb2txt.zip

Добавлено спустя 7 минут:

BigBadHort
Если какой-то файл не скачивается, надо для начала проверить домен на работоспособность, и уже искать через него.

#222: Теперь все нормально стало Author: BigBadHort,

Posted: Sun Jan 15, 2017 19:02
—

Dimsok wrote:

А это что?

Спасибо! Теперь все нормально стало Very Happy

#223: Author: BigBadHort,

Posted: Sun Jan 15, 2017 22:47
—
А может быть в одном pdf файле сразу две кодировки?

Преобразую с помощью blb2txt в текстовый файл, а поучается смесь из читаемого и не читаемого

Code:

Компания Common Craft выбрала видео. И хотя этот способ вполне удовлетво- ряет нас и нашу аудиторию, он лишь один из многих, подходящих для представле- ния объяснений таким образом, чтобы они сумели привлечь внимание. Подобных средств так много, что выбор может показаться тяжелой работой. Следующая глава поможет в выборе способа, соответствующего ограничениям, которые накладывает на вас ваша аудитория, и имеющемуся набору инструментов.

ÎÁÚßÑÍÅÍÈÅ Â ÐÀÁÎÒÅ: ÊÈÒ ÏÈÐÑ È INTEL

Êèò Ïèðñ ñòàë çâåçäîé êîðïîðàöèè Intel, ïîòîìó ÷òî óìååò îáúÿñíÿòü ñîòðóäíèêàì ñëîæ- íûé ìèð êîìïåíñàöèé ïðîñòûìè ñëîâàìè. Ìû âìåñòå ðàáîòàëè íàä ìíîæåñòâîì âè- äåîïðîåêòîâ, è îí ñòàë îäíèì èç íàøèõ ñàìûõ óâàæàåìûõ ïàðòíåðîâ. Íàøà ñîâìåñò- íàÿ ðàáîòà ñ åãî êîëëåãîé Ìèøåëü Äæåéìñ ïîëó÷èëà â 2011 ãîäó çîëîòóþ íàãðàäó IABC Quill*. ß ïîïðîñèë Êèòà ðàññêàçàòü î ìåòîäèêå åãî îáúÿñíåíèé.

#224: Author: Dimsok,

Posted: Sun Jan 15, 2017 23:12
—
С pdf скверно работает. Но можете написать автору сюда, и дать проблемный файл:
http://mytts.forum2x2.ru/t483-topic#9509

Ошибки, которые я замечал, он исправлял, и работу с mht тоже поправил.

#225: Author: Skif_off,

Posted: Wed Jan 18, 2017 18:58
—
Подскажите, пожалуйста, что не так: при поиске получаю ошибку

Quote:

Cannot convert file "path\file.docx" to "C:\TempTextSrch.txt".
Command: "C:\Windows\system32\cmd.exe /C Conv\XDoc2txt\xdoc2txt.exe "path\file.docx" > "C:\TempTextSrch.txt"".

%TEMP%=C:\Temp, в TextSearch.ini

Code:

XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"
...
docx=XDOC

ТС 8.52а, Win7x32

#226: Author: Alextp,

Posted: Wed Jan 18, 2017 21:51
—
Skif_off
Может плагин ждет %temp% с слешем а у тебя слеша нету.

#227: Author: Skif_off,

Posted: Wed Jan 18, 2017 23:03
—

Alextp wrote:

Может плагин ждет %temp% с слешем

И это странно, вроде дефолтное значение тоже без слеша. Запускал set - только в значении PowerShell'овской переменной есть конечный слеш. Непонятно...

А нет ли в планах научить OdfToTxt юникоду (UTF-8)? Или что-то подобное уже есть?

#228: Author: Alextp,

Posted: Wed Jan 18, 2017 23:35
—
ВИжу исходник и там ошибка- нет слеша правда, просто
клеится c:\temp + Txtsrch.txt. Поправить надо.

Какую именно версию XDoc2txt мне взять?

#229: Author: Skif_off,

Posted: Thu Jan 19, 2017 01:37
—
Alextp
Наверное, до WinVista это не было проблемой, а после в корень системного раздела так просто не напишешь?

Насчёт xdoc2txt не знаю, что сказать, выше Mailk писал, что с 2.x у него работает.
2.х в отличие от 1.х поддерживает юникод и развивается (в 1.х автор правил только несколько критических багов), но поддерживает только Win2k и выше + требует Runtime-библиотеки Visual C++ 2010 (до 2.12 - Visual C++ 2008).
Наверное, лучше 2.х, совместимость с 1.х для желающих ведь никуда не денется? К тому же можно будет использовать один exe'шник и две dll'ки совместно с PCREsearch.

Добавлено спустя 2 минуты:

С другой стороны - 1.х самодостаточна из коробки, а желающие могут заменить... Сегодня я какой-то неуверенный Sad

#230: Author: Alextp,

Posted: Thu Jan 19, 2017 03:09
—
Тогда это все -надо брать 2.х, раз развивается. todo.

Добавлено спустя 2 минуты:

Винду7 счас будут забывать, вон новость, что на нее патчи ставятся но не помогают уже.

#231: Author: Skif_off,

Posted: Thu Jan 19, 2017 11:14
—
Alextp
Спасибо, будем ждать.

Все эти предостерегающие вопли о Win7 производят впечатление скорее маркетинга... И MS наглядно демонстрировали и свои возможности, и беспардонность.

#232: Author: Alextp,

Posted: Thu Jan 19, 2017 23:15
—
все это переписано (еще не все) на Лазарус.
Лаз я уже отлично знаю...
В процессе какие-то куски кода которые были кровью и потом написаны и трудно отлажены на низком уровне ВинАпи - выкинуны нафиг,в Лазе есть уже. Например "читать файл в строку" есть просто как обычная ф-ция в лазе. Но тут вылезает то что в Лаз другая кодировка имени файла. А была ansi.Но все равно переделать нетрудно.Х64 в Лазе легко.

#233: Author: Alextp,

Posted: Fri Jan 20, 2017 03:00
—
Beta1.50
http://uvviewsoft.com/bb/wdx_TextSearch.zip

#234: Author: BeardFury78,

Posted: Thu Feb 02, 2017 05:38
—
Хотел было использовать плагин для переименования текстовых файлов в ИГП, используя данные плагина, но увидел, что нету возможности, поля просто нет. Нет ли в планах добавить?

#235: Author: Avada, Location: Россия, Саратов

Posted: Thu Feb 02, 2017 06:01
—
Alextp
Файл на сервере по указанной ссылке не найден.

#236: Author: Skif_off,

Posted: Thu Feb 02, 2017 12:25
—
BeardFury78
Как можно использовать плагин, если, грубо говоря, плагин возвращает только true или false?

Avada
И не должен быть найден, т.к. уже зарелизен, а в http://uvviewsoft.com/bb/ всегда лежали временные бета- и тестовые версии.

#237: Author: Lisabon,

Posted: Thu Feb 15, 2018 18:15
—
Может кто-то подскажет в чём проблема...
Надо найти в файле xps (Ссылка) слово, например, Примечание

В TextSearch.ini пишу код:

Code:

XPS=%COMSPEC% /C ..\..\wcx\Total7zip\Modules\7z_x86\7zG.exe e "{InShort}" *\*\*\*.fpage -so > "{Out}" -r {CP:UTF8}
OXPS=XPS

Произвожу поиск:

и ничего не находит.

Пробую найти слово,например, My Folder

и слово находится.
Проблема поиска латиницы.
Внутри файла xps, находятся файлы fpage (xps.xps\Documents\1\Pages\1.fpage) и в них находится искомый текст. Кодировка файла 1.fpage UTF-8, без BOM.

#238: Author: Alextp,

Posted: Thu Feb 22, 2018 11:46
—
Проблема поиска в utf8. В коде идет возврат типа FT_FULLTEXT.
вопрос - если сделать _еще_ и возврат FT_FULLTEXT_W (есть такой тип? где дока?)
то тогда юникод должен искаться?
Надо удалить поддержку FT_FULLTEXT?

Добавлено спустя 10 минут:

в доке Content-Plugin Guide
2.1se 2011/09/07
инфы не нашел.

#239: Author: Skif_off,

Posted: Thu Feb 22, 2018 13:26
—
Alextp
Есть ft_fulltextw, на оффоруме обсуждалось. ЕМНИП, то же, что и ft_fulltext, но только в UTF-16LE, как ft_stringw. Кажется, первым добавил автор xPDFSearch, milo1012 ещё участвовал в дискуссии.

Так понимаю, если использовать только вместо ft_fulltext, то будет сломана совместимость с предыдущими версиями, будет работать с TC9+?

#240: Author: Alextp,

Posted: Thu Feb 22, 2018 14:36
—
И как делать, заменять поле ft_fulltext --> ft_fulltextW ?
или как.

Добавлено спустя 2 часа 16 минут:

заменил на тип fulltextW.
Бета 1.6, попробуйте, у меня ищет рус буквы, китайские не тестил.
http://uvviewsoft.com/bb/wdx_TextSearch.zip

#241: Author: Lisabon,

Posted: Thu Feb 22, 2018 17:59
—
Alextp

Quote:

Бета 1.6, попробуйте

Погонял новую версию и проблем не увидел пока. Кириллицу ищет в юникодных файлах. Спасибо!

Добавлено спустя 1 час 54 минуты:

Alextp
Теперь проблема поиска кириллицы в файлах с кодировкой ANSI.

#242: Author: Alextp,

Posted: Thu Feb 22, 2018 20:56
—
Посмотрю наверное завтра.

#243: Author: Alextp,

Posted: Fri Feb 23, 2018 11:22
—
Обновил- 1.6.1, у меня заработало ansi. oem убрано, может временно. Не знаю как он нужен в 2018году.

#244: Author: Avada, Location: Россия, Саратов

Posted: Fri Feb 23, 2018 12:11
—
Alextp
Не надо убирать, иногда и сейчас нужен. Опять же в стандартных поисковых опциях TC OEM есть, функционал плагина не должен быть хуже.

#245: Author: Alextp,

Posted: Fri Feb 23, 2018 12:13
—
Вернул OEM, совсем другой код, проверил на файле cp866- Ok.
V1.6.2.

#246: Author: Avada, Location: Россия, Саратов

Posted: Fri Feb 23, 2018 12:19
—
Alextp
То, что я недавно скачивал как версию 1.6.1 (по wincmd.ru), и нынешний архив 1.6.2 (опять же по wincmd.ru) — это внутри одно и то же. Какая там версия на самом деле? И хорошо бы в плагине номер версии указывать и в имени архива, и внутренний.

#247: Author: Alextp,

Posted: Fri Feb 23, 2018 19:42
—
Версия 1.6.1 была раньше по дате wdx file. 1.6.2 от сегодня от 11 часов. я ее компилил в 11 часов.

Добавлено спустя 2 минуты:

Номер версии - в файле history.txt.

Добавлено спустя 11 минут:

В сорце в sconvert.pas есть добавка для OEM

Code:

Result:= '';
case CP of
cpANSI:
Result:= Conv_AnsiToUtf8(S);
cpOEM:
Result:= Conv_OemToUtf8(S);
cpUTF8:
Result:= S;

#248: Author: Avada, Location: Россия, Саратов

Posted: Sat Feb 24, 2018 07:43
—
Alextp
Вот теперь на wincmd.ru действительно скачивается версия 1.6.2 — и по датам файлов, и по ридми. У предыдущей (в том числе уже обозначенной на сайте как 1.6.2) время модификации у библиотек было примерно на час раньше, а ридми и прочее для 1.6.1. Можно считать, что вопрос закрыт.

#249: Author: i1,

Posted: Thu Mar 01, 2018 16:23
—
В продолжение сообщения. Windows 10 x64 (английская версия), Total Commander 9.12 x64. Актуальная версия плагина 1.6.2 со стандартными настройками:
1. Не ищет русский текст (например, в файле *.doc). При этом латиницу ищет.
2. Вызывает ошибку (видимо только на файлах с русскими буквами):
https://i.imgur.com/tMxPY1X.png

Что нужно изменить в настройках для устранения данных проблем?

#250: Author: Avada, Location: Россия, Саратов

Posted: Thu Mar 01, 2018 16:53
—
i1
Вы правила форума освежить в памяти не хотите? Получите замечание за их нарушение. Неформатная картинка заменена ссылкой.

#251: Author: Lisabon,

Posted: Thu Mar 01, 2018 17:42
—
i1
Попробуй измени в TextSearch.ini

Code:

;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2Txt\XDoc2Txt.exe "{In}" > "{Out}"

на

Code:

;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2Txt\XDoc2Txt.exe -8 "{In}" > "{Out}"

#252: Author: i1,

Posted: Thu Mar 01, 2018 18:05
—
Lisabon, спасибо, эта настройка позволила искать русский текст в файлах, но проблема с названиями файлов на русском языке осталась (возникает ошибка как на скриншоте).

#253: Author: Lisabon,

Posted: Thu Mar 01, 2018 18:28
—
i1
Попробуй замени:

Code:

"{In}"

на

Code:

"{InShort}"

#254: Author: i1,

Posted: Thu Mar 01, 2018 18:37
—
Lisabon, теперь ищет в файлах с русскими названиями, но спотыкается на файле "qwa.docx". Обрезает букву X в расширении.
https://imgur.com/RzDhq1P

#255: Author: Lisabon,

Posted: Thu Mar 01, 2018 18:49
—
i1
Скорее всего проблема в самом конвертере XDoc2Txt. Наверное привередливый конвертер.
Подсказать ещё что-то дельное по XDoc2Txt, нечего. Может кто-то ещё мыслишки свои подкинет по этой проблеме с XDoc2Txt.
Как вариант использовать другой конвертер.

#256: Author: Skif_off,

Posted: Fri Mar 02, 2018 01:55
—
Lisabon
Замена на "{InShort}" не очень хороший вариант ещё и потому, что отключение коротких имён - один из советов по оптимизации SSD (но фича при этом отключается глобально).

>> Как вариант использовать другой конвертер.
Их и нет почти Smile

i1
А если выполнить ту же команду напрямую, в консоли? xdoc2txt версии 2.х или 1.х? Автор - японец, вроде, странно иметь подобные проблемы...

в голову пришла ешё такая мысль, сомнительная:

Code:

XDOC=%COMSPEC% /C chcp 65001 & Conv\XDoc2Txt\XDoc2Txt.exe "{In}" > "{Out}"

#257: Author: i1,

Posted: Fri Mar 02, 2018 05:16
—
Lisabon, Skif_off, спасибо за ваши ответы.
Skif_off, chcp не помогло.

Для себя нашел настройки для необходимых мне форматов (doc(x), xls(x), pdf, ppt(x), htm(l)) — TextSearch.ini. Дополнительно используется DocToText.

#258: Author: Flasher, Location: Москва

Posted: Fri Mar 02, 2018 07:46
—
Я бы попробовал:

Code:

XDOC=%ComSpec% /u /c Conv\XDoc2Txt\XDoc2Txt.exe -u "{In}" > "{Out}"

Но у меня юникодная x32 вообще ни черта не работает...

#259: Author: Alextp,

Posted: Fri Mar 02, 2018 09:25
—
i1
Если включить лог опцией Log=1 то что показывает лог?

#260: Author: Skif_off,

Posted: Fri Mar 02, 2018 11:05
—
Flasher
Оно runtime-библиотеки требует, в наличии? Попробуй версию из PCREsearch.

#261: Author: Alextp,

Posted: Fri Mar 02, 2018 12:20
—
Заменил в Лазарусе класс на юникодный. Может теперь будет ОК с юникодными ком строками. 1.6.3.

#262: Author: i1,

Posted: Fri Mar 02, 2018 13:01
—
Alextp, при включённой опции получаю вылет TC, лог в папке Temp отсутствует.
Версия 1.6.3 со стандартными настройками выдаёт аналогичную ранее указанной ошибку. С моими настройками работает — ищет.

#263: Author: Lisabon,

Posted: Fri Mar 02, 2018 13:11
—
i1
Попробуй замени:

Code:

;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe -8 "{InShort}" > "{Out}"

на

Code:

;XDoc2Txt
XDOC=%COMSPEC% /U /C Conv\XDoc2txt\xdoc2txt.exe -U "{In}" > "{Out}" {CP:UTF16}

#264: Author: i1,

Posted: Fri Mar 02, 2018 13:20
—
Lisabon, с такими настройками нет ошибок, но и ничего не находит. Ещё заметил странность — с моими настройками плагин спотыкается на временных файлах с ~$ в начале имени файла.

#265: Author: Alextp,

Posted: Fri Mar 02, 2018 15:45
—
i1, если включить опцию "не удалять out file", можно посмотреть правильно ли формируется выход xdoct2txt.

#266: Author: i1,

Posted: Sun Mar 04, 2018 09:33
—
Alextp, заглянул в файл TextSrch.txt до того как нажал ОК в окне с ошибкой - он пустой.
https://imgur.com/txUllBI

#267: Author: Alextp,

Posted: Sun Mar 04, 2018 11:13
—
i1, тогда конвертер дает такой файл.

#268: Author: i1,

Posted: Sun Mar 04, 2018 14:05
—
Alextp, возможно ли добавить в плагин опцию игнорирования ошибок конвертирования и вывода по окончании поиска количества ошибок? Или хотя бы просто игнорирования.

#269: Author: Alextp,

Posted: Sun Mar 04, 2018 22:33
—
Уже есть опция Log=1 - она покажет в логе ошибки вроде. Зачем еще опция.

#270: Author: i1,

Posted: Mon Mar 05, 2018 03:59
—
Alextp, чтобы можно было запустить поиск на большом количестве файлов и не заглядывать в TC в ожидании появления ошибки, а после поиска видеть какие файлы не обработались.

#271: Author: Alextp,

Posted: Mon Mar 05, 2018 15:37
—
Вообще то это контент плагин, как он может что то выводить, это чепуха, плаг должен молча поискать и все.

#272: Author: i1,

Posted: Mon Mar 05, 2018 16:50
—
Alextp, я предложил вывод уведомления как вариант. В первую очередь удобной была бы функция игнорирования ошибок. Пример - 100 файлов, из которых несколько нечитаемы конвертером. Из-за них и приходится ждать окна с ошибкой, чтобы нажать ОК и продолжить поиск в остальных.

#273: Author: Alextp,

Posted: Mon Mar 05, 2018 18:40
—
1.6.4- фиксено ошибка в опции Log=1.
Теперь пишет лог и ошибки нет. "игнорирования ошибок"- уже тут. Это опция ShowErrors=0.

#274: Author: tumanovalex,

Posted: Sun Dec 02, 2018 12:07
—
Только начинаю работать с плагинами. Потребовался поиск в doc и docx в Total Commander 7, в котором нет возможности поиска в docx. Посоветовали TextSearch. Он установился в директорию plugins, виден в перечне плагинов wdx, но я не понял, нужно ли его настраивать и как его запускать. Помогите, пожалуйста.

#275: Author: Avada, Location: Россия, Саратов

Posted: Sun Dec 02, 2018 16:02
—
tumanovalex
Правила форума почитайте. Про "настраивать и запускать" см. ридми плагина. Ссылки на общие правила работы с WDX-плагинами приводились многократно (пример). Конкретно про указанные форматы — поиск по форуму (пример).
И надо TC обновить до приемлемой версии, где всё это без плагинов давным-давно прекрасно ищется, а не придумывать себе проблемы и якобы серьезные причины не обновляться. По работе в ТC 7 никакой адекватной техподдержки тут уже нет и больше не будет.

#276: Author: tumanovalex,

Posted: Sun Dec 02, 2018 22:37
—
Спасибо за ответ. Я видел новые версии, но мне в седьмой очень нравится, что при нажатии лампочки появляется другая панель инструментов. В новых версиях я такой возможности не нашел. Но в 7 версии нет поиска по новейшим типам документов. Видимо, пришла пора переходить на современные версии

#277: Author: Avada, Location: Россия, Саратов

Posted: Sun Dec 02, 2018 23:17
—
tumanovalex
М-да... Не в седьмой версии "лампочка", а в какой-то сборке. А стандартное создание кнопки для перехода на другую панель собственными силами занимает ровно минуту. С любым значком и в любой версии. На этом оффтоп, полагаю, закончен.

#278: Author: Ygg,

Posted: Mon Dec 31, 2018 17:01
—
Японцы обновили конвертер xdox2txt
_ebstudio.info/home/xdoc2txt.html#download

Google translate wrote:

2.17 2018/10/16

Fixed an issue where extra descriptors are displayed in RTF after 1.9 (Word 2007)
Ruby(??) removal of docx
Fixed an issue that ended abnormally for some PDFs

#279: Author: Alextp,

Posted: Tue Jan 01, 2019 23:05
—
Наверно, из-за такой мелочи обновлять сборку не буду
(мелочи - это любого апдейта этой программы).

#280: Author: kosla,

Posted: Fri Feb 14, 2020 15:58
—
С помощью этого плагина нельзя искать с исключением
например содержащие текст 123 при этом не содержащие 1234?

#281: Author: Avada, Location: Россия, Саратов

Posted: Fri Feb 14, 2020 16:23
—
kosla
Разумеется, можно. Третья страница диалога поиска TC. Выберите в списке плагин и создайте с ним два правила, объединенные через И. Две разных операции: cодержит и !содержит (то есть не содержит). Для каждой указать нужное значение.

#282: Author: kosla,

Posted: Sat Feb 15, 2020 17:34
—

Avada wrote:

kosla
Разумеется, можно. Третья страница диалога поиска TC. Выберите в списке плагин и создайте с ним два правила, объединенные через И. Две разных операции: cодержит и !содержит (то есть не содержит). Для каждой указать нужное значение.

не знал что !содержит значит не содержит

#283: Author: Avada, Location: Россия, Саратов

Posted: Sat Feb 15, 2020 17:47
—
kosla
В справку иногда заглядывать очень полезно.
А полное цитирование предыдущих сообщений (особенно с включением собственного ника) на нашем форуме категорически не одобряется и считается оверквотингом.

Total Commander -> Плагины Total Commander

output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Page 1 of 1