TextSearch (Content-плагин)
Select messages from
# through # FAQ
[/[Print]\]

Total Commander -> Плагины Total Commander

#1: TextSearch (Content-плагин) Author: Alextp PostPosted: Tue Aug 14, 2007 07:16
    —
То, что обсуждалось здесь.
На данный момент плагин имеет конвертер только для OpenOffice.org. Ищется конвертер для DOC/XLS.

Скачать

#2:  Author: d-viewLocation: xUSSR PostPosted: Tue Aug 14, 2007 10:52
    —
Конвертер PDF->TXT из плагина (PDF)filter 1.05.51
http://wincmd.ru/plugring/filter.html

Конвертеры MS (плагин Office 1.1) перегоняют только в RTF или могут и в TXT?
http://wincmd.ru/plugring/office.html

#3:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Tue Aug 14, 2007 12:43
    —
d-view wrote:
Конвертеры MS (плагин Office 1.1) перегоняют только в RTF или могут и в TXT?

Разве проблема перегнать RTF в TXT?

#4:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 13:31
    —
Круто!
Алексей, как всегда, на высоте Smile

Сразу ламерский вопрос:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.
Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо, CHM, MHT - и всё это должен быть один и тот же текст.
Я хочу проверить - есть ли мелкие различия между файлами и оставить наиболее полную версию.
Сейчас приходиться всё экспортировать в текст, а потом сравнивать.
Может с этим плагином такое сравнение пойдёт без этапа ручной конвертации?

Спасибо Smile


Last edited by Ник on Tue Aug 14, 2007 13:43; edited 2 times in total

#5:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 13:37
    —
Видимо, нужно вот это:
Quote:
Xpdf 3.01 pl2 - утилита командной строки, конвертер PDF-файлов. Файлы настроек для конвертации файлов с русским языком включены. Бесплатно. 1,67 Мб. 08.02.2006. http://www.foolabs.com/xpdf/home.html


и вот это:
Quote:
Converters pack for PDF-Filter plugin 1.1 - несколько фильтров-конвертеров с настройками для плагина (PDF)Filter: DjVu, DMP (Windows minidump), ExeDLL, Inx (Installshield decompiler), Java, PDF, PS. Freeware. 4,2 Мб. Автор: Vladimir L. Olovyannikov. 01.06.2006. http://wincmd.ru/plugring/pdf_filter_converters_pack.html

#6:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 14:07
    —
И вот ещё - есть какой-то странный
DjVu IFilter
http://www.lizardtech.com/download/dl_download.php?detail=doc_ifilter&platform=win
но я так и не смог с ним разобраться и понять - зачем он нужен...
Вроде бы, это то самое и есть.

Консольный DjVuDecode я тоже не смог заставить работать - у кого получается - выложите MD5, плз, - может у меня не та версия...

#7:  Author: Stepan_Lameroff PostPosted: Tue Aug 14, 2007 14:40
    —
Прикрутил к Вашему плагину извлечение текста при помощи IFilter.
Работает замечательно, большое спасибо.
SRC: QA Извлечение текста документов (IFilter)

#8:  Author: Stepan_Lameroff PostPosted: Tue Aug 14, 2007 17:06
    —
Если не устраивает IFilter, то есть еще такая приблуда:
GetText
Quote:

GetText is a free file-to-text conversion command-line utility which extracts textual contents from files of multiple formats.
To perform text conversion, GetText uses Text Filters (read more about Text Filters). Kryloff Technologies, Inc. supplies this utility with the following filters:
* Htm2Txt.dll which converts HTM and HTML files into TXT files;
* Rtf2Txt.dll for RTF convertion (Rich Text Format files);
* Pdf2Txt.dll for PDF convertion (Adobe Portable Document Format files);
* Wpd2Txt.dll for WPD convertion (Word Perfect files).
* Hlp2Txt.dll which converts MS Help (.HLP) files into TXT files;
* DocDll.dll for DOC convertion (MS Word files); the filter is designed to function under MS Windows 2000, XP, 2003, Vista and later;
* XLSDll.dll for XLS convertion (MS Excel files); functions under MS Windows 2000, XP, 2003, Vista and later;
* PPTDll.dll for PPT convertion (MS Power Point files); functions under MS Windows 2000, XP, 2003, Vista and later;
* Uncd2Txt.dll to extract plain text from UNICODE files.
* XMLDll.dll to extract plain text from or convert XML file contents into an appropriate code page.

Kryloff Technologies

#9:  Author: Alextp PostPosted: Tue Aug 14, 2007 17:54
    —
Quote:
--Конвертер PDF->TXT из плагина (PDF)filter 1.05.51

Я смотрел. Это XPDF, он работает. Я послал запрос автору, можно ли включить XPDF в поставку моего плагина.

Quote:
-Конвертеры MS (плагин Office 1.1) перегоняют только в RTF

А там самих конвертеров нет.

Quote:
--Сразу ламерский вопрос:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.
Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо


IMHO нельзя. У Тотала нет таких средств.
Тут где-то тема была

Quote:
--Converters pack for PDF-Filter plugin 1.1 - несколько фильтров-конвертеров с настройками для плагина (PDF)Filter: DjVu, DMP (Windows minidump), ExeDLL


Не качается..

Quote:
--Если не устраивает IFilter, то есть еще такая приблуда:
GetText


То что нужно.

#10:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 18:20
    —
Alextp wrote:
там самих конвертеров нет


Выложил сюда
http://webfile.ru/1497074
пароль 123, там 5 Мб, но это от МСО - проблемы лицензии.
Хотя, ИМХО, если у кого стоит МСО - он использовать имеет право.

Alextp wrote:
Quote:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов. Допустим, скачал я из Сети файлы - текстовый, гипертекст, Wоrd, ООо

IMHO нельзя. У Тотала нет таких средств.
Тут где-то тема была


Где?!?!

Alextp wrote:
Quote:
Converters pack for PDF-Filter plugin 1.1
Не качается..


Выложил
http://webfile.ru/1497077
пароль 123, там почти 5 Мб, но там бОльшую часть занимает xpdf и DjVudecode (они есть отдельно).

#11:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 18:22
    —
Stepan_Lameroff wrote:
Если не устраивает IFilter, то есть еще такая приблуда: GetText


Как я понял, он использует KT Text Filters (библиотеки) http://www.kryltech.com/filters.htm - а они платные...

#12:  Author: Alextp PostPosted: Tue Aug 14, 2007 18:40
    —
Ник

http://forum.wincmd.ru/viewtopic.php?t=9314&highlight=

Quote:
Как я понял, он использует KT Text Filters (библиотеки) - а они платные...


Жалко. Там для DOC конвертер.


Хорошо бы сделать пак: все конвертеры + TextSEarch.Sample.ini
чтобы распаковать его в каталог с плагином и работать.

#13:  Author: Lev PostPosted: Tue Aug 14, 2007 18:49
    —
Quote:
Нельзя ли этот плагин присобачить для сравнения файлов одинакового содержания, но разных форматов.
Посмотрите в сторону CompareIt - шароварный компаратор, но автор не сильно протестует против его использования после истечения срока действия. Бета 4-й версии автоматом конвертирует разные файлы в текст и сравнивает. Конвертеры разных форматов в текст с поддержкой коммандной строки можно найти на http://www.grigsoft.com/wc3addin.htm . Не думаю, что их можно свободно распространять с TextSearch plugin, но для личных целей...
Часть конвертеров встроена в прогу и отдельно не лежит.

PS кстати, теперь можно попытаться реализовать уже обсуждавшееся сравнение по пользовательским колонкам для различных файлов. Нужен только генератор текстиков с результатами.

#14:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 19:05
    —
Alextp wrote:
Quote:
Как я понял, он использует KT Text Filters (библиотеки) - а они платные...

Жалко. Там для DOC конвертер.


Я попробовал - всё работает на ура Shocked
Посмотри лицензию - вроде можно как-то с автором договориться.
Он явно наш человек Smile
Я в конкретных правовых ситуациях софта не очень секу - только теория Smile

За ссылки большое спасибо Smile

#15:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 19:15
    —
Lev wrote:
Посмотрите в сторону CompareIt - шароварный компаратор...


Хотелось бы остаться в рамках ТК. Для частных целей, ИМХО, достаточно.

Если начну пользоваться профессионально, придёться покупать CompareIt..

#16:  Author: НикLocation: Москва PostPosted: Tue Aug 14, 2007 23:28
    —
Скачал новую версию - большое спасибо Smile

Может быть дать полностью описание настроек плагина - чтобы народ и сам смог подключать новые конверторы?

Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF (его нет вообще);
3) В листер-плагине (PDF)Filter строка выглядит так:
Quote:
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -layout %fn% %o% %hide%
Format_TXT=C:\Program Files\totalcmd\plugins\wlx\PDFFilter\PDF\xpdf\pdftotext.exe %fp%-f %p1% %lp%-l %p2% -enc KOI8-R -layout %fn% %o% %hide% pdftotextKOI

На просмотр это работает - если есть текстовый слой.
Думаю, что нужно танцевать от подобных настроек...

#17:  Author: Alextp PostPosted: Wed Aug 15, 2007 05:21
    —
Quote:
Версия с XPDF, по-моему, не ищет в PDF, т.к., ИМХО:
1) Нужно на той же странице скачать и положить в каталог файлы раскладки для кириллицы;
2) Нужно взять настройки из прилагающегося к ним файла, указать в них пути к (1) и внести всё это в файл настроек XPDF


Я сам настраивать XPDF не буду.
Если кто настроит, присылайте мне.

#18:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 11:28
    —
Тогда давай список команд для плагина...
Что ещё есть, кроме "{In}" "{Out}" ?

#19:  Author: Alextp PostPosted: Wed Aug 15, 2007 11:44
    —
Написал в Readme, секция "Configuration file"...

#20:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 14:32
    —
Краткий отчёт о быстром тестировании Smile :

1) PDF:

При использовании XPDF, действительно, нужно скачать на той же странице внизу файлик для кириллицы, там есть образец файла настроек, из него нужно взять весь небольшой текст и скопировать его в файл xpdf (без расширения) - файл настроек (если его нет в директории XPDF - создать).
Однако, в этом варианте текст конвертируется в ту кодировку, что заложена(?) в PDF - если настроить конвертацию KOI-8R, то Windows-1251 не виден.
(PDF)Filter решает эту проблему наличием двух вариантов просмотра и ручным переключением между ними (кстати - он тоже позволяет искать в PDF - но изнутри себя).

GetText c PDF работает не очень правильно - если не может конвертировать, то выдаёт ошибку, что не даёт перейти к следующему файлу и вообще отвлекает (или это мои личные глюки? - попробуйте, плз, у кого есть файл с текстовым слоем - и без...). Может как-то делать отдельный список в логе - что сконвертировалось, а что нет? Чтобы юзер видел результаты работы!
Кстати, здесь, похоже, та же проблема с кодировками - в одной ищет, в другой - нет...
ИМХО, нужно предупреждение для юзера и какой-то переключатель кодировок - либо искать два раза с разными настройками?
Хотя, вроде, ищет... - нужно, ИМХО, дальнейшее тестирование - но, при этом, следует точно знать кодировку исходного PDF...

Grig Software converters (PDF DFM) - вообще непонятно как прикрутить - это DLL? И будет ли он работать?

Adobe PDF IFilter - тоже DLL, как её правильно запустить?

2) DOC, XLS:

GetText - всё отлично работает и ищется! Но я не верифицировал на полноту и адекватность поиска...

AntiWord - установить толком не смог - больно замудрёно всё. Кто разобрался, как его установить и с ним работать - черкните, плз. Должна быть полезная прога!

SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?

3) DjVu:

DjVu IFilter - вообще непонятно как прикрутить - это DLL? Я его установил - и куда он делся? Smile

4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

ИМХО, общая проблема - множественность кодировок русского языка и отказ ТК работать с KOI-8R и с некоторыми Уникодами...

Пока всё Smile

#21:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:06
    —
2 Alextp
По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже Sad ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Evil or Very Mad Но думаю сегодня доделать. Если интересно - могу выложить.

Free Components Package
Использование IFilter в Delphi (может боян, сильно не пинайте)
Quote:

GetFileContentsFromIFilter function - This function reads the contents of files using the indexing service's filter implementation. The indexing service is installed on Windows 2000/XP machines (and NT machines running the Option Pack). This function lets you read the contents of a variety of files recognized by the indexing service without knowing the internal file format. An ActiveX DLL implemeting this function is also available here.

#22:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:25
    —
И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?

#23:  Author: Stepan_Lameroff PostPosted: Wed Aug 15, 2007 17:50
    —
Проблема с PDF решилась добавлением C:\Program Files\Adobe\Acrobat 8.0\Acrobat в PATH.
Все равно непонятно, почему LoadLibrary не хочет загружать AcroIF.dll (передается правильный полный путь).
Извиняюсь за OFFTOP (накипело, однако)

#24:  Author: НикLocation: Москва PostPosted: Wed Aug 15, 2007 18:42
    —
А почему FoxItReader без установленного Adobe Acrobat Reader не умеет выделять и копировать слова из текстового слоя - а после установки Ридера - легко это делает?

Ответ:
потому-что монополисты, вроде Адоба делают всё через ж.. и брешут пользователям...

#25:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 09:15
    —
Ник wrote:
4) FB2:

Для этого формата есть FB2 to Any (Дмитрий Грибов) http://www.gribuser.ru/xml/fictionbook/ , но я не понял, как его запустить в командной строке - написал автору, жду ответа...

Да ну, зачем?
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст.
Возможно распознать кодировку, если напрямую не прописана.

#26:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 10:19
    —
Моторокер wrote:
Элементарно грохнуть все тэги, ещё и HTML будет переводить в текст


Элементарно - сделайте и расскажите здесь...
Или это теория?
Я пока делаю то, что могу сделать реально!

#27:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:25
    —
Ник
Потом посмотрю.


Stepan_Lameroff
Quote:
--По ссылке по поводу IFilter с RSDN пример имеет проблемы с русской кодировкой. Дорабатывать напильником не хотелось (да и CPP подзабыл уже ). Набросал быстро на шарпе - все работает нормально (включая кодировки), только проблема с PDF - стоит Acrobat 8.1 Но думаю сегодня доделать. Если интересно - могу выложить.


Выложите (желательно пак: настроенный конвертер в папке Conv + TExtSEarch.ini).


Quote:
--И еще просьба.
Нельзя ли сделать в конфиге секцию (или ключ) с обработчиком по умолчанию?


Все равно же IFilter может обрабатывать не все расширения. Почему не перечислить их все?

#28:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:29
    —
По поводу FB2:

нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Тогда можно записать:

HTML=Conv\tags.exe "{In}" "{Out}"
XML=HTML
FB2=HTML

#29:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 10:51
    —
Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

#30:  Author: Alextp PostPosted: Thu Aug 16, 2007 10:57
    —
Не знаю. Утилита должна учитывать эти объекты.

#31:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 11:32
    —
Вот я и веду переговоры с автором FB2 to Any Smile

#32:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 12:54
    —
Ник wrote:
Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

Элементарно – всё что между <binary и </binary>

Alextp wrote:
нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Ща попробую, есть эфбэшки.

#33:  Author: Alextp PostPosted: Thu Aug 16, 2007 13:17
    —
Моторокер
Надо чтобы текст разделялся пробелами после стрипанья тегов.


Last edited by Alextp on Thu Aug 16, 2007 14:18; edited 4 times in total

#34:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 13:18
    —
Я кручу FB2 to Any.

Скрипт fb2txt_interactive.vbs работает отлично.
Скрипт fb2txt_commandline.vbs даёт ошибку на 90 строке 1 позиция - так и не понял - ошибка в скрипте или в документе - я не особо волоку в скриптах.

Посмотрите кто-нибудь, плз, - инструмент уже готовый, его, ИМХО, просто надо настроить и научиться им пользоваться.

Файлы FB2 для проверки могу прислать...

#35:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 14:04
    —
Alextp wrote:
Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов.

Что это значит?
Просто тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку:
xml2txt.rar (22 Kb)
Параметры – входной [и выходной] файл

#36:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 14:48
    —
Моторокер wrote:
Alextp wrote:
Хорошо. Надо только чтобы текст разделялся пробелами после стрипанья тегов.

Что это значит?


Значит - чтобы слова не слипались после удаления тэгов... Smile

#37:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 14:50
    —
Моторокер wrote:
тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку


Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

#38:  Author: Alextp PostPosted: Thu Aug 16, 2007 14:57
    —
Quote:
Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... Smile


Именно. Сейчас слипаются.

#39:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:07
    —
И потом - в FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 - ТК вроде как не работает нормально и полноценно с Уникодом (особенно без ручного выставления кодировки при поиске и просмотре).

Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...

Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?

Иначе легче искать AVSearch, который все эти кодировки поддерживает + RTF видит нормально...

#40:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 15:21
    —
Ник wrote:
Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

Работает хоть быстрее? Smile

Я же говорю, решение в лоб – чтобы показать, что это возможно и без других программ. По идее файл надо грузить/резать
частями.
Ещё и кодировку текста надо определять (FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 ).
И тэги символов (&amp;) заменять на сами символы (&).

Ник wrote:
Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.

Поддерживаю.

Ник wrote:
для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой

А как он узнает, что кодировка та?
А если узнает, зачем выдывать ошибки? Сделать, чтобы кодировка была та, конвертировать.

#41:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:31
    —
Моторокер wrote:
Работает хоть быстрее?

Медленнее намного...
И мусор остаётся (что естественно).

Лучше посмотрите, плз, скрипт от FB2 to Any - там, ИМХО, совсем легко - а прога уже отлаженная...

Алексей!
Idea Думаю данный плагин + GetText решают, наконец, проблему поиска в RTF!
Спасибо большое! Very Happy

Конечно, по удобству интерфейса в этой операции ТК не дотягивает до AVSearch - но важна принципиальная способность искать...

#42:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:59
    —
Моторокер wrote:
как он узнает, что кодировка та?


Советую скачать и внимательно прочитать описание View64 (кстати - был бы идеальный конвертор для данного плагина - но автор куда-то делся...):

Quote:
файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8

#43:  Author: Stepan_Lameroff PostPosted: Thu Aug 16, 2007 16:11
    —
GetTextIFilter ALPHA, Version 0.0.1.24023
bin+src


Для работы требуется .Net Framework 2.0+
Известные проблемы:
Не работает с Adobe 8+ AcroIF.dll (решается путем добавления %ProgramFiles%\Adobe\Acrobat 8.0\Acrobat\ в PATH)
C Foxit PDF IFilter работает нормально.

Параметры командной строки:
/(-)s <полный путь к исходному файлу> ({In})
/(-)d <путь к файлу с извлеченным текстом> ({Out})
[/(-)l] запись ошибок и исключений в лог (error.txt в каталоге программы)
[/(-)? | /(-)h | --help ] думаю понятно Smile

Посмотреть список присутствующих в системе фильтров можно при помощи
IFilter Explorer

Много качественных фильтров
IFilterShop


Пинки, пожелания и предложения слать (посылать можно тоже Smile) мой_ник at mail.ru

#44:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 16:31
    —
Ник wrote:
описание View64

Я про то же.
Только если уже узнали, что кодировка «неверная», то об этом говорить не надо, а надо привести к «верной».

#45:  Author: Alextp PostPosted: Thu Aug 16, 2007 18:22
    —
Ник

Quote:
--SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?



Я добавлю ключ {UTF8} для автоматической конвертации UTF-8 -> Text.
Также {OEM}. Еще какие-нибудь нужно? {RTF}? {UTF16}?

#46:  Author: Alextp PostPosted: Thu Aug 16, 2007 18:34
    —
Ник
Quote:
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...


А что плагин должен для этого делать?

Quote:
Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?


Можно. Что писать в лог-файл? Smile
Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?

Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...

#47:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 18:41
    —
Alextp wrote:
Еще какие-нибудь нужно? {RTF}? {UTF16}?


Что такое в данном контексте RTF, мне не ясно - а вот последнее, думаю, пригодится.
Нужно - ИМХО - обязательно ASCII (866) и KOI-8R.

#48:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 18:45
    —
Alextp wrote:
Что писать в лог-файл? Smile
Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?


Ну типа какая кодировка была - т.е. какую плагин "выявил" (если это реально), а юзер уже сравнит с тем, что есть на самом деле...

Alextp wrote:
Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...


Вот это не очень ясно - плагин сам сконвертирует?
А как тогда, если кодировка внутри RTF неправильно задана? Или это пусть юзер сам приводит в чувство свои файлы (в RTF часто такой бред внутри с форматами и кодировками)?

#49:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 18:47
    —
Stepan_Lameroff wrote:
GetTextIFilter...
...
Для работы требуется .Net Framework 2.0+


Это, ИМХО, не наш метод Smile

#50:  Author: Alextp PostPosted: Thu Aug 16, 2007 18:49
    —
Quote:
Что такое в данном контексте RTF, мне не ясно - а вот последнее, думаю, пригодится.
Нужно - ИМХО - обязательно ASCII (866) и KOI-8R.


OK. Будет {UTF8}, {OEM} и {KOI8R}.

#51:  Author: Alextp PostPosted: Thu Aug 16, 2007 19:04
    —
Ник
Quote:
Ну типа какая кодировка была - т.е. какую плагин "выявил" (если это реально), а юзер уже сравнит с тем, что есть на самом деле...

Нет, он не выявляет ничего. Хотя можно сделать {Auto} для выявления (UTF8, UTF16).


Quote:
Вот это не очень ясно - плагин сам сконвертирует?

Да, если укажешь {...} в комстроке.

Quote:
А как тогда, если кодировка внутри RTF неправильно задана?

Не знаю.

#52:  Author: Alextp PostPosted: Thu Aug 16, 2007 22:36
    —
Плагин обновлен. Ник?

#53:  Author: Stepan_Lameroff PostPosted: Fri Aug 17, 2007 00:07
    —
FiltDump от Microsoft (лежала приблуда в Platform SDK Smile)
Передается имя файла, результат выводит в stdout.
Работает кривовато (имеется в виду качество извлечения текста), но быстро.

#54:  Author: НикLocation: Москва PostPosted: Fri Aug 17, 2007 12:31
    —
Извини, что-то извещение об ответе на мыло не пришло...

Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.

ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов" и предложить залезть в лог, чтобы посмотреть их список.

ОФФ:
Совет - все конверторы в текст, которые Вы используете с данным плагином - загоните также в настройки (PDF)filter http://wincmd.ru/plugring/filter.html - он работает по тому же принципу, но листер-плагин.
Тогда Вы, найдя нужные файлы, сделаете список на панели и сразу по F3 или Ctrl-Q сможете все эти файлы посмотреть практически в том виде, в каком их увидел TextSearch - и сможете найти конкретное слово в конкретном файле (в т.ч. в (PDF)filter встроен поиск с последовательной конвертацией страниц для тех конверторов, что не конвертируют больше 1 страницы за раз).
В общем, комбинируйте и экспериментируйте... Smile
НЕ-ОФФ.

Алексей - огромное спасибо! Smile

#55:  Author: Alextp PostPosted: Fri Aug 17, 2007 12:41
    —
Quote:
Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Там могут быть отличия. ты сам говорил, в RTF быйда с кодировками

Quote:
Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.


И предлагаешь сделать опцию? для отключения messagebox? Можно.


Quote:
ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов"


Это не получится. "В самом конце"- плагин об этом не знает..

#56:  Author: НикLocation: Москва PostPosted: Fri Aug 17, 2007 12:59
    —
Тогда, видимо, нужно делать опцию отключения мессаджа в настройках - и тут же написать - "Включите сразу же лог - иначе ничего не поймёте"...

Сейчас найду разные RTF и покручу...

#57:  Author: НикLocation: Москва PostPosted: Fri Aug 17, 2007 13:40
    —
Проверка RTF:

Взято 41 файл RTF, 25 штук ANSI 1251, остальные другие (разные). Общий объём 65 Мб. Файлы по типу совершенно разные.

Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не", в одном - полная задница с кодировкой (хотя View64 можно настроить так, чтобы он его видел).

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...

Образцы файлов могу сжать и прислать - или выложить куда-нибудь.

#58:  Author: НикLocation: Москва PostPosted: Fri Aug 17, 2007 15:07
    —
Stepan_Lameroff wrote:
FiltDump...


Может это и "приблуда", но не утилита Wink
Она берёт список фильтров, установленных в системе, сама только их использует для конвертации.
Может быть иногда полезной.

#59:  Author: Alextp PostPosted: Fri Aug 17, 2007 16:17
    —
Ник
Quote:
Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не"

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...


Так потому что "мой" rtf конв. понимает только ANSI RTF. Поэтому и нашлось 25 файлов ANSI + 1 случайный не в той кодировке в котором тоже есть слово "не". Так что все ОК. Вот если научиться распознавать кодировку RTF..


SL
Утилиту не включаю в списвко потому что нет ридми, нет настроенного конфига TextSEarch.ini

#60:  Author: НикLocation: Москва PostPosted: Fri Aug 17, 2007 16:37
    —
Alextp wrote:
Вот если научиться распознавать кодировку RTF


Она же там явно вроде бы прописана- есть же спецификация формата.
Правда, может быть текст из кусков на нескольких языках - вроде бы перед каждым куском указывается его кодировка.

Другое дело, что нужно различать "классический RTF" и "RTF от MSO" - вот это действительно проблема...

Единственная радость - как я понимаю, в варианте от МСО русский текст содержится в явном виде - конвертация не ухудшает поисковой ситуации Smile

Правда, ещё есть проблемы Уникодного RTF и Ансишного...
Но View64 распознает и показывает их правильно - может попытаться найти его автора и попросить исходники?

#61:  Author: fundukLocation: Санкт-Петербург PostPosted: Sat Aug 18, 2007 18:39
    —
Stepan_Lameroff wrote:
FiltDump от Microsoft (лежала приблуда в Platform SDK Smile)
Передается имя файла, результат выводит в stdout.
Работает кривовато (имеется в виду качество извлечения текста), но быстро.
Быстро до офигения! Однако, я так понял, что в документах, содержащих гиперссылки, оные в текст не переводятся, а просто игнорируются. А есть такие утилиты, которые не игнорируют их?

#62:  Author: Alextp PostPosted: Mon Aug 20, 2007 03:22
    —
Плагин обновлен:
добавлены кодировки UTF16, UTF16LE, UTF16BE.

#63:  Author: Alextp PostPosted: Mon Aug 20, 2007 03:26
    —
funduk wrote:
я так понял, что в документах, содержащих гиперссылки, оные в текст не переводятся, а просто игнорируются. А есть такие утилиты, которые не игнорируют их?


В ридми в секции Converters 4 конв. для DOC / 2 для HTML (надо смотреть).

#64:  Author: НикLocation: Москва PostPosted: Fri Aug 24, 2007 19:52
    —
Всё-таки остаётся проблема поиска в DjVu.
Выяснилось, что в них можно добавлять текстовый слой Smile - WinDjVu этот слой видит - я у себя несколько таких файлов нашёл.

На разных форумах предлагается для поиска использовать dtSearch + плагин от Лизарда - но эта утилита сугубо платная...

Ни у кого нет никаких идей по поиску в DjVu файлах? Формат-то вроде открытый...

#65:  Author: AthariLocation: Казань PostPosted: Fri Aug 24, 2007 22:10
    —
Quote:
добавлены кодировки UTF16, UTF16LE, UTF16BE

Не думаешь добавить полноценную поддержку всех кодировок, которые держит Винда?

#66:  Author: Alextp PostPosted: Fri Aug 24, 2007 22:14
    —
Athari wrote:
Не думаешь добавить полноценную поддержку всех кодировок, которые держит Винда?


Нет пока.
С кодировками я буду возиться в Universal Viewer. вот где можно развернуться. Smile

#67:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 02:15
    —
По поводу поиска в FB2:

Владимир Оловянников, автор листер-плагина (PDF)Filter любезно подсказал мне, как правильно запустить скрипт от FB2 to Any в командной строке.
Указанная им команда отлично работает для его листер-плагина, но перенести на данный плагин я её не смог - конверсия не производится.

Что может быть неверно в данной команде:

Quote:
FB2=wscript.exe /B /NoLogo "c:\Program Files\FB2 to Any\fb2txt_commandline.vbs" "{In}" "{Out}" {CP:UTF8}


Может, плагин не понимает опций функции или имени скрипта как аргумента?

#68:  Author: Alextp PostPosted: Sat Aug 25, 2007 02:22
    —
Могу обновить плагин, чтобы при ошибке запуска конв. он писал в лог командную строку.
Тогда просто будешь видетьЮ что там запускается.

#69:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 02:57
    —
Да, так, наверное, было бы легче его отладить...

#70:  Author: Alextp PostPosted: Sat Aug 25, 2007 03:01
    —
Обновил до 1.3.6
Если не поможет, присылай архив: скрипт + FB2...

#71:  Author: Alextp PostPosted: Sat Aug 25, 2007 03:15
    —
Ник wrote:
И вот ещё - есть какой-то странный
DjVu IFilter
http://www.lizardtech.com/download/dl_download.php?detail=doc_ifilter&platform=win
но я так и не смог с ним разобраться и понять - зачем он нужен...

А этот использовать через GetTextIFilter - ссылка в readme..


Last edited by Alextp on Sat Aug 25, 2007 03:37; edited 1 time in total

#72:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 03:29
    —
Спасибо Smile

Не работает всё равно - по-моему, ошибка в самом скрипте и (или) стилевом файле:

Quote:
Windows Script Host

Script: c:\Program Files\FB2 to Any\fb2txt_commandline.vbs
Line: 90
Char: 1
Error: The stylesheet does not contain a document element. The
stylesheet may be empty, or it may not be a well-formed XML document
Code: 80004005
Source: FB2_to_TXT.FB2TXTExport


Конвертация в RTF работает отлично, но двойная конвертация - изврат, ИМХО.

Подождём его ответа. Не хотелось бы самому копаться в стилевом файле...

#73:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 03:40
    —
Alextp wrote:
использовать через GetTextIFilter


Спасибо, но он на .NET - я такой софт принципиально не использую - после того, как выкачал пачку обновлений безопасности для него чуть ли не больше его самого...

Пусть Билл Г. свой отстой пользует... Smile

А фильтры к нему - платные - кроме DjVu.

Может, автор перепишет на чём другом - было бы круто...?

#74:  Author: Alextp PostPosted: Sat Aug 25, 2007 03:43
    —
Может ему каталог(текущий) надо задавать?

#75:  Author: Alextp PostPosted: Sat Aug 25, 2007 03:46
    —
Ник wrote:

Спасибо, но он на .NET - я такой софт принципиально не использую - после того, как выкачал пачку обновлений безопасности для него чуть ли не больше его самого...

Пусть Билл Г. свой отстой пользует... Smile


Smile))

Тут кто-то постил другой IFilter конвертер.

#76:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 03:51
    —
Alextp wrote:
Может ему каталог (текущий) надо задавать?


ХЗ. А почему тогда конвертор в RTF отлично работает?

#77:  Author: Alextp PostPosted: Sat Aug 25, 2007 03:55
    —
Может конв. в RTF не нужен текущий путь.

#78:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 04:22
    —
Переписка с автором плагина (PDF)Filter:
у него скрипты работают.

Попробуй, плз, у себя - у меня Винда 2000 - может версия библиотек не та?

Quote:
FB2Any 0.2 - конвертор из формата FB2 в текст, гипертекст, RTF и прочее. Бесплатно. Автор: Дмитрий Грибов. 2,9 Мб. 19.04.2006. http://www.gribuser.ru/xml/fictionbook/

#79:  Author: Alextp PostPosted: Sat Aug 25, 2007 04:40
    —
Поставил. У меня конвертирует нормально, и WDX Guide показывает,
что все отработало и сконвертировалось в нормальный текст. Только я убрал из твоей комстроки {CP:UTF8},
это там зачем?

#80:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 12:48
    —
У меня показывает ошибку - может какие библиотеки нужны или Винды старые - у меня Windows 2000 SP4 ?

У меня следующие файлы есть в System32:

Quote:
MsXML.dll Microsoft Data Access Components 8.0.6730.0
MSXML3.dll Microsoft(R) MSXML 3.0 SP 7 8.70.1113.0
MSXML3A.dll Microsoft Data Access Components 8.20.8730.1
MSXML3R.dll Microsoft Data Access Components 8.20.8730.1
MSXML4.dll Microsoft(R) MSXML 4.0 SP 2 4.20.9841.0
MSXML4R.dll Microsoft(R) MSXML 4.0 SP1 4.10.9404.0
MSXMLR.dll Microsoft Data Access Components 8.0.6730.0

Никакого MSXML2.dll нет, а в скрипте Грибов пишет:

Quote:
Msxml2.FreeThreadedDOMDocument.4.0


Может нужна ещё какая библиотека?


Кстати, WDX Guide - это твой? А какая версия последняя и от какого числа?

#81:  Author: Alextp PostPosted: Sat Aug 25, 2007 13:19
    —
Quote:
У меня показывает ошибку - может какие библиотеки нужны или Винды старые - у меня Windows 2000 SP4 ?
У меня следующие файлы есть в System32:


Это уже не связано с моим плагином. Если не хватает библиотек,
то и из комстроки конвертер у тебя запускаться не будет.
Наверное писать надо Грибову.


Quote:
Кстати, WDX Guide - это твой?

Мой. Версия здесь...

#82:  Author: НикLocation: Москва PostPosted: Sat Aug 25, 2007 13:35
    —
Alextp wrote:
Если не хватает библиотек, то и из комстроки конвертер у тебя запускаться не будет.
Наверное писать надо Грибову.


У него от величия корона в потолок упёрлась...

Напиши, плз, есть ли у тебя в системе MSXML 5.* и - если не трудно - какие у тебя версии всех этих MSXML от 1 до 6 (можно в личку).

#83:  Author: НикLocation: Москва PostPosted: Tue Aug 28, 2007 22:24
    —
Народ, в последней версии ReadMe - ссылка на утилиту и строку настройки для поиска в DjVu файлах (у которых есть текстовый слой) - протестируйте, плз, у себя - нужно посмотреть как работает на разных компах и системах...

#84:  Author: Alextp PostPosted: Thu Aug 30, 2007 12:28
    —
На гислере предложили искать в TC сразу в неск. кодировках. Еще в 2004 г. Что если сделать это здесь, в TS?
Кому-нибудь поиск в неск. кодировках нужен?

Задаем в строке {ANSI} {OEM} {UTF8} = ищутся сразу 3 кодировки.

#85:  Author: Lev PostPosted: Thu Aug 30, 2007 15:29
    —
Еще тогда кодировку {All} = ищутся все известные плагину кодировки

#86:  Author: НикLocation: Москва PostPosted: Thu Aug 30, 2007 17:20
    —
ИМХО, это нужно именно самому ТК - галки выбора кодировки ставить.

Для плагина, как мне кажется, это нужно только, если файлы могут быть в разных кодировках - и если ТК не поддерживает мультикодировочный поиск в этих типах файлов.

Например: TXT, HTML, MSG (EML). Насколько я понимаю, кодировки DOC, PDF, DJVU, FB2 - жёстко заданы.
Непонятно RTF ?

Кстати, а куда делась кодировка KOI8-R (у меня часто письма хранятся именно в ней)?

#87:  Author: Alextp PostPosted: Thu Aug 30, 2007 17:35
    —
Lev wrote:
Еще тогда кодировку {All} = ищутся все известные плагину кодировки

Согласен. Хотя, не знаю. Это сделает поиск ОЧЕНЬ медленным. У меня же там всякие KOI8R, KOI8U, ISO. ISO вообще непонятно что. Я ее случайно нашел.

#88:  Author: Alextp PostPosted: Thu Aug 30, 2007 17:40
    —
Ник wrote:
ИМХО, это нужно именно самому ТК - галки выбора кодировки ставить.


Да. Согласен. Самому ТК нужно.
Но пока можно реа-ть плагином.


Quote:
Для плагина, как мне кажется, это нужно только, если файлы могут быть в разных кодировках - и если ТК не поддерживает мультикодировочный поиск в этих типах файлов.


А так и есть. Он же не поддерживает.
Значит нужен.

поясню, как будет делдаться поиск: плагин конвертит текст, пишет его в разных кодировках в строки. Теперь если есть неск. кодировок, он слепляет строки через #13#10. И ТК находит в одной из код-к.
Или не находит.


Quote:
Кстати, а куда делась кодировка KOI8-R (у меня часто письма хранятся именно в ней)?

Никуда. Она в ридми. Smile

Code:

    if ParamCP = 'KOI8R' then
      FText:= SConvertToANSI(FText, cpKOI8RToANSI)
    else
    if ParamCP = 'KOI8U' then
      FText:= SConvertToANSI(FText, cpKOI8UToANSI)
    else

#89:  Author: НикLocation: Москва PostPosted: Thu Aug 30, 2007 20:10
    —
Спасибо, понял... Smile

Alextp wrote:
как будет делаться поиск: плагин конвертит текст, пишет его в разных кодировках в строки. Теперь если есть неск. кодировок, он слепляет строки через #13#10. И ТК находит в одной из код-к.
Или не находит.


То есть, поиск замедлится в несколько раз?

Нельзя ли как-то автоопределение кодировок поставить - или предупреждать в логе юзера, что не все файлы в "стандартной" кодировке?

Или это ещё больший гемор?

ЗЫ: ISO это сила! Smile
А ведь для кириллицы есть ещё пара десятков кодировок разных... Wink
И транслит! Smile)

#90:  Author: Alextp PostPosted: Fri Aug 31, 2007 09:14
    —
Quote:
То есть, поиск замедлится в несколько раз?

Да, хотя поиск только текста в буфере замедлится.
А реально, поиск состоит еще и из чтения файла с диска, конвертации плагином текста и т.п. Т.е. реально все замедлится не в N раз. А где-то процентов на 10-50%. IMHO.


Quote:
Нельзя ли как-то автоопределение кодировок поставить


Определение кодировок больное место.
Я его еще в Universal Viewer не реализовал. Хотя планирую.


Quote:
ISO это сила! Smile

Как организация по стандартизации. Smile

Quote:
А ведь для кириллицы есть ещё пара десятков кодировок разных... Wink

Ты их используешь? Smile

#91:  Author: НикLocation: Москва PostPosted: Fri Aug 31, 2007 10:16
    —
Alextp wrote:
Ты их используешь?

Конечно нет - но здесь другая проблема - у юзера может быть масса файлов в соврешенно разных кодировках на диске, а он об этом толком знать не будет (особенно, если он не особо дружит с компом).

ИМХО, нужно кратко описать проблему кодировок при поиске и дать чёткий алгоритм предварительной обработки файлов:

1) Возьмите такой-то контентный плагин и сгруппируйте все Ваши файлы TXT, HTML, MSG, EML (ещё какие?) по кодировкам.
2) Составьте себе список имеющихся у Вас кодировок и попробуйте уменьшить этот список через переконвертацию файлов (ссылки на редакторы или способы).
3) Если все эти кодировки Вам нужны, задайте правильно запрос на поиск (настройки контентно-поискового плагина), чтобы не потерять текст в "нестандартной" кодировке - здесь десяток примеров, готовых для переноса в ИНИ.

Это гемор - но совесть будет спокойна Smile

#92:  Author: Alextp PostPosted: Fri Aug 31, 2007 10:35
    —
Думаю, это лишнее для моего ридми.
Алгоритм работы описывать. Я опишу, как делать многокодировочный поиск - и все..

Чтобы делать поиск в файлах с любым расшириением, будет "расширение" "*"...

#93:  Author: НикLocation: Москва PostPosted: Fri Aug 31, 2007 10:52
    —
Хозяин - барин Smile

#94:  Author: Alextp PostPosted: Sun Sep 02, 2007 12:06
    —
Плагин обновлен: добавлен поиск по нескольким код. страницам.


Гислер плагин похвалил!:
http://www.ghisler.ch/board/viewtopic.php?p=132291#132291

#95:  Author: НикLocation: Москва PostPosted: Sun Sep 02, 2007 12:38
    —
Поздравляю Smile

#96:  Author: Alextp PostPosted: Sun Sep 02, 2007 12:54
    —
Спасибо. Я уже 4-5 лицензий на TC мог получить. =)

#97:  Author: Lev PostPosted: Mon Sep 03, 2007 15:15
    —
[off]Имхо лицензии даются по количеству голов программиста Smile а не по кол-ву прог. Для получения очередной лицензии придётся выдать себя за другого человкека и писать плаги от его лица[/off]

#98:  Author: D1PLocation: Тбилиси PostPosted: Mon Sep 03, 2007 15:40
    —
Quote:
[off]Имхо лицензии даются по количеству голов программиста а не по кол-ву прог. Для получения очередной лицензии придётся выдать себя за другого человкека и писать плаги от его лица[/off]

Не уверен. Думаю, если попросить за свою работу плагин для кого-нибудь (друга, члена семьи, любимого кота Толстопуза) Гислер даст. Давно хочу попробовать получить дополнительно пару-другую лицензий, но всё никак не решу, кому их дарить Smile

#99:  Author: Alextp PostPosted: Mon Sep 03, 2007 15:59
    —
D1P wrote:
Гислер даст. Давно хочу попробовать получить дополнительно пару-другую лицензий, но всё никак не решу, кому их дарить

У меня такая же ситуация. Попросил бы давно, не знаю кому дарить. Confused Confused

#100:  Author: Lev PostPosted: Tue Sep 04, 2007 15:15
    —
Где-то в форуме, кто-то писал, что никак не может получить лицензии на остальные плагины, после первого. Я и не пытался даже, хотя разадарить есть кому (друзья, племянники и т.д.).

#101:  Author: CaptainFlintLocation: Москва PostPosted: Tue Sep 04, 2007 15:59
    —
Lev wrote:
Где-то в форуме, кто-то писал, что никак не может получить лицензии на остальные плагины, после первого.

Мне (и Вадиму) Гислер за русификацию сам хотел предложить лицензию, но поскольку у нас у обоих она уже была, он сказал, что может подарить её нашим помощникам по русификации, а даже если таковых нет, то просто знакомым или друзьям. Так что...

#102:  Author: Alextp PostPosted: Thu Sep 13, 2007 09:29
    —
Здесь дан конвертер, который может конвертировать

Quote:
.rtf Rich text
.docx Microsoft WORD 2007 (OOXML)
.xlsx Microsoft Excel 2007 (OOXML)
.pptx Microsoft PowerPoint 2007 (OOXML)
.doc Microsoft WORD ver5.0/95/97/2000/XP/2003
.xls Microsoft Excel ver5.0/95/97/2000/XP/2003
.ppt Microsoft PowerPoint 97/2000/XP/2003
.sxw/.sxc/.sxi/.sxd OpenOffice.org
.odt/.ods/.odp/.odg Open Document
.jaw/jtw Ichitaro ver5
.jbw/juw Ichitaro ver6
.jfw/jvw Ichitaro ver7
.jtd/jtt Ichitaro ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun New pine/pine 5/pine 6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF
.mht Web archive
.html HTML
.eml The export type of OutlookExpress

Сам пока не пробовал.

#103:  Author: НикLocation: Москва PostPosted: Thu Sep 13, 2007 09:34
    —
Там вроде сплошной японский...

#104:  Author: Alextp PostPosted: Thu Sep 13, 2007 19:51
    —
Настройка конвертера xdoc2txt с гислера: TextSearch.ini:

Quote:
; xdoc2txt
XDOC=%COMSPEC% /CCONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
sxw=XDOC
sxc=XDOC
sxi=XDOC
sxd=XDOC
odt=XDOC
ods=XDOC
odp=XDOC
odg=XDOC
docx=XDOC
docm=XDOC
xlsx=XDOC
xlsm=XDOC
pptx=XDOC
pptm=XDOC
doc=XDOC
xls=XDOC
ppt=XDOC
rtf=XDOC
jaw=XDOC
jtw=XDOC
jbw=XDOC
juw=XDOC
jfw=XDOC
jvw=XDOC
jtd=XDOC
jtt=XDOC
oas=XDOC
oa2=XDOC
oa3=XDOC
bun=XDOC
wj2=XDOC
wj3=XDOC
wk3=XDOC
wk4=XDOC
123=XDOC
wri=XDOC
pdf=XDOC
mht=XDOC
html=XDOC
eml=XDOC

#105:  Author: Sam DarkLocation: Voronezh, Russia PostPosted: Tue Sep 25, 2007 13:43
    —
Мдя... занятная ситуация, когда некому подарить лицензию Smile

P.s. я бы не отказался Wink

#106:  Author: Alextp PostPosted: Tue Sep 25, 2007 14:17
    —
[OT]
Sam Dark
Я не знал, что у тебя нет лицензии.
Напишу тебе email'ом. Wink
[/OT]

#107:  Author: SwapeR PostPosted: Fri Jan 04, 2008 13:02
    —
Не смог найти ответ на такой вопрос. Как искать в архивах с использованием плагинов?

#108: TextSearch (Content-плагин) Author: antabuLocation: Новосибирск PostPosted: Thu Sep 18, 2008 14:42
    —
Есть архивы журнала "ХиЖ" за много лет в djvu c текстовым слоем, скачанные из разных источников. Установил TextSearch, DjVuLibre, настроил по Readme на UTF8 - находит текст в одних папках, а в других - нет. Заменил в TextSearch.ini UTF8 на ANSI - теперь наоборот, в других находит, а в одних - нет.
И ещё: для просмотра пользуюсьWinDjView, а DjVuLibre занимает много места, какие файлы из неё нужны непосредственно для поиска при помощи TextSearch?

#109:  Author: Alextp PostPosted: Thu Sep 18, 2008 16:11
    —
antabu
ПОпробуйте искать сразу в 2х кодировках. В UTF8 и ANSI.
Как это сделать, написано в Ридми плагина.
Можно и в 3-х

#110: TextSearch (Content-плагин) Author: antabuLocation: Новосибирск PostPosted: Fri Sep 19, 2008 09:36
    —
Спасибо, всё работает, только, кажется, медленнее. Кстати, djview.exe внутри файла находит и копирует текст только в UTF8, а WinDjView в обеих кодировках. И ещё, часть архивов представлена pdf файлами, где Adobe Reader копирует и находит текст на кириллице нормально, а хвалёный Foxit Reader2.3 нет - не знаю, какая там кодировка у текстового слоя.

#111: Связка TextSearch + xdoc2txt Author: zzpro PostPosted: Sun Sep 21, 2008 08:00
    —
Не ищет DOCX-файлы по содержимому.
Те кто используют эту связку могут подсказать в чем дело?

#112:  Author: Alextp PostPosted: Sun Sep 21, 2008 09:29
    —
А DOCX конвертер установлен?..

#113: Связка TextSearch + xdoc2txt Author: zzpro PostPosted: Sun Sep 21, 2008 15:38
    —
Да, установлен. В папке \plugins\wdx\TextSearch\Conv\xdoc\

Прописан в TextSearch.ini
; TextSearch.ini settings:
XDOC=%COMSPEC% /CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
sxw=XDOC
sxc=XDOC
sxi=XDOC
sxd=XDOC
odt=XDOC
ods=XDOC
odp=XDOC
odg=XDOC
docx=XDOC
docm=XDOC
xlsx=XDOC
xlsm=XDOC
pptx=XDOC
pptm=XDOC
doc=XDOC
xls=XDOC
ppt=XDOC
rtf=XDOC
jaw=XDOC
jtw=XDOC
jbw=XDOC
juw=XDOC
jfw=XDOC
jvw=XDOC
jtd=XDOC
jtt=XDOC
oas=XDOC
oa2=XDOC
oa3=XDOC
bun=XDOC
wj2=XDOC
wj3=XDOC
wk3=XDOC
wk4=XDOC
123=XDOC
wri=XDOC
pdf=XDOC
mht=XDOC
html=XDOC
eml=XDOC

#114:  Author: Alextp PostPosted: Sun Sep 21, 2008 17:02
    —
Здесь неправильно прописапн ключ у ComSpec:
должно быть /C "Conv\путь".

#115: Связка TextSearch + xdoc2txt Author: zzpro PostPosted: Mon Sep 22, 2008 07:53
    —
Все понял.
В описании плагина TextSearch в файле Readme.html ошибка при описании подключения xdoc2txt. Пропущен пробел.

В описании:
XDOC=%COMSPEC% /CCONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"

Строка подключения должна быть:
XDOC=%COMSPEC% /C CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"

Просьба разработчику подправить Readme.html, чтоб народ не смушать Smile

После исправления строки подключения - все работает

#116:  Author: Alextp PostPosted: Mon Sep 22, 2008 09:34
    —
Quote:
Просьба разработчику подправить Readme.html,


Подправил.

#117: Связка TextSearch + xdoc2txt Author: zzpro PostPosted: Mon Sep 22, 2008 11:21
    —
Спасибо

#118:  Author: antabuLocation: Новосибирск PostPosted: Mon Sep 22, 2008 20:10
    —
Если файл, среди которых идёт поиск, окажется открытым, ТС зависает (замечено для djvu). Ситуация вероятная: найден файл с заданным текстом, его открыли, чтобы продолжить поиск внутри и забыли закрыть перед следующим поиском с TextSearch. Надо предупреждать...

#119:  Author: Alextp PostPosted: Tue Sep 23, 2008 15:58
    —
antabu
зависает плагин или именно DJV-конветрер? Возможно, второе, тогда это не смогу поправить...

#120:  Author: antabuLocation: Новосибирск PostPosted: Tue Sep 23, 2008 17:03
    —
Прошу прощения, это был глюк. На другом компе не виснет.

#121: TextSearch (Content-плагин) Author: antabuLocation: Новосибирск PostPosted: Wed Oct 15, 2008 19:04
    —
Не работает поиск в некоторых pdf файлах. Помогите, пожалуйста, определить кодировку текстового слоя в файле (после распаковки):
http://www.hij.ru/EV/01_2008.zip

#122:  Author: НикLocation: Москва PostPosted: Wed Oct 15, 2008 19:29
    —
Ощущение, что заголовки и текст в разных кодировках - заголовки в UTF-8, а текст хрен знает в чём...

#123:  Author: antabuLocation: Новосибирск PostPosted: Thu Oct 16, 2008 12:27
    —
Насколько я понял, универсального средства вытащить текст из пдф не существует. Помнится, в своё время фирма Promt пыталась решить задачу, применяя средство распознавания текста от Readiris, кажется, неудачно, возможно и незаконно.

#124:  Author: НикLocation: Москва PostPosted: Thu Oct 16, 2008 13:36
    —
На данном PDF может стоять защита, причём, заголовки статей не защищены от копирования, а сами статьи защищены...

#125:  Author: antabuLocation: Новосибирск PostPosted: Thu Oct 16, 2008 14:58
    —
Adobe Reader 8 показывает, что защиты нет. Этот файл приведён для примера, у меня их много.

#126:  Author: НикLocation: Москва PostPosted: Thu Oct 16, 2008 16:06
    —
Может исходный текст сделан криво - обратитесь к его авторам и спросите, почему текстовый слой выглядит так странно - сошлитесь на невозможность правильно скопировать кусок текста для цитирования...

#127:  Author: antabuLocation: Новосибирск PostPosted: Thu Oct 16, 2008 16:55
    —
Спасибо за совет, переписку я веду, проблема в том, что эти файлы скачаны с неофициальной странички официального сайта, а подписка на них стоит 180 р. за 6 номеров.

#128:  Author: antabuLocation: Новосибирск PostPosted: Sun Oct 19, 2008 07:23
    —
На мой запрос:
"Посоветуйте, пожалуйста, по какому адресу можно обратиться к специалисту
для ответа на вопрос: в каких кодировках сделан текстовый слой в pdf файлах
журналов за последние годы? Это важно не только для поиска, но и для
цитирования."
получен ответ из которого я мало что понял:
"Честно говоря, вопрос совершенно непонятен. Кодировка одна - Виндовс кир,
используется по умолчанию, никаких хитростей мы не прилагали. Шрифты были
разные - раньше гельветика, теперь - прагматика. Под хп гельветики,
насколько я знаю, нету. Возможно, именно с этим связаны проблемы, поскольку
в 2004 году мы еще верстали гельветикой.

Тестовый слой в пдф делается автоматически, как задано по умолчанию, так и
делается. Не исключено, что он делается третьи акробатом и адоб что-нибудь в
седьмом уж сильно поменял и то, что было по умолчанию раньше, теперь не
работает. Не знаю.

Вообще-то, это все, что я могу Вам сказать.

Сергей Комаров

журнал "Химия и жизнь""

#129:  Author: НикLocation: Москва PostPosted: Sun Oct 19, 2008 10:14
    —
Шрифт, ИМХО, на кодировку текстового слоя не влияет...
Скачайте у них легально хоть один файл с теми же проблемами и официально потребуйте привести в чувство текстовый слой...
Только тогда, ИМХО, получите внятный ответ (и то не гарантия).

#130:  Author: antabuLocation: Новосибирск PostPosted: Sun Oct 19, 2008 12:14
    —
А я с этого начал, скачал 6 номеров со страницы
http://www.hij.ru/elektrversia.shtml
и спросил, почему в них не работает поиск средствами Adobe Reader 8.
Мне сначала ответили:
"А поиск в pdf-номерах и не должен работать - на это есть архив с 1 номера 65 года, в котором все работает."
Но в тех номерах плагин работает нормально, т. е. Ваш критерий "с теми же проблемами" здесь не проходит.
Похоже, виноват Adobe.

#131:  Author: НикLocation: Москва PostPosted: Sun Oct 19, 2008 12:25
    —
antabu
Я смотрю не Адобом, а FoxIt Reader и тоже не могу понять значительную часть текстового слоя...

#132:  Author: antabuLocation: Новосибирск PostPosted: Sun Oct 19, 2008 16:13
    —
У меня стоят оба, и среди проблемных файлов есть такие, где плагин и Адоб находят, а Фоксит нет, есть такие, где находит только плагин, а в 01_2008 никто не находит - придётся пробовать Readiris.

#133: Re: TextSearch (Content-плагин) Author: antabuLocation: Новосибирск PostPosted: Tue Nov 04, 2008 10:23
    —
antabu wrote:
Не работает поиск в некоторых pdf файлах. Помогите, пожалуйста, определить кодировку текстового слоя в файле (после распаковки):
http://www.hij.ru/EV/01_2008.zip

Модератор «1998» форума «Дизайн и Полиграфия» создал перекодировщик для этих файлов: http://rapidshare.de/files/40811224/pdf-recode.rar.html
После перекодировки Foxit Reader в режиме просмотра текста отображает текст правильно. А pdftotext извлекает его неправильно, ес-но плагин не найдёт искомый текст. Помогите настроить плагин для перекодированных файлов.

#134:  Author: Alextp PostPosted: Tue Nov 04, 2008 11:38
    —
может, pdftotext извлекает его в какой-то кодировке? Тогда применить команду {CP:xxx} плагина ..
Или вообще битый текст, тогда никак.

надо смотреть настройки pdftotext.

#135:  Author: НикLocation: Москва PostPosted: Tue Nov 04, 2008 12:33
    —
Alextp
Боюсь, что там в одном и том же файле в текстовом слое текст в нескольких кодировках сразу Sad

antabu
А как этот перекодировщик работает не пойму - есть небольшая инструкция?

#136:  Author: antabuLocation: Новосибирск PostPosted: Tue Nov 04, 2008 12:57
    —
Насколько я понимаю, настройки pdftotext находятся в файле xpdfrc без расширения. После редактирования он требует "unicodeMap file".
Конкретная просьба: скачать файлы по ссылкам, перекодировать, посмотреть, настроить xpdfrc и/или TextSearch.ini и выложить их, сам я пытаюсь разобраться, но не получается.
Или вот самый маленький из всех файлов, перекодированный:
http://webfile.ru/2359481

#137:  Author: antabuLocation: Новосибирск PostPosted: Tue Nov 04, 2008 13:21
    —
Извините, разобрался: убрал расширение у xpdfrc.txt, вроде, всё работает с настройками по умолчанию (плагин, встроенный в Universal Viewer вместе с wlx_multilister сам находит правильную кодировку вывода текста).

#138:  Author: Alextp PostPosted: Tue Nov 04, 2008 20:11
    —
Ник wrote:
Боюсь, что там в одном и том же файле в текстовом слое текст в нескольких кодировках сразу


это для плагина даже хорошо. Хотя бы в одной найдет Smile

#139:  Author: НикLocation: Москва PostPosted: Tue Nov 04, 2008 21:27
    —
Alextp
В том-то и проблема - заголовки статей в Уникоде, а текст статей непонятно в чём (дубляжа текста нет).

#140:  Author: НикLocation: Москва PostPosted: Tue May 05, 2009 13:02
    —
Alextp
Спасибо за новую версию! Smile
И с праздниками! Smile

Вопросы:

1) М.б. не включать в пакет программы других авторов (IFilter, XPDF) - продвинутые пользователи всё равно ищут версии этих программ отдельно и настраивают их сами - а ради лохов и халявщиков раздувать пакет в два раза - стоит ли?
(Я, например, dotNET вообще не использую и программы с ним не ставлю - т.е. от использования IFilter сразу отказался).

2) М.б., в пакет не включать и выложить отдельно Ваш конвертор ODF2TXT - вряд ли динамика обновлений этих программ будет синхронной (да и всем ли именно этот конвертор нужен и удобен) - а так пакет станет "стройнее"?

Спасибо Smile

#141:  Author: Alextp PostPosted: Wed May 06, 2009 12:00
    —
Мне кажется, проще настроить готовый пакет, чем

- искать конвертер xpdf
- скачивать его с сайта
- устанавливать его
- прописывать в textSearch.ini
...
(не забыть прочитать textsearxh readme)

Smile так что пусть будет...

#142:  Author: Alextp PostPosted: Wed May 06, 2009 12:24
    —
а odf2txt занимает еще меньше, в основном место ест XPdf.

#143:  Author: НикLocation: Москва PostPosted: Wed May 06, 2009 12:47
    —
А XPDF всё равно придётся искать и устанавливать - в Вашем паке его версия более старая, чем та, что уже есть на оф. сайте.
Глупо, ИМХО, ждать, что сторонняя утилита не будет обновляться, пока Вы не обновите свой плагин Smile

К тому же, одна и та же утилита используется в нескольких плагинах - у меня XPDF минимум в трёх - и непонятно, зачем держать на диске три копии одной и той же утилиты, да ещё и разных версий?

Что касается настроек - можно включить типичные образцы настроек с пояснениями и всё будет ОК.
А ещё лучше - ИМХО - написать GUI для настроек, как это сделал автор PDF Filter - он же Multi Lister Smile

#144:  Author: Alextp PostPosted: Wed May 06, 2009 19:19
    —
Quote:
XPDF всё равно придётся искать и устанавливать - в Вашем паке его версия более старая, чем та, что уже есть на оф. сайте


ну не знаю - зачем обновлять xpdf, если нормально работает версия в паке..

#145:  Author: Alextp PostPosted: Wed May 06, 2009 19:23
    —
Ник wrote:
и непонятно, зачем держать на диске три копии одной и той же утилиты

можно стереть две. Smile

#146:  Author: НикLocation: Москва PostPosted: Wed May 06, 2009 20:20
    —
Alextp
Тогда можно ещё запаковать все необходимые DLL-ки и Тотал Коммандер и саму Винду до кучи засунуть в пакет - и предложить юзеру не обновлять ничего - типа и так всё работает.

Я ни в коем не отрицаю Ваше право делать любые паки, которые Вам захочется (хотя не понимаю причин создания таких паков), - но логика в данном случае странноватая Smile

#147:  Author: Alextp PostPosted: Wed May 06, 2009 20:31
    —
небольшой конвертер (1Мб) можно включить.

#148:  Author: НикLocation: Москва PostPosted: Wed May 06, 2009 21:22
    —
В любом случае - спасибо большое за плагин - это то, что нужно Smile

#149:  Author: Den_KlimovLocation: Ukraine.Kiev PostPosted: Mon Jul 13, 2009 01:08
    —
Как по мне так наоборот надо включать как можно больше конвертеров в сам плагин. Опытным пользователем на самом деле без разницы, а вот неопытным счастье.
----------------
Кстати посоветуйте плиз. Какой самый быстрый конвертер для DOC и самый быстрый конвертер для DOCX? Ну естественно чтобы при этом все варианты формата конвертировали без проблем.

#150:  Author: НикLocation: Москва PostPosted: Mon Jul 13, 2009 03:30
    —
Den_Klimov
Без разницы - сколько качать и сколько потом руками выбрасывать лишнего?
Нет - разница существенная...

Во что Вы собираетесь конвертировать DOC и DOCX и как - в ком.строке или ГУИ?

Скорость для Вас важнее качества?

Какие "варианты формата" Вы имеете ввиду?

#151:  Author: Den_KlimovLocation: Ukraine.Kiev PostPosted: Mon Jul 13, 2009 20:23
    —
Ник
Quote:
Без разницы - сколько качать и сколько потом руками выбрасывать лишнего?
Нет - разница существенная...


Сколько качать без разницы.
А лишнего не должно быть, чтобы его не пришлось выбрасывать.

Сейчас, имхо, наоборот слишком мало обязательно необходимых конвертеров входит в TextSearch. Слишком многое предлагается качать самостоятельно.

Quote:
Во что Вы собираетесь конвертировать DOC и DOCX и как - в ком.строке или ГУИ?

Скорость для Вас важнее качества?


Имелось в виду для использования с TextSearch. Только для этих целей. Именно потому и спрашиваю про скорость.

Quote:
Какие "варианты формата" Вы имеете ввиду?

Тот же DOC формат постоянно расширялся от версии к версии. Хотя подозреваю для конвертирования в текст это несущественно.

#152:  Author: Alextp PostPosted: Tue Jul 14, 2009 00:20
    —
я согласен, что надо DOC конв. включить. Писал автору XDoc, он не ответил... :\

#153:  Author: НикLocation: Москва PostPosted: Tue Jul 14, 2009 11:00
    —
Зачем? Я, например, им вообще не пользуюсь, а пользуюсь GetText.

И вообще - у меня для этого плагина и для MultiLister (бывший PDF Filter) одни и те же конверторы, зачем их включать в плагины - если я всё равно скачиваю их отдельно (чтобы иметь новую версию) и кладу отдельно - чтобы весь остальной софт их вызывал из одного и того же места.

#154:  Author: НикLocation: Москва PostPosted: Mon Jan 04, 2010 20:37
    —
Alextp
Если уж Вы валите в свой пак в одну кучу все конверторы - то и XPDF стоило обновить:
Xpdf 3.02 pl4 13.10.2009 http://www.foolabs.com/xpdf/home.html

И зачем включать в пак GetTextIFilter - если это ALPHA, Version 0.0.1.24023, да ещё и требующая для работы .Net Framework 2.0+ ?!?

Нельзя ли на оф. странице http://atorg.net.ru/utils/odf_to_text.htm выложить последнюю версию OdfToTxt и обновить в истории номер версии.

Спасибо Smile


Last edited by Ник on Mon Jan 04, 2010 21:01; edited 1 time in total

#155:  Author: Alextp PostPosted: Mon Jan 04, 2010 21:01
    —
Ник
Xpdf я как раз исключил. так что не кучу. Вместо него теперь другой, на 300К меньше.

OdfToTxt - выложу.

#156:  Author: Alextp PostPosted: Mon Jan 04, 2010 21:43
    —
GettextIFilter убрал.

#157:  Author: Alextp PostPosted: Thu Dec 09, 2010 15:32
    —
в архиве файл odftotxt.exe -был больше моего скомпилированного(+40K). Вирус не находится. (сейчас обновил odftotxt)
Кто знает как послать в KaspLab?

#158:  Author: CJ FlashLocation: Череповец PostPosted: Thu Dec 09, 2010 16:46
    —
Alextp wrote:
Кто знает как послать в KaspLab?

newvirus@kaspersky.com
Файл высылать в архиве, на архив пароль virus.

#159:  Author: Alextp PostPosted: Fri Dec 17, 2010 20:48
    —
Был вирус KLAV-nnnnnn, каспер (и NOD) должны находить.

#160:  Author: FlasherLocation: Москва PostPosted: Fri Dec 17, 2010 21:02
    —
Alextp
Онлайн-сканеры чем не годятся?

#161:  Author: CJ FlashLocation: Череповец PostPosted: Fri Dec 17, 2010 22:46
    —
Alextp wrote:
Был вирус KLAV-nnnnnn

Такого обозначения вируса быть не может, это автоуведомление о создании тикета. Уже после этого должен ответить сотрудник лаборатории.

#162:  Author: Alextp PostPosted: Fri Dec 17, 2010 22:53
    —
А, понятно. ответить не ответили.

#163:  Author: antabuLocation: Новосибирск PostPosted: Thu Dec 23, 2010 15:14
    —
Прошу поправить мою строку в файле настройки плагина
CHM=c:\WINDOWS\hh.exe -decompile "{Out}" "{In}"
Выдаёт ошибку. Или предложите другой вариант поиска в файлах справки.

#164:  Author: Alextp PostPosted: Fri Jan 28, 2011 14:41
    —
upd.
Fix: зависание на UTF16 files.

#165:  Author: Alextp PostPosted: Fri Jan 28, 2011 15:28
    —
chm2html.bat (все html сливаются в 1). Попробуйте его с запуском
chm=%comspec% /c ...

atorg.net.ru/temp/beta/

#166:  Author: antabuLocation: Новосибирск PostPosted: Tue Feb 01, 2011 15:26
    —
Если не трудно, поподробнее, а то у меня не получается.
Сравнение конвертеров для .chm:
1. chm2txt от Jamal Mazrui http://empowermentzone.com/chm2txt.zip
не работает, возвращает ошибку.
далее сравнение проводилось на файле весом 107 метров
http://narod.ru/disk/3010096001/Новый%20справочник%20химика%20и%20технолога.chm.html на процессоре 1,4ГГц
2. FiltDump.exe из сообщенния http://forum.wincmd.ru/viewtopic.php?p=35058#35058 Конвертирует 10 минут, но с ошибками, в результате при поиске плагин зависает. На файлах нормального размера работает.
3. hh.exe -decompile конвертирует в .htm 3 мин, но использовать с плагином мне не удалось
4. UnCHMw.exe из плагина CHMDir при исключении картинок (-x*.gif -x*.jpg -x*.bmp и т.д.) конвертирует в .htm 0,5 мин., но встроить в TextSearch мне не удалось.

#167:  Author: Alextp PostPosted: Tue Feb 01, 2011 16:45
    —
Надо взять unchmw. потом взять мой bat- atorg.net.ru/temp/beta/- можешь его поправить сам? Если нет посмотрю

#168:  Author: antabuLocation: Новосибирск PostPosted: Wed Feb 02, 2011 14:50
    —
В папку с TextSearch.wdx положил файлы chm2htm.bat, UnCHMw.exe и CHMDir.ini.
В файле chm2htm.bat исправил строку на
UnCHMw e %t% %1
в файле TextSearch.ini ввёл строку
chm=%comspec% /c chm2htm.bat "{In}">"{Out}"
Поиск не находит текст. (В проверяемом файле кодировка 1251)
Извините, что я не понимаю, что значит %comspec% и С без двоеточия.

#169:  Author: Alextp PostPosted: Sat Feb 05, 2011 09:11
    —
Unchmw e %1 %t%\ *.htm*
-это в .bat. ini: нет времени, может chm=%comspec% /c chm2htm.bat "{In}" "{Out}"

#170:  Author: antabuLocation: Новосибирск PostPosted: Mon Feb 07, 2011 14:08
    —
В принципе решение найдено. Это архиваторный плагин Total7zip.
Строка в TextSearch.ini:
Code:
CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

Однако с этим большим файлом справки всё равно проблема: извлечение текста в файл \Temp\TextSrch.txt размером 216МБ заканчивается через 12 секунд после нажатия "Начать поиск", а через 96 с. этот временный файл удаляется при незавершённом поиске, коммандер зависает. Возможно, не хватает памяти на моём компе.
Осталось для поиска внутри файла приспособить этот конвертер к плагину wlx_multilister.

#171:  Author: Alextp PostPosted: Tue Feb 08, 2011 15:04
    —
не знаю, когда появ. время посмотреть этот завис(96с)... Сейчас тестироват неохота (к тому же)

#172:  Author: Alextp PostPosted: Tue Feb 08, 2011 15:15
    —
зависать может на кодир-и utf8. Если найти конвертер htm-txt, то тогда можно убрать {cp:utf8}. (если приспособить конв-р)

#173:  Author: antabuLocation: Новосибирск PostPosted: Wed Feb 09, 2011 09:26
    —
Найти конвертер htm-txt не проблема, с этим справляются и gettext и XDoc, сложнее приспособить.
На этом принципе и основан конвертер chm2txt от Jamal Mazrui, который не работает. Он использует тот же распаковщик 7z от Igor Pavlov, только более раннюю версию.
Попробовал конвертировать вышеназванный "Новый справочник...chm" из командной строки. В полученном файле только 18% текста, остальное - теги. Разбил файл TextSrch.txt на куски разного размера и попробовал искать в них плагином. Обнаружил, что время поиска пропорционально квадрату размера файла.

#174:  Author: Alextp PostPosted: Sat Feb 12, 2011 11:20
    —
нет времени на Tsearch.

#175:  Author: Alextp PostPosted: Thu Apr 14, 2011 13:05
    —
antabu
Насчет "время проп. квадрату размера файла"-совсем нет времени разбираться. Насчет рабочего конвертера-это уже надо подбирать Вам, кто из них лучше делает htm-txt. тем более всего 18% текст.

#176:  Author: Alextp PostPosted: Tue Nov 01, 2011 21:00
    —
OdfToTxt (нет линка с главной)
http://www.uvviewsoft.com/utils/

#177:  Author: Alexis2k PostPosted: Sun Nov 11, 2012 08:10
    —
Если TC расположен на сетевой шаре, то с такой строкой запуска конвертера, которая присутствует в настоящий момент в инсталяторе:
Code:
XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"
не ищет ничего, а с такой
Code:
XDOC=%COMSPEC% /C %COMMANDER_PATH%\Plugins\WDX\TextSearch\Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"
ищет нормально и при запуске с сетевой шары, и при запуске с локального диска.
Думаю стОит поправить комплект.

#178:  Author: Alextp PostPosted: Sun Nov 11, 2012 13:55
    —
Alexis2k
На что поправить- на вашу строку не могу, она завязана на абсолютные пути (у меня плагин не там)

#179:  Author: FlasherLocation: Москва PostPosted: Sun Nov 11, 2012 15:35
    —
Alextp wrote:
у меня плагин не там
Расположение относительно родительского каталога плагина и подразумевает, что он может быть где угодно.

#180:  Author: al000032 PostPosted: Sun Jan 06, 2013 21:10
    —
Всем добрый день, и с НГ!
Здесь уже задавался вопрос - как осуществить поиск по тексту в архивах. Но ответа я не нашел.
Так все-таки, подскажите, пожалуйста, это возможно - искать в архивах, и, если да, то как?
Спасибо!

#181:  Author: Alextp PostPosted: Sun Jan 06, 2013 21:19
    —
Для rar можно написать такой конвертер RAR->TXT

Quote:
rar p c:\path\Arc.rar >c:\temp\txt.txt

Для zip пишется конвертер zip->txt на основе InfoZip unzip.exe:

Quote:
unzip -p c:\path\Arc.zip >c:\temp\txt.txt

#182:  Author: al000032 PostPosted: Sun Jan 06, 2013 23:03
    —
Спасибо за ответ! Но это получается, что создается здоровенный временный файл с содержимым архива (в котором несколько десятков файлов), и по этому файлу уже делается поиск....
А как тогда понять, к какому именно файлу из архива относятся найденные слова?

#183:  Author: Alextp PostPosted: Sun Jan 06, 2013 23:10
    —
никак. Это уже не задача плагина, плагином можно только это

#184:  Author: al000032 PostPosted: Mon Jan 07, 2013 12:38
    —
Ага, понял. А не знаете каким образом умудряется сам Total искать в архивах? Вроде бы и во временную директорию полностью архив не распаковывается?...
И еще - не знаете как в стандартом поиске Totala искать текст в файлах сразу и в ANSI и в UTF8, а не по очереди?

#185:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Jan 07, 2013 16:21
    —
al000032 wrote:
А не знаете каким образом умудряется сам Total искать в архивах? Вроде бы и во временную директорию полностью архив не распаковывается?...

Во-первых, есть такое слово "оффтоп" (ссылка на правила в шапке), а во-вторых, как говорится, важен не метод, а результат. Wink

al000032 wrote:
И еще - не знаете как в стандартом поиске Totala искать текст в файлах сразу и в ANSI и в UTF8, а не по очереди?

Никак, и в документации плагина это сказано.

#186:  Author: al000032 PostPosted: Mon Jan 07, 2013 17:19
    —
Спасибо за ответы, и прошу прощения за уход от темы.
Но поиск в архивах хотелось бы. Если когда-нибудь этим заморочитесь, было бы здорово.

#187:  Author: Alextp PostPosted: Mon Jan 07, 2013 22:06
    —
Я уже сказал выше,не задача плагина

#188: как прикрутить айфильтр к текст сёрч Author: naumannLocation: Кемерово PostPosted: Tue Aug 20, 2013 16:39
    —
уважаемые знатоки, есть ли пошаговая инструкция для блондинок по прикручиванию ifilter. Задача следующая: пакетный поиск по ключевому слову внутри xls. После установки в систему FilterPackx64.exe от майкрософта explorer начал искать внутри файлов а тотошка нет. Я догадываюсь что нужно конвертер положить в папку конвертеров плагина но хоть убей невдомек каким образом теперь выкопать из системы установленный конвертер. Помогите разобраться пожалуйста.

#189:  Author: Alextp PostPosted: Wed Aug 21, 2013 03:37
    —
Gettextifilter.exe подхватывает -по идее- все установленные в ОС фильтры. Нужно просто его разрешить в textsearch.ini- там вроде что-то есть в коменте.

Добавлено спустя 45 секунд:

Фильтры видимо должны быть х32, не х64

#190:  Author: Skif_off PostPosted: Fri Sep 27, 2013 23:29
    —
Кто-нибудь обновлял xdoc2txt до 1.46 (2012/12/24)? Или даже до 2.00 (2013/01/23)?
В плагине версия 1.35 (2009/08/24).

#191:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Sep 29, 2013 09:49
    —
Skif_off
Я обновлял до 1.46. Правда, никаким сколь-либо активным тестированием не занимался, только убедился несколько раз, что искомый текст обнаруживается. 2.00 скачал, но ставить и проверять не стал — пока нет времени.

#192:  Author: Skif_off PostPosted: Wed Nov 13, 2013 18:35
    —
По версии 2.х:
отсюда + 2 поста как минимум.

#193: Re: как прикрутить айфильтр к текст сёрч Author: Mailk PostPosted: Wed Feb 05, 2014 16:33
    —
Задача следующая: пакетный поиск по ключевому слову внутри xls. После установки в систему FilterPackx64.exe от майкрософта explorer начал искать внутри файлов а тотошка нет. Я догадываюсь что нужно конвертер положить в папку конвертеров плагина но хоть убей невдомек каким образом теперь выкопать из системы установленный конвертер. Помогите разобраться пожалуйста.[/quote]

Всегда искал слова в файлах только Тоталам (кроме закрытых форматов), галки проставь UTF-16 и другие. Удобство в том что после поиска быстро просмотреть можно что нашел. В 8.5 спецальная стоит галка для офис. Искал ключивые слова в файлах САПР Компаса, AUTOCAD, Solidworks, MS Offis (WORD, Exell).

Делал расцветку или колонку с найдыними в файле словами (например Разработчик: Иванов, обозначение АБВГ 123.24.55.) Правда притормаживет при таком варианте.

#194:  Author: Skif_off PostPosted: Wed Feb 05, 2014 16:56
    —
Mailk
В описании плагина посмотрите GetTextIFilter, ЕМНИП, он использует фильтры из системы. Ссылка есть в Readme, в архиве есть пример TextSearch.ini.

#195:  Author: Skif_off PostPosted: Wed Sep 10, 2014 08:51
    —
Доступна версия 1.48 (2014/05/04), испрвлен баг с Word и PDF.

2.05 пилиться (5й релиз в этом году), кстати, необходимы msvcp90.dll и msvcr90.dll.

#196:  Author: Skif_off PostPosted: Thu Oct 30, 2014 19:52
    —
Доступна версия 1.50 (2014/10/28), исправлены проблемы с работой с xlsx.

2.07

#197:  Author: Skif_off PostPosted: Thu Dec 10, 2015 13:14
    —
Доступна версия 1.52 (2015/11/19).

#198:  Author: Mailk PostPosted: Mon Feb 15, 2016 01:07
    —
2.14

http://ebstudio.info/home/xdoc2txt.html#download

я не понял чем отличается верм=сии 2.хх от 1.5хх ?

#199:  Author: Skif_off PostPosted: Mon Feb 15, 2016 01:31
    —
Mailk
Юникод + iFilter и вроде всё.

#200:  Author: Alextp PostPosted: Tue Feb 16, 2016 02:07
    —
Отпишусь-ка я от темы,а то тут полуспам какой-то идет,
хотя, если что, откомпилировать смогу (хоть я и не помню по коду ничерта, но это Окей)

#201:  Author: Dimsok PostPosted: Sun Oct 09, 2016 13:03
    —
А что, конвертеры должны быть только в папке с плагином? Подставляю абсолютый путь, вылетатет ошибка. Пытаюсь приспособить Calibre, но не получается. Годны только проги, которые по умолчанию в txt конвертят?

#202:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Oct 09, 2016 15:29
    —
Dimsok wrote:
Годны только проги, которые по умолчанию в txt конвертят?

А название TextSearch и слова в ридми "full-text search in any documents, which have command-line converters to the plain-text form" дают какой-то повод в этом усомниться?

#203:  Author: Dimsok PostPosted: Sun Oct 09, 2016 16:06
    —
Avada
Я к тому, что нельзя ли в textsearch.ini как-нибудь прописать для calibre ключ, чтобы он конвертировал именно в txt? Имя выходного файла.txt. Только те программы можно использовать, которые кроме как в txt ни во что не умеют?

#204:  Author: Skif_off PostPosted: Sun Oct 09, 2016 16:26
    —
Dimsok
В каких форматах вы хотите искать?

#205:  Author: Dimsok PostPosted: Sun Oct 09, 2016 16:32
    —
Skif_off wrote:
Dimsok
В каких форматах вы хотите искать?

Ну какие калибре поддерживает. Epub, lit, pdb, lrf, mobi.
Вот к примеру кнопка для конвертации выделенных файлов в txt

Code:
TOTALCMD#BAR#DATA
%ComSpec% /c for /f "delims=" %# in
('type %WF') do "c:\Program Files\Calibre\Calibre\ebook-convert.exe" "%%#" "%t%%~n#.txt"
C:\Program Files\Calibre\Calibre\calibredb.exe
Convert with Calibre to txt all to the other panel

1
-1


И как это дело можно приладить к textsearch. Батник писать.

#206:  Author: Skif_off PostPosted: Sun Oct 09, 2016 16:52
    —
Dimsok
Ну так и попробуйте в лоб, только для каждого формата в секции конвертеров:
Code:
EPUB=ebook-convert.exe "{In}" "{Out}"

По умолчанию в UTF-8, кажется, получится, если плаг не сможет искать, то можно что-то вроде такого для получения cp1251:
 Hidden text

--max-line-length 0 не уверен, что нужно, но на случай, если строки могут резаться посередине слова.

#207:  Author: Dimsok PostPosted: Sun Oct 09, 2016 17:25
    —
Skif_off
Спасибо, ток конечно со скоростью у Calibre проблемы. Вспомнил про извлекатель текста от балаболки:

http://www.cross-plus-a.com/balabolka_text.zip

Работает в разы шустрей, правда не столько форматов поддерживает.
Поддерживаемые форматы файлов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PDF, PRC, RTF, TXT

Вот параметры для моей кнопки: -f "%%#" -e "utf8" -p "%t%%~n#"

Поможешь сконфигурировать?

#208:  Author: Skif_off PostPosted: Sun Oct 09, 2016 20:47
    —
Dimsok
Dimsok wrote:
ток конечно со скоростью у Calibre проблемы.

А с кодировкой что? С UTF-8 плаг работает?
Dimsok wrote:
-f "%%#" -e "utf8" -p "%t%%~n#"

Аналогично:
Code:
EPUB=путь\balabolka_text.exe -f "{In}" -p "{Out}"


Остаётся вопрос с кодировкой.

#209:  Author: Dimsok PostPosted: Sun Oct 09, 2016 20:52
    —
Quote:
Аналогично:

Я так и пробовал, вываливается ошибка, что нельзя сконвертировать TEMPTextSrch.txt, хотя он создается.

Добавлено спустя 3 минуты:

Quote:
А с кодировкой что? С UTF-8 плаг работает?

То, что под спойлерами работало, но оч. уж долго. Сравнил конвертацию, балаболкина утилита раз в 10 быстрей.

Временный файл создается TEMPTextSrch.txt.txt. Наверное, txt должно быть только в расширении.

Добавлено спустя 1 час 1 минуту:

В общем, у меня только так получилось:

FB2=cmd /c Conv\balabolka_text\balabolka_text.exe -f "{In}" -o > "{Out}"

Пришлось скопировать её в папку с плагином, потому что с абсолютным путём почему-то ничего не ищет.

Добавлено спустя 24 минуты:

Финальный вариант:
Code:
Balabolka_text=cmd /c Conv\balabolka_text\balabolka_text.exe -f "{In}" -o > "{Out}"
FB2=Balabolka_text
MOBI=Balabolka_text
AZW=Balabolka_text
EPUB=Balabolka_text
PRC=Balabolka_text
CHM=Balabolka_text
RTF=Balabolka_text


Добавлено спустя 24 минуты:

Ну и искать в архивах по файлам, которые поддживаает balabolka_text. Я держу в них те, которые сжимаются хорошо - txt, doc, fb2, mht, rtf

Code:
Balabolka_text_7z=cmd /c Conv\balabolka_text\7z.exe e "{In}" -so|Conv\balabolka_text\balabolka_text.exe -i -o > "{Out}
ZIP=Balabolka_text_7z
RAR=Balabolka_text_7z
7Z=Balabolka_text_7z

#210:  Author: Dimsok PostPosted: Mon Oct 10, 2016 02:35
    —
{CP:UTF16} у кого-нибудь работает? У меня не хочет.

#211:  Author: Mailk PostPosted: Mon Oct 24, 2016 01:12
    —
http://ebstudio.info/home/xdoc2txt.html#download

New ! 2016/06/28
xdoc2txt 2.16.1

#212:  Author: Skif_off PostPosted: Mon Oct 24, 2016 13:51
    —
Mailk
Вы проверяли, плагин работает с xdoc2txt линейки 2.х?

#213:  Author: Mailk PostPosted: Mon Oct 24, 2016 15:45
    —
Skif_off wrote:
Mailk
Вы проверяли, плагин работает с xdoc2txt линейки 2.х?

тот последний не ставил еще, а предыдущий работал искал..

#214:  Author: Skif_off PostPosted: Mon Oct 24, 2016 15:58
    —
Mailk
"Предыдущий" - это xdoc2txt 2.16 или xdoc2txt 1.52?

#215:  Author: Mailk PostPosted: Mon Oct 24, 2016 16:03
    —
2.14 я давал ссылку

#216:  Author: Skif_off PostPosted: Wed Oct 26, 2016 23:17
    —
Mailk
А в TextSearch.ini строка с xdoc2txt оставлена всё та же
Code:
%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

?

#217:  Author: Dimsok PostPosted: Thu Oct 27, 2016 23:45
    —
Тем временем в экстрактор текста от Балаболка добавилась поддержка pdb, wpd, tcr форматов

#218:  Author: Mailk PostPosted: Fri Oct 28, 2016 19:44
    —
Skif_off wrote:
Mailk
А в TextSearch.ini строка с xdoc2txt оставлена всё та же
Code:
%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"

?


у меня такой .*ini и как он правилен не знаю...


[Converters]

TXT={CP:ANSI} {CP:UTF8} {CP:UTF16}

HTM={CP:ANSI} {CP:UTF8}
HTML=HTM

XML={CP:UTF8} {CP:ANSI}

;MS RTF
;RTF={CP:RTF}
WRI={CP:RTF}

;Adobe Acrobat
PDF=Conv\gettext\GetText.exe "{In}" "{Out}"
HLP=PDF
XLS=PDF
PPT=PDF
;DOC=PDF
PPS=PDF

XDOC=%COMSPEC% /C CONV\XDOC\XDOC2TXT.EXE "{In}">"{Out}"
mht=XDOC
doc=XDOC
docx=XDOC
;xls=XDOC
xlsx=XDOC
xlsm=XDOC
;ppt=XDOC
pptx=XDOC
pptm=XDOC
rtf=XDOC

CHM=Conv\Chm\FiltDump.exe -b -o "{Out}" "{In}" {CP:UTF16}
;CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

DJVU=Conv\Djvu\djvutxt.exe "{In}" "{Out}" {CP:UTF8}
DJV=DJVU

FB2=wscript.exe /B /NoLogo Conv\fb2txt\fb2txt_commandline.vbs "{In}" "{Out}"

#219:  Author: Dimsok PostPosted: Sun Nov 27, 2016 22:40
    —
У кого-нибудь остались ifilters от Citeknet? Во всём инете не сыскать.

#220: Ошибка у balabolka_text.exe Author: BigBadHort PostPosted: Sun Jan 15, 2017 14:31
    —
Dimsok wrote:

cross-plus-a.___/balabolka_text.zip

Работает в разы шустрей, правда не столько форматов поддерживает.
Поддерживаемые форматы файлов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PDF, PRC, RTF, TXT


С сайта убрали balabolka_text.exe Crying or Very sad

Единственная которую нашел в сети 1.04 от 2013 года
Настроил все по вашему образцу - все находит но выдает ошибку (с противным блямканьем на каждом файле) - "This archive is not a valid Zip archive"
Причем по заголовку окна с ошибкой, видно что выдает ошибку balabolka_text.exe

(картнку не смог вставить)

Помогите исправить эту ошибку!!
Может у вас версия balabolka_text.exe поновее - прсьба выложить в обменник Rolling Eyes
з.ы.
вот мой конфиг


Code:
[Converters]

TXT={CP:ANSI} {CP:UTF8} {CP:UTF16}

HTM={CP:ANSI} {CP:UTF8}
HTML=HTM

XML={CP:UTF8} {CP:ANSI}

;MS RTF
;RTF={CP:RTF}
WRI={CP:RTF}

;Adobe Acrobat
;PDF=Conv\GetTextIFilter\GetTextIFilter.exe "{In}" "{Out}"
;HLP=PDF
;XLS=PDF
;PPT=PDF
;;DOC=PDF
;PPS=PDF

XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe -8 "{In}" > "{Out}" {CP:UTF8}
mht=XDOC
odt=XDOC
doc=XDOC
docx=XDOC
xls=XDOC
pdf=XDOC
;xls=XDOC
xlsx=XDOC
xlsm=XDOC
ppt=XDOC
;ppt=XDOC
pptx=XDOC
pptm=XDOC
rtf=XDOC

;CHM=Conv\Chm\chm2htm.bat -b -o "{Out}" "{In}" {CP:UTF16}
;CHM=%COMSPEC% /C ..\..\wcx\Total7zip\7zG.exe e "{In}" *.htm* -x!images\ -so > "{Out}" -r {CP:ANSI} {CP:UTF8}

DJVUT=Conv\djvutxt\djvutxt.exe "{In}" "{Out}" {CP:UTF8}
djv=DJVUT
djvu=DJVUT


Balabolka_text=cmd /c Conv\balabolka\balabolka_text.exe -f "{In}" -o > "{Out}"
FB2=Balabolka_text
MOBI=Balabolka_text
AZW=Balabolka_text
EPUB=Balabolka_text
PRC=Balabolka_text
CHM=Balabolka_text
;RTF=Balabolka_text

Balabolka_text_7z=cmd /c Conv\balabolka_text\7z.exe e "{In}" -so|Conv\balabolka\balabolka_text.exe -i -o > "{Out} {CP:ANSI}
ZIP=Balabolka_text_7z
RAR=Balabolka_text_7z
7Z=Balabolka_text_7z
;FB2=wscript.exe /B /NoLogo Conv\fb2txt\fb2txt_commandline.vbs "{In}" "{Out}"
[/code]

#221:  Author: Dimsok PostPosted: Sun Jan 15, 2017 16:20
    —
Quote:
С сайта убрали balabolka_text.exe

А это что?
http://www.cross-plus-a.com/blb2txt.zip

Добавлено спустя 7 минут:

BigBadHort
Если какой-то файл не скачивается, надо для начала проверить домен на работоспособность, и уже искать через него.

#222: Теперь все нормально стало Author: BigBadHort PostPosted: Sun Jan 15, 2017 19:02
    —
Dimsok wrote:
А это что?


Спасибо! Теперь все нормально стало Very Happy

#223:  Author: BigBadHort PostPosted: Sun Jan 15, 2017 22:47
    —
А может быть в одном pdf файле сразу две кодировки?

Преобразую с помощью blb2txt в текстовый файл, а поучается смесь из читаемого и не читаемого

Code:
Компания Common Craft выбрала видео. И хотя этот способ вполне удовлетво- ряет нас и нашу аудиторию, он лишь один из многих, подходящих для представле- ния объяснений таким образом, чтобы они сумели привлечь внимание. Подобных средств так много, что выбор может показаться тяжелой работой. Следующая глава поможет в выборе способа, соответствующего ограничениям, которые накладывает на вас ваша аудитория, и имеющемуся набору инструментов.

ÎÁÚßÑÍÅÍÈÅ Â ÐÀÁÎÒÅ: ÊÈÒ ÏÈÐÑ È INTEL

Êèò Ïèðñ ñòàë çâåçäîé êîðïîðàöèè Intel, ïîòîìó ÷òî óìååò îáúÿñíÿòü ñîòðóäíèêàì ñëîæ- íûé ìèð êîìïåíñàöèé ïðîñòûìè ñëîâàìè. Ìû âìåñòå ðàáîòàëè íàä ìíîæåñòâîì âè- äåîïðîåêòîâ, è îí ñòàë îäíèì èç íàøèõ ñàìûõ óâàæàåìûõ ïàðòíåðîâ. Íàøà ñîâìåñò- íàÿ ðàáîòà ñ åãî êîëëåãîé Ìèøåëü Äæåéìñ ïîëó÷èëà â 2011 ãîäó çîëîòóþ íàãðàäó IABC Quill*. ß ïîïðîñèë Êèòà ðàññêàçàòü î ìåòîäèêå åãî îáúÿñíåíèé.

#224:  Author: Dimsok PostPosted: Sun Jan 15, 2017 23:12
    —
С pdf скверно работает. Но можете написать автору сюда, и дать проблемный файл:
http://mytts.forum2x2.ru/t483-topic#9509

Ошибки, которые я замечал, он исправлял, и работу с mht тоже поправил.

#225:  Author: Skif_off PostPosted: Wed Jan 18, 2017 18:58
    —
Подскажите, пожалуйста, что не так: при поиске получаю ошибку
Quote:
Cannot convert file "path\file.docx" to "C:\TempTextSrch.txt".
Command: "C:\Windows\system32\cmd.exe /C Conv\XDoc2txt\xdoc2txt.exe "path\file.docx" > "C:\TempTextSrch.txt"".

%TEMP%=C:\Temp, в TextSearch.ini
Code:
XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe "{In}" > "{Out}"
...
docx=XDOC

ТС 8.52а, Win7x32

#226:  Author: Alextp PostPosted: Wed Jan 18, 2017 21:51
    —
Skif_off
Может плагин ждет %temp% с слешем а у тебя слеша нету.

#227:  Author: Skif_off PostPosted: Wed Jan 18, 2017 23:03
    —
Alextp wrote:
Может плагин ждет %temp% с слешем

И это странно, вроде дефолтное значение тоже без слеша. Запускал set - только в значении PowerShell'овской переменной есть конечный слеш. Непонятно...


А нет ли в планах научить OdfToTxt юникоду (UTF-8)? Или что-то подобное уже есть?

#228:  Author: Alextp PostPosted: Wed Jan 18, 2017 23:35
    —
ВИжу исходник и там ошибка- нет слеша правда, просто
клеится c:\temp + Txtsrch.txt. Поправить надо.

Какую именно версию XDoc2txt мне взять?

#229:  Author: Skif_off PostPosted: Thu Jan 19, 2017 01:37
    —
Alextp
Наверное, до WinVista это не было проблемой, а после в корень системного раздела так просто не напишешь?

Насчёт xdoc2txt не знаю, что сказать, выше Mailk писал, что с 2.x у него работает.
2.х в отличие от 1.х поддерживает юникод и развивается (в 1.х автор правил только несколько критических багов), но поддерживает только Win2k и выше + требует Runtime-библиотеки Visual C++ 2010 (до 2.12 - Visual C++ 2008).
Наверное, лучше 2.х, совместимость с 1.х для желающих ведь никуда не денется? К тому же можно будет использовать один exe'шник и две dll'ки совместно с PCREsearch.

Добавлено спустя 2 минуты:

С другой стороны - 1.х самодостаточна из коробки, а желающие могут заменить... Сегодня я какой-то неуверенный Sad

#230:  Author: Alextp PostPosted: Thu Jan 19, 2017 03:09
    —
Тогда это все -надо брать 2.х, раз развивается. todo.

Добавлено спустя 2 минуты:

Винду7 счас будут забывать, вон новость, что на нее патчи ставятся но не помогают уже.

#231:  Author: Skif_off PostPosted: Thu Jan 19, 2017 11:14
    —
Alextp
Спасибо, будем ждать.

Все эти предостерегающие вопли о Win7 производят впечатление скорее маркетинга... И MS наглядно демонстрировали и свои возможности, и беспардонность.

#232:  Author: Alextp PostPosted: Thu Jan 19, 2017 23:15
    —
все это переписано (еще не все) на Лазарус.
Лаз я уже отлично знаю...
В процессе какие-то куски кода которые были кровью и потом написаны и трудно отлажены на низком уровне ВинАпи - выкинуны нафиг,в Лазе есть уже. Например "читать файл в строку" есть просто как обычная ф-ция в лазе. Но тут вылезает то что в Лаз другая кодировка имени файла. А была ansi.Но все равно переделать нетрудно.Х64 в Лазе легко.

#233:  Author: Alextp PostPosted: Fri Jan 20, 2017 03:00
    —
Beta1.50
http://uvviewsoft.com/bb/wdx_TextSearch.zip

#234:  Author: BeardFury78 PostPosted: Thu Feb 02, 2017 05:38
    —
Хотел было использовать плагин для переименования текстовых файлов в ИГП, используя данные плагина, но увидел, что нету возможности, поля просто нет. Нет ли в планах добавить?

#235:  Author: AvadaLocation: Россия, Саратов PostPosted: Thu Feb 02, 2017 06:01
    —
Alextp
Файл на сервере по указанной ссылке не найден.

#236:  Author: Skif_off PostPosted: Thu Feb 02, 2017 12:25
    —
BeardFury78
Как можно использовать плагин, если, грубо говоря, плагин возвращает только true или false?

Avada
И не должен быть найден, т.к. уже зарелизен, а в http://uvviewsoft.com/bb/ всегда лежали временные бета- и тестовые версии.

#237:  Author: Lisabon PostPosted: Thu Feb 15, 2018 18:15
    —
Может кто-то подскажет в чём проблема...
Надо найти в файле xps (Ссылка) слово, например, Примечание

В TextSearch.ini пишу код:
Code:
XPS=%COMSPEC% /C ..\..\wcx\Total7zip\Modules\7z_x86\7zG.exe e "{InShort}" *\*\*\*.fpage -so > "{Out}" -r {CP:UTF8}
OXPS=XPS

Произвожу поиск:

и ничего не находит.

Пробую найти слово,например, My Folder

и слово находится.
Проблема поиска латиницы.
Внутри файла xps, находятся файлы fpage (xps.xps\Documents\1\Pages\1.fpage) и в них находится искомый текст. Кодировка файла 1.fpage UTF-8, без BOM.

#238:  Author: Alextp PostPosted: Thu Feb 22, 2018 11:46
    —
Проблема поиска в utf8. В коде идет возврат типа FT_FULLTEXT.
вопрос - если сделать _еще_ и возврат FT_FULLTEXT_W (есть такой тип? где дока?)
то тогда юникод должен искаться?
Надо удалить поддержку FT_FULLTEXT?

Добавлено спустя 10 минут:

в доке Content-Plugin Guide
2.1se 2011/09/07
инфы не нашел.

#239:  Author: Skif_off PostPosted: Thu Feb 22, 2018 13:26
    —
Alextp
Есть ft_fulltextw, на оффоруме обсуждалось. ЕМНИП, то же, что и ft_fulltext, но только в UTF-16LE, как ft_stringw. Кажется, первым добавил автор xPDFSearch, milo1012 ещё участвовал в дискуссии.

Так понимаю, если использовать только вместо ft_fulltext, то будет сломана совместимость с предыдущими версиями, будет работать с TC9+?

#240:  Author: Alextp PostPosted: Thu Feb 22, 2018 14:36
    —
И как делать, заменять поле ft_fulltext --> ft_fulltextW ?
или как.

Добавлено спустя 2 часа 16 минут:

заменил на тип fulltextW.
Бета 1.6, попробуйте, у меня ищет рус буквы, китайские не тестил.
http://uvviewsoft.com/bb/wdx_TextSearch.zip

#241:  Author: Lisabon PostPosted: Thu Feb 22, 2018 17:59
    —
Alextp
Quote:
Бета 1.6, попробуйте

Погонял новую версию и проблем не увидел пока. Кириллицу ищет в юникодных файлах. Спасибо!

Добавлено спустя 1 час 54 минуты:

Alextp
Теперь проблема поиска кириллицы в файлах с кодировкой ANSI.

#242:  Author: Alextp PostPosted: Thu Feb 22, 2018 20:56
    —
Посмотрю наверное завтра.

#243:  Author: Alextp PostPosted: Fri Feb 23, 2018 11:22
    —
Обновил- 1.6.1, у меня заработало ansi. oem убрано, может временно. Не знаю как он нужен в 2018году.

#244:  Author: AvadaLocation: Россия, Саратов PostPosted: Fri Feb 23, 2018 12:11
    —
Alextp
Не надо убирать, иногда и сейчас нужен. Опять же в стандартных поисковых опциях TC OEM есть, функционал плагина не должен быть хуже.

#245:  Author: Alextp PostPosted: Fri Feb 23, 2018 12:13
    —
Вернул OEM, совсем другой код, проверил на файле cp866- Ok.
V1.6.2.

#246:  Author: AvadaLocation: Россия, Саратов PostPosted: Fri Feb 23, 2018 12:19
    —
Alextp
То, что я недавно скачивал как версию 1.6.1 (по wincmd.ru), и нынешний архив 1.6.2 (опять же по wincmd.ru) — это внутри одно и то же. Какая там версия на самом деле? И хорошо бы в плагине номер версии указывать и в имени архива, и внутренний.

#247:  Author: Alextp PostPosted: Fri Feb 23, 2018 19:42
    —
Версия 1.6.1 была раньше по дате wdx file. 1.6.2 от сегодня от 11 часов. я ее компилил в 11 часов.

Добавлено спустя 2 минуты:

Номер версии - в файле history.txt.

Добавлено спустя 11 минут:

В сорце в sconvert.pas есть добавка для OEM
Code:


  Result:= '';
  case CP of
    cpANSI:
      Result:= Conv_AnsiToUtf8(S);
    cpOEM:
      Result:= Conv_OemToUtf8(S);
    cpUTF8:
      Result:= S;

#248:  Author: AvadaLocation: Россия, Саратов PostPosted: Sat Feb 24, 2018 07:43
    —
Alextp
Вот теперь на wincmd.ru действительно скачивается версия 1.6.2 — и по датам файлов, и по ридми. У предыдущей (в том числе уже обозначенной на сайте как 1.6.2) время модификации у библиотек было примерно на час раньше, а ридми и прочее для 1.6.1. Можно считать, что вопрос закрыт.

#249:  Author: i1 PostPosted: Thu Mar 01, 2018 16:23
    —
В продолжение сообщения. Windows 10 x64 (английская версия), Total Commander 9.12 x64. Актуальная версия плагина 1.6.2 со стандартными настройками:
1. Не ищет русский текст (например, в файле *.doc). При этом латиницу ищет.
2. Вызывает ошибку (видимо только на файлах с русскими буквами):
https://i.imgur.com/tMxPY1X.png

Что нужно изменить в настройках для устранения данных проблем?

#250:  Author: AvadaLocation: Россия, Саратов PostPosted: Thu Mar 01, 2018 16:53
    —
i1
Вы правила форума освежить в памяти не хотите? Получите замечание за их нарушение. Неформатная картинка заменена ссылкой.

#251:  Author: Lisabon PostPosted: Thu Mar 01, 2018 17:42
    —
i1
Попробуй измени в TextSearch.ini
Code:
;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2Txt\XDoc2Txt.exe "{In}" > "{Out}"

на
Code:
;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2Txt\XDoc2Txt.exe -8 "{In}" > "{Out}"

#252:  Author: i1 PostPosted: Thu Mar 01, 2018 18:05
    —
Lisabon, спасибо, эта настройка позволила искать русский текст в файлах, но проблема с названиями файлов на русском языке осталась (возникает ошибка как на скриншоте).

#253:  Author: Lisabon PostPosted: Thu Mar 01, 2018 18:28
    —
i1
Попробуй замени:
Code:
"{In}"

на
Code:
"{InShort}"

#254:  Author: i1 PostPosted: Thu Mar 01, 2018 18:37
    —
Lisabon, теперь ищет в файлах с русскими названиями, но спотыкается на файле "qwa.docx". Обрезает букву X в расширении.
https://imgur.com/RzDhq1P

#255:  Author: Lisabon PostPosted: Thu Mar 01, 2018 18:49
    —
i1
Скорее всего проблема в самом конвертере XDoc2Txt. Наверное привередливый конвертер.
Подсказать ещё что-то дельное по XDoc2Txt, нечего. Может кто-то ещё мыслишки свои подкинет по этой проблеме с XDoc2Txt.
Как вариант использовать другой конвертер.

#256:  Author: Skif_off PostPosted: Fri Mar 02, 2018 01:55
    —
Lisabon
Замена на "{InShort}" не очень хороший вариант ещё и потому, что отключение коротких имён - один из советов по оптимизации SSD (но фича при этом отключается глобально).

>> Как вариант использовать другой конвертер.
Их и нет почти Smile

i1
А если выполнить ту же команду напрямую, в консоли? xdoc2txt версии 2.х или 1.х? Автор - японец, вроде, странно иметь подобные проблемы...

в голову пришла ешё такая мысль, сомнительная:
Code:
XDOC=%COMSPEC% /C chcp 65001 & Conv\XDoc2Txt\XDoc2Txt.exe "{In}" > "{Out}"

#257:  Author: i1 PostPosted: Fri Mar 02, 2018 05:16
    —
Lisabon, Skif_off, спасибо за ваши ответы.
Skif_off, chcp не помогло.

Для себя нашел настройки для необходимых мне форматов (doc(x), xls(x), pdf, ppt(x), htm(l)) — TextSearch.ini. Дополнительно используется DocToText.

#258:  Author: FlasherLocation: Москва PostPosted: Fri Mar 02, 2018 07:46
    —
Я бы попробовал:
Code:
XDOC=%ComSpec% /u /c Conv\XDoc2Txt\XDoc2Txt.exe -u "{In}" > "{Out}"
Но у меня юникодная x32 вообще ни черта не работает...

#259:  Author: Alextp PostPosted: Fri Mar 02, 2018 09:25
    —
i1
Если включить лог опцией Log=1 то что показывает лог?

#260:  Author: Skif_off PostPosted: Fri Mar 02, 2018 11:05
    —
Flasher
Оно runtime-библиотеки требует, в наличии? Попробуй версию из PCREsearch.

#261:  Author: Alextp PostPosted: Fri Mar 02, 2018 12:20
    —
Заменил в Лазарусе класс на юникодный. Может теперь будет ОК с юникодными ком строками. 1.6.3.

#262:  Author: i1 PostPosted: Fri Mar 02, 2018 13:01
    —
Alextp, при включённой опции получаю вылет TC, лог в папке Temp отсутствует.
Версия 1.6.3 со стандартными настройками выдаёт аналогичную ранее указанной ошибку. С моими настройками работает — ищет.

#263:  Author: Lisabon PostPosted: Fri Mar 02, 2018 13:11
    —
i1
Попробуй замени:
Code:
;XDoc2Txt
XDOC=%COMSPEC% /C Conv\XDoc2txt\xdoc2txt.exe -8 "{InShort}" > "{Out}"

на
Code:
;XDoc2Txt
XDOC=%COMSPEC% /U /C Conv\XDoc2txt\xdoc2txt.exe -U "{In}" > "{Out}" {CP:UTF16}

#264:  Author: i1 PostPosted: Fri Mar 02, 2018 13:20
    —
Lisabon, с такими настройками нет ошибок, но и ничего не находит. Ещё заметил странность — с моими настройками плагин спотыкается на временных файлах с ~$ в начале имени файла.

#265:  Author: Alextp PostPosted: Fri Mar 02, 2018 15:45
    —
i1, если включить опцию "не удалять out file", можно посмотреть правильно ли формируется выход xdoct2txt.

#266:  Author: i1 PostPosted: Sun Mar 04, 2018 09:33
    —
Alextp, заглянул в файл TextSrch.txt до того как нажал ОК в окне с ошибкой - он пустой.
https://imgur.com/txUllBI

#267:  Author: Alextp PostPosted: Sun Mar 04, 2018 11:13
    —
i1, тогда конвертер дает такой файл.

#268:  Author: i1 PostPosted: Sun Mar 04, 2018 14:05
    —
Alextp, возможно ли добавить в плагин опцию игнорирования ошибок конвертирования и вывода по окончании поиска количества ошибок? Или хотя бы просто игнорирования.

#269:  Author: Alextp PostPosted: Sun Mar 04, 2018 22:33
    —
Уже есть опция Log=1 - она покажет в логе ошибки вроде. Зачем еще опция.

#270:  Author: i1 PostPosted: Mon Mar 05, 2018 03:59
    —
Alextp, чтобы можно было запустить поиск на большом количестве файлов и не заглядывать в TC в ожидании появления ошибки, а после поиска видеть какие файлы не обработались.

#271:  Author: Alextp PostPosted: Mon Mar 05, 2018 15:37
    —
Вообще то это контент плагин, как он может что то выводить, это чепуха, плаг должен молча поискать и все.

#272:  Author: i1 PostPosted: Mon Mar 05, 2018 16:50
    —
Alextp, я предложил вывод уведомления как вариант. В первую очередь удобной была бы функция игнорирования ошибок. Пример - 100 файлов, из которых несколько нечитаемы конвертером. Из-за них и приходится ждать окна с ошибкой, чтобы нажать ОК и продолжить поиск в остальных.

#273:  Author: Alextp PostPosted: Mon Mar 05, 2018 18:40
    —
1.6.4- фиксено ошибка в опции Log=1.
Теперь пишет лог и ошибки нет. "игнорирования ошибок"- уже тут. Это опция ShowErrors=0.

#274:  Author: tumanovalex PostPosted: Sun Dec 02, 2018 12:07
    —
Только начинаю работать с плагинами. Потребовался поиск в doc и docx в Total Commander 7, в котором нет возможности поиска в docx. Посоветовали TextSearch. Он установился в директорию plugins, виден в перечне плагинов wdx, но я не понял, нужно ли его настраивать и как его запускать. Помогите, пожалуйста.

#275:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Dec 02, 2018 16:02
    —
tumanovalex
Правила форума почитайте. Про "настраивать и запускать" см. ридми плагина. Ссылки на общие правила работы с WDX-плагинами приводились многократно (пример). Конкретно про указанные форматы — поиск по форуму (пример).
И надо TC обновить до приемлемой версии, где всё это без плагинов давным-давно прекрасно ищется, а не придумывать себе проблемы и якобы серьезные причины не обновляться. По работе в ТC 7 никакой адекватной техподдержки тут уже нет и больше не будет.

#276:  Author: tumanovalex PostPosted: Sun Dec 02, 2018 22:37
    —
Спасибо за ответ. Я видел новые версии, но мне в седьмой очень нравится, что при нажатии лампочки появляется другая панель инструментов. В новых версиях я такой возможности не нашел. Но в 7 версии нет поиска по новейшим типам документов. Видимо, пришла пора переходить на современные версии

#277:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Dec 02, 2018 23:17
    —
tumanovalex
М-да... Не в седьмой версии "лампочка", а в какой-то сборке. А стандартное создание кнопки для перехода на другую панель собственными силами занимает ровно минуту. С любым значком и в любой версии. На этом оффтоп, полагаю, закончен.

#278:  Author: Ygg PostPosted: Mon Dec 31, 2018 17:01
    —
Японцы обновили конвертер xdox2txt
_ebstudio.info/home/xdoc2txt.html#download

Google translate wrote:
2.17 2018/10/16

Fixed an issue where extra descriptors are displayed in RTF after 1.9 (Word 2007)
Ruby(??) removal of docx
Fixed an issue that ended abnormally for some PDFs

#279:  Author: Alextp PostPosted: Tue Jan 01, 2019 23:05
    —
Наверно, из-за такой мелочи обновлять сборку не буду
(мелочи - это любого апдейта этой программы).

#280:  Author: kosla PostPosted: Fri Feb 14, 2020 15:58
    —
С помощью этого плагина нельзя искать с исключением
например содержащие текст 123 при этом не содержащие 1234?

#281:  Author: AvadaLocation: Россия, Саратов PostPosted: Fri Feb 14, 2020 16:23
    —
kosla
Разумеется, можно. Третья страница диалога поиска TC. Выберите в списке плагин и создайте с ним два правила, объединенные через И. Две разных операции: cодержит и !содержит (то есть не содержит). Для каждой указать нужное значение.

#282:  Author: kosla PostPosted: Sat Feb 15, 2020 17:34
    —
Avada wrote:
kosla
Разумеется, можно. Третья страница диалога поиска TC. Выберите в списке плагин и создайте с ним два правила, объединенные через И. Две разных операции: cодержит и !содержит (то есть не содержит). Для каждой указать нужное значение.

не знал что !содержит значит не содержит

#283:  Author: AvadaLocation: Россия, Саратов PostPosted: Sat Feb 15, 2020 17:47
    —
kosla
В справку иногда заглядывать очень полезно.
А полное цитирование предыдущих сообщений (особенно с включением собственного ника) на нашем форуме категорически не одобряется и считается оверквотингом.



Total Commander -> Плагины Total Commander


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Page 1 of 1

Powered by phpBB © 2001, 2005 phpBB Group