Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

TextSearch (Content-плагин)
Goto page Previous  1, 2, 3, 4, 5 ... 17, 18, 19  Next
 
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander printer-friendly view
View previous topic :: View next topic  
Author Message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 18:34    Post subject: Reply with quote

Ник
Quote:
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...


А что плагин должен для этого делать?

Quote:
Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?


Можно. Что писать в лог-файл? Smile
Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?

Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 18:41    Post subject: Reply with quote

Alextp wrote:
Еще какие-нибудь нужно? {RTF}? {UTF16}?


Что такое в данном контексте RTF, мне не ясно - а вот последнее, думаю, пригодится.
Нужно - ИМХО - обязательно ASCII (866) и KOI-8R.
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 18:45    Post subject: Reply with quote

Alextp wrote:
Что писать в лог-файл? Smile
Строку запуска конвертера? Успешно ли сконвертировалось? можно. Еще что-то?


Ну типа какая кодировка была - т.е. какую плагин "выявил" (если это реально), а юзер уже сравнит с тем, что есть на самом деле...

Alextp wrote:
Кстати, если сделать ключ {RTF}, то конвертеры для RTF не будут нужны...


Вот это не очень ясно - плагин сам сконвертирует?
А как тогда, если кодировка внутри RTF неправильно задана? Или это пусть юзер сам приводит в чувство свои файлы (в RTF часто такой бред внутри с форматами и кодировками)?
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 18:47    Post subject: Reply with quote

Stepan_Lameroff wrote:
GetTextIFilter...
...
Для работы требуется .Net Framework 2.0+


Это, ИМХО, не наш метод Smile
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 18:49    Post subject: Reply with quote

Quote:
Что такое в данном контексте RTF, мне не ясно - а вот последнее, думаю, пригодится.
Нужно - ИМХО - обязательно ASCII (866) и KOI-8R.


OK. Будет {UTF8}, {OEM} и {KOI8R}.
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 19:04    Post subject: Reply with quote

Ник
Quote:
Ну типа какая кодировка была - т.е. какую плагин "выявил" (если это реально), а юзер уже сравнит с тем, что есть на самом деле...

Нет, он не выявляет ничего. Хотя можно сделать {Auto} для выявления (UTF8, UTF16).


Quote:
Вот это не очень ясно - плагин сам сконвертирует?

Да, если укажешь {...} в комстроке.

Quote:
А как тогда, если кодировка внутри RTF неправильно задана?

Не знаю.
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 22:36    Post subject: Reply with quote

Плагин обновлен. Ник?
Back to top
View user's profile Send private message
Stepan_Lameroff



Joined: 20 Feb 2007
Posts: 7

Post (Separately) Posted: Fri Aug 17, 2007 00:07    Post subject: Reply with quote

FiltDump от Microsoft (лежала приблуда в Platform SDK Smile)
Передается имя файла, результат выводит в stdout.
Работает кривовато (имеется в виду качество извлечения текста), но быстро.
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Fri Aug 17, 2007 12:31    Post subject: Reply with quote

Извини, что-то извещение об ответе на мыло не пришло...

Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.

ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов" и предложить залезть в лог, чтобы посмотреть их список.

ОФФ:
Совет - все конверторы в текст, которые Вы используете с данным плагином - загоните также в настройки (PDF)filter http://wincmd.ru/plugring/filter.html - он работает по тому же принципу, но листер-плагин.
Тогда Вы, найдя нужные файлы, сделаете список на панели и сразу по F3 или Ctrl-Q сможете все эти файлы посмотреть практически в том виде, в каком их увидел TextSearch - и сможете найти конкретное слово в конкретном файле (в т.ч. в (PDF)filter встроен поиск с последовательной конвертацией страниц для тех конверторов, что не конвертируют больше 1 страницы за раз).
В общем, комбинируйте и экспериментируйте... Smile
НЕ-ОФФ.

Алексей - огромное спасибо! Smile
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Fri Aug 17, 2007 12:41    Post subject: Reply with quote

Quote:
Тестирую - вроде всё ОК, но для RTF я из осторожности использую GetText, а не встроенную возможность.

Там могут быть отличия. ты сам говорил, в RTF быйда с кодировками

Quote:
Единственное замечание - если не получается конвертировать файл в текст (например, PDF без текстового слоя вообще), то выскакивает соответствуюшее сообщение и требует нажать "ОК". При этом, как я понимаю, работа поиска останавливается.


И предлагаешь сделать опцию? для отключения messagebox? Можно.


Quote:
ИМХО, лучше было бы в самом конце поиска давать сообщение (не блокирующее ТК!!): "не смогло конвертировать столько-то файлов"


Это не получится. "В самом конце"- плагин об этом не знает..
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Fri Aug 17, 2007 12:59    Post subject: Reply with quote

Тогда, видимо, нужно делать опцию отключения мессаджа в настройках - и тут же написать - "Включите сразу же лог - иначе ничего не поймёте"...

Сейчас найду разные RTF и покручу...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Fri Aug 17, 2007 13:40    Post subject: Reply with quote

Проверка RTF:

Взято 41 файл RTF, 25 штук ANSI 1251, остальные другие (разные). Общий объём 65 Мб. Файлы по типу совершенно разные.

Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не", в одном - полная задница с кодировкой (хотя View64 можно настроить так, чтобы он его видел).

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...

Образцы файлов могу сжать и прислать - или выложить куда-нибудь.
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Fri Aug 17, 2007 15:07    Post subject: Reply with quote

Stepan_Lameroff wrote:
FiltDump...


Может это и "приблуда", но не утилита Wink
Она берёт список фильтров, установленных в системе, сама только их использует для конвертации.
Может быть иногда полезной.
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Fri Aug 17, 2007 16:17    Post subject: Reply with quote

Ник
Quote:
Ищем через GetText слово "не" - найдено 37 файлов из 41. Не найденные 4 штуки - в 3-х нет слова "не"

Ищем через встроенный в плагин конвертор RTF по тому же слову - найдено 26 файлов из 41...


Так потому что "мой" rtf конв. понимает только ANSI RTF. Поэтому и нашлось 25 файлов ANSI + 1 случайный не в той кодировке в котором тоже есть слово "не". Так что все ОК. Вот если научиться распознавать кодировку RTF..


SL
Утилиту не включаю в списвко потому что нет ридми, нет настроенного конфига TextSEarch.ini
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Fri Aug 17, 2007 16:37    Post subject: Reply with quote

Alextp wrote:
Вот если научиться распознавать кодировку RTF


Она же там явно вроде бы прописана- есть же спецификация формата.
Правда, может быть текст из кусков на нескольких языках - вроде бы перед каждым куском указывается его кодировка.

Другое дело, что нужно различать "классический RTF" и "RTF от MSO" - вот это действительно проблема...

Единственная радость - как я понимаю, в варианте от МСО русский текст содержится в явном виде - конвертация не ухудшает поисковой ситуации Smile

Правда, ещё есть проблемы Уникодного RTF и Ансишного...
Но View64 распознает и показывает их правильно - может попытаться найти его автора и попросить исходники?
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander All times are GMT + 4 Hours
Goto page Previous  1, 2, 3, 4, 5 ... 17, 18, 19  Next
Page 4 of 19

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group