TextSearch (Content-плагин)
Select messages from
# through # FAQ
[/[Print]\]
Goto page Previous  1, 2, 3, 4 ... 17, 18, 19  Next  :| |:
Total Commander -> Плагины Total Commander

#31:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 11:32
    —
Вот я и веду переговоры с автором FB2 to Any Smile

#32:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 12:54
    —
Ник wrote:
Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

Элементарно – всё что между <binary и </binary>

Alextp wrote:
нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Ща попробую, есть эфбэшки.

#33:  Author: Alextp PostPosted: Thu Aug 16, 2007 13:17
    —
Моторокер
Надо чтобы текст разделялся пробелами после стрипанья тегов.


Last edited by Alextp on Thu Aug 16, 2007 14:18; edited 4 times in total

#34:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 13:18
    —
Я кручу FB2 to Any.

Скрипт fb2txt_interactive.vbs работает отлично.
Скрипт fb2txt_commandline.vbs даёт ошибку на 90 строке 1 позиция - так и не понял - ошибка в скрипте или в документе - я не особо волоку в скриптах.

Посмотрите кто-нибудь, плз, - инструмент уже готовый, его, ИМХО, просто надо настроить и научиться им пользоваться.

Файлы FB2 для проверки могу прислать...

#35:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 14:04
    —
Alextp wrote:
Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов.

Что это значит?
Просто тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку:
xml2txt.rar (22 Kb)
Параметры – входной [и выходной] файл

#36:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 14:48
    —
Моторокер wrote:
Alextp wrote:
Хорошо. Надо только чтобы текст разделялся пробелами после стрипанья тегов.

Что это значит?


Значит - чтобы слова не слипались после удаления тэгов... Smile

#37:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 14:50
    —
Моторокер wrote:
тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку


Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

#38:  Author: Alextp PostPosted: Thu Aug 16, 2007 14:57
    —
Quote:
Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... Smile


Именно. Сейчас слипаются.

#39:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:07
    —
И потом - в FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 - ТК вроде как не работает нормально и полноценно с Уникодом (особенно без ручного выставления кодировки при поиске и просмотре).

Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...

Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?

Иначе легче искать AVSearch, который все эти кодировки поддерживает + RTF видит нормально...

#40:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 15:21
    —
Ник wrote:
Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

Работает хоть быстрее? Smile

Я же говорю, решение в лоб – чтобы показать, что это возможно и без других программ. По идее файл надо грузить/резать
частями.
Ещё и кодировку текста надо определять (FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 ).
И тэги символов (&amp;) заменять на сами символы (&).

Ник wrote:
Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.

Поддерживаю.

Ник wrote:
для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой

А как он узнает, что кодировка та?
А если узнает, зачем выдывать ошибки? Сделать, чтобы кодировка была та, конвертировать.

#41:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:31
    —
Моторокер wrote:
Работает хоть быстрее?

Медленнее намного...
И мусор остаётся (что естественно).

Лучше посмотрите, плз, скрипт от FB2 to Any - там, ИМХО, совсем легко - а прога уже отлаженная...

Алексей!
Idea Думаю данный плагин + GetText решают, наконец, проблему поиска в RTF!
Спасибо большое! Very Happy

Конечно, по удобству интерфейса в этой операции ТК не дотягивает до AVSearch - но важна принципиальная способность искать...

#42:  Author: НикLocation: Москва PostPosted: Thu Aug 16, 2007 15:59
    —
Моторокер wrote:
как он узнает, что кодировка та?


Советую скачать и внимательно прочитать описание View64 (кстати - был бы идеальный конвертор для данного плагина - но автор куда-то делся...):

Quote:
файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8

#43:  Author: Stepan_Lameroff PostPosted: Thu Aug 16, 2007 16:11
    —
GetTextIFilter ALPHA, Version 0.0.1.24023
bin+src


Для работы требуется .Net Framework 2.0+
Известные проблемы:
Не работает с Adobe 8+ AcroIF.dll (решается путем добавления %ProgramFiles%\Adobe\Acrobat 8.0\Acrobat\ в PATH)
C Foxit PDF IFilter работает нормально.

Параметры командной строки:
/(-)s <полный путь к исходному файлу> ({In})
/(-)d <путь к файлу с извлеченным текстом> ({Out})
[/(-)l] запись ошибок и исключений в лог (error.txt в каталоге программы)
[/(-)? | /(-)h | --help ] думаю понятно Smile

Посмотреть список присутствующих в системе фильтров можно при помощи
IFilter Explorer

Много качественных фильтров
IFilterShop


Пинки, пожелания и предложения слать (посылать можно тоже Smile) мой_ник at mail.ru

#44:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Aug 16, 2007 16:31
    —
Ник wrote:
описание View64

Я про то же.
Только если уже узнали, что кодировка «неверная», то об этом говорить не надо, а надо привести к «верной».

#45:  Author: Alextp PostPosted: Thu Aug 16, 2007 18:22
    —
Ник

Quote:
--SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?



Я добавлю ключ {UTF8} для автоматической конвертации UTF-8 -> Text.
Также {OEM}. Еще какие-нибудь нужно? {RTF}? {UTF16}?



Total Commander -> Плагины Total Commander


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Goto page Previous  1, 2, 3, 4 ... 17, 18, 19  Next  :| |:
Page 3 of 19

Powered by phpBB © 2001, 2005 phpBB Group