View previous topic :: View next topic |
Author |
Message |
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 11:32 Post subject: |
|
|
Вот я и веду переговоры с автором FB2 to Any _________________ Xubuntu |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Thu Aug 16, 2007 12:54 Post subject: |
|
|
Ник wrote: | Alextp wrote: | По поводу FB2: нужна утилита, которая стрипает теги |
Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать? |
Элементарно – всё что между <binary и </binary>
Alextp wrote: | нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file |
Ща попробую, есть эфбэшки. _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Aug 16, 2007 13:17 Post subject: |
|
|
Моторокер
Надо чтобы текст разделялся пробелами после стрипанья тегов.
Last edited by Alextp on Thu Aug 16, 2007 14:18; edited 4 times in total |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 13:18 Post subject: |
|
|
Я кручу FB2 to Any.
Скрипт fb2txt_interactive.vbs работает отлично.
Скрипт fb2txt_commandline.vbs даёт ошибку на 90 строке 1 позиция - так и не понял - ошибка в скрипте или в документе - я не особо волоку в скриптах.
Посмотрите кто-нибудь, плз, - инструмент уже готовый, его, ИМХО, просто надо настроить и научиться им пользоваться.
Файлы FB2 для проверки могу прислать... _________________ Xubuntu |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Thu Aug 16, 2007 14:04 Post subject: |
|
|
Alextp wrote: | Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов. |
Что это значит?
Просто тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку:
xml2txt.rar (22 Kb)
Параметры – входной [и выходной] файл _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 14:48 Post subject: |
|
|
Моторокер wrote: | Alextp wrote: | Хорошо. Надо только чтобы текст разделялся пробелами после стрипанья тегов. |
Что это значит? |
Значит - чтобы слова не слипались после удаления тэгов... _________________ Xubuntu |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 14:50 Post subject: |
|
|
Моторокер wrote: | тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку |
Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!! _________________ Xubuntu |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Aug 16, 2007 14:57 Post subject: |
|
|
Quote: | Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... |
Именно. Сейчас слипаются. |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 15:07 Post subject: |
|
|
И потом - в FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 - ТК вроде как не работает нормально и полноценно с Уникодом (особенно без ручного выставления кодировки при поиске и просмотре).
Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...
Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?
Иначе легче искать AVSearch, который все эти кодировки поддерживает + RTF видит нормально... _________________ Xubuntu |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Thu Aug 16, 2007 15:21 Post subject: |
|
|
Ник wrote: | Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!! |
Работает хоть быстрее?
Я же говорю, решение в лоб – чтобы показать, что это возможно и без других программ. По идее файл надо грузить/резать
частями.
Ещё и кодировку текста надо определять (FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 ).
И тэги символов (&) заменять на сами символы (&).
Ник wrote: | Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251. |
Поддерживаю.
Ник wrote: | для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой |
А как он узнает, что кодировка та?
А если узнает, зачем выдывать ошибки? Сделать, чтобы кодировка была та, конвертировать. _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 15:31 Post subject: |
|
|
Моторокер wrote: | Работает хоть быстрее? |
Медленнее намного...
И мусор остаётся (что естественно).
Лучше посмотрите, плз, скрипт от FB2 to Any - там, ИМХО, совсем легко - а прога уже отлаженная...
Алексей!
Думаю данный плагин + GetText решают, наконец, проблему поиска в RTF!
Спасибо большое!
Конечно, по удобству интерфейса в этой операции ТК не дотягивает до AVSearch - но важна принципиальная способность искать... _________________ Xubuntu |
|
Back to top |
|
|
Ник
Joined: 15 Dec 2004 Posts: 1256 Location: Москва
|
(Separately) Posted: Thu Aug 16, 2007 15:59 Post subject: |
|
|
Моторокер wrote: | как он узнает, что кодировка та? |
Советую скачать и внимательно прочитать описание View64 (кстати - был бы идеальный конвертор для данного плагина - но автор куда-то делся...):
Quote: | файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8 |
_________________ Xubuntu |
|
Back to top |
|
|
Stepan_Lameroff
Joined: 20 Feb 2007 Posts: 7
|
(Separately) Posted: Thu Aug 16, 2007 16:11 Post subject: |
|
|
GetTextIFilter ALPHA, Version 0.0.1.24023
bin+src
Для работы требуется .Net Framework 2.0+
Известные проблемы:
Не работает с Adobe 8+ AcroIF.dll (решается путем добавления %ProgramFiles%\Adobe\Acrobat 8.0\Acrobat\ в PATH)
C Foxit PDF IFilter работает нормально.
Параметры командной строки:
/(-)s <полный путь к исходному файлу> ({In})
/(-)d <путь к файлу с извлеченным текстом> ({Out})
[/(-)l] запись ошибок и исключений в лог (error.txt в каталоге программы)
[/(-)? | /(-)h | --help ] думаю понятно
Посмотреть список присутствующих в системе фильтров можно при помощи
IFilter Explorer
Много качественных фильтров
IFilterShop
Пинки, пожелания и предложения слать (посылать можно тоже ) мой_ник at mail.ru |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Thu Aug 16, 2007 16:31 Post subject: |
|
|
Ник wrote: | описание View64 |
Я про то же.
Только если уже узнали, что кодировка «неверная», то об этом говорить не надо, а надо привести к «верной». _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Aug 16, 2007 18:22 Post subject: |
|
|
Ник
Quote: | --SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать? |
Я добавлю ключ {UTF8} для автоматической конвертации UTF-8 -> Text.
Также {OEM}. Еще какие-нибудь нужно? {RTF}? {UTF16}? |
|
Back to top |
|
|
|