Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

TextSearch (Content-плагин)
Goto page Previous  1, 2, 3, 4 ... 17, 18, 19  Next
 
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander printer-friendly view
View previous topic :: View next topic  
Author Message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 11:32    Post subject: Reply with quote

Вот я и веду переговоры с автором FB2 to Any Smile
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1517
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Thu Aug 16, 2007 12:54    Post subject: Reply with quote

Ник wrote:
Alextp wrote:
По поводу FB2: нужна утилита, которая стрипает теги


Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать?

Элементарно – всё что между <binary и </binary>

Alextp wrote:
нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file

Ща попробую, есть эфбэшки.
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 13:17    Post subject: Reply with quote

Моторокер
Надо чтобы текст разделялся пробелами после стрипанья тегов.


Last edited by Alextp on Thu Aug 16, 2007 14:18; edited 4 times in total
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 13:18    Post subject: Reply with quote

Я кручу FB2 to Any.

Скрипт fb2txt_interactive.vbs работает отлично.
Скрипт fb2txt_commandline.vbs даёт ошибку на 90 строке 1 позиция - так и не понял - ошибка в скрипте или в документе - я не особо волоку в скриптах.

Посмотрите кто-нибудь, плз, - инструмент уже готовый, его, ИМХО, просто надо настроить и научиться им пользоваться.

Файлы FB2 для проверки могу прислать...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1517
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Thu Aug 16, 2007 14:04    Post subject: Reply with quote

Alextp wrote:
Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов.

Что это значит?
Просто тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку:
xml2txt.rar (22 Kb)
Параметры – входной [и выходной] файл
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 14:48    Post subject: Reply with quote

Моторокер wrote:
Alextp wrote:
Хорошо. Надо только чтобы текст разделялся пробелами после стрипанья тегов.

Что это значит?


Значит - чтобы слова не слипались после удаления тэгов... Smile
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 14:50    Post subject: Reply with quote

Моторокер wrote:
тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку


Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 14:57    Post subject: Reply with quote

Quote:
Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... Smile


Именно. Сейчас слипаются.
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 15:07    Post subject: Reply with quote

И потом - в FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 - ТК вроде как не работает нормально и полноценно с Уникодом (особенно без ручного выставления кодировки при поиске и просмотре).

Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.
Или нужно делать многократный поиск: по Windows-1251, по ASCII, по KOI-8R, по UTF-8, UTF-16...

Кстати, Алексей, а нельзя ли для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой?

Иначе легче искать AVSearch, который все эти кодировки поддерживает + RTF видит нормально...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1517
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Thu Aug 16, 2007 15:21    Post subject: Reply with quote

Ник wrote:
Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!!

Работает хоть быстрее? Smile

Я же говорю, решение в лоб – чтобы показать, что это возможно и без других программ. По идее файл надо грузить/резать
частями.
Ещё и кодировку текста надо определять (FB2 идёт текст в UTF-8 - ИМХО, его нужно переделывать в Windows-1251 ).
И тэги символов (&amp;) заменять на сами символы (&).

Ник wrote:
Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251.

Поддерживаю.

Ник wrote:
для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой

А как он узнает, что кодировка та?
А если узнает, зачем выдывать ошибки? Сделать, чтобы кодировка была та, конвертировать.
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 15:31    Post subject: Reply with quote

Моторокер wrote:
Работает хоть быстрее?

Медленнее намного...
И мусор остаётся (что естественно).

Лучше посмотрите, плз, скрипт от FB2 to Any - там, ИМХО, совсем легко - а прога уже отлаженная...

Алексей!
Idea Думаю данный плагин + GetText решают, наконец, проблему поиска в RTF!
Спасибо большое! Very Happy

Конечно, по удобству интерфейса в этой операции ТК не дотягивает до AVSearch - но важна принципиальная способность искать...
_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Ник



Joined: 15 Dec 2004
Posts: 1256
Location: Москва

Post (Separately) Posted: Thu Aug 16, 2007 15:59    Post subject: Reply with quote

Моторокер wrote:
как он узнает, что кодировка та?


Советую скачать и внимательно прочитать описание View64 (кстати - был бы идеальный конвертор для данного плагина - но автор куда-то делся...):

Quote:
файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8

_________________
Xubuntu 20.10
Back to top
View user's profile Send private message
Stepan_Lameroff



Joined: 20 Feb 2007
Posts: 7

Post (Separately) Posted: Thu Aug 16, 2007 16:11    Post subject: Reply with quote

GetTextIFilter ALPHA, Version 0.0.1.24023
bin+src


Для работы требуется .Net Framework 2.0+
Известные проблемы:
Не работает с Adobe 8+ AcroIF.dll (решается путем добавления %ProgramFiles%\Adobe\Acrobat 8.0\Acrobat\ в PATH)
C Foxit PDF IFilter работает нормально.

Параметры командной строки:
/(-)s <полный путь к исходному файлу> ({In})
/(-)d <путь к файлу с извлеченным текстом> ({Out})
[/(-)l] запись ошибок и исключений в лог (error.txt в каталоге программы)
[/(-)? | /(-)h | --help ] думаю понятно Smile

Посмотреть список присутствующих в системе фильтров можно при помощи
IFilter Explorer

Много качественных фильтров
IFilterShop


Пинки, пожелания и предложения слать (посылать можно тоже Smile) мой_ник at mail.ru
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1517
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Thu Aug 16, 2007 16:31    Post subject: Reply with quote

Ник wrote:
описание View64

Я про то же.
Только если уже узнали, что кодировка «неверная», то об этом говорить не надо, а надо привести к «верной».
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Thu Aug 16, 2007 18:22    Post subject: Reply with quote

Ник

Quote:
--SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать?



Я добавлю ключ {UTF8} для автоматической конвертации UTF-8 -> Text.
Также {OEM}. Еще какие-нибудь нужно? {RTF}? {UTF16}?
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander All times are GMT + 4 Hours
Goto page Previous  1, 2, 3, 4 ... 17, 18, 19  Next
Page 3 of 19

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group