Ник wrote: | ||
Это да - но, кроме тэгов, там есть и встроенные бинарные объекты - например, картинки - как их стрипать? |
Alextp wrote: |
нужна утилита, которая стрипает теги. Чтобц можно было запускать так:
tags in_file out_file |
Alextp wrote: |
Хорошо. Надо тоько чтобы тескт разделялся пробелами после стрипанья тегов. |
Моторокер wrote: | ||
Что это значит? |
Моторокер wrote: |
тупо читаю всю строку, удаляю бинарики, заменяю <p> на #13#10, удаляю тэги, сохраняю строку |
Quote: |
Что это значит?
Значит - чтобы слова не слипались после удаления тэгов... |
Ник wrote: |
Прости, но он ресурсов жрёт по ощущениям - больше, чем FB2 to Any - раз в десять!!! |
Ник wrote: |
Давайте уж договоримся, что все тексты нужно временно (пока Гислер не сделает полноценную поддержку УНикода) сводить в Windows-1251. |
Ник wrote: |
для поисковика сделать лог-файл + показывать предупреждения, что типа это не та кодировка - не могу найти - и в конце работы писать список файлов не с той кодировкой |
Моторокер wrote: |
Работает хоть быстрее? |
Моторокер wrote: |
как он узнает, что кодировка та? |
Quote: |
файлы, начинающиеся с последовательности байт $FE$FF или $FF$FE, всегда интерпретируются как тексты в UTF-16, с $EF$BB$BF - как тексты в UTF-8 |
Ник wrote: |
описание View64 |
Quote: |
--SilverCoders DocToText - говорит, не может конвертировать. Может, какие проблемы с именами?
Руками попробовал - он из файла делает UTF-8 и что с этим делать? |
output generated using printer-friendly topic mod. All times are GMT + 4 Hours