View previous topic :: View next topic |
Author |
Message |
Scorpi0
Joined: 15 Dec 2004 Posts: 1 Location: Одесса, Украина
|
(Separately) Posted: Sun Nov 16, 2008 22:45 Post subject: |
|
|
funduk wrote: | Ну вот поставил я 2007 compatibility pack, но в docx войти не могу, т.к. тотал считает его простым зипом и входит в него сам. |
Аналогичная ситуация. Как-то починить это можно? |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Nov 19, 2008 18:31 Post subject: |
|
|
Scorpi0 wrote: | funduk wrote: | Ну вот поставил я 2007 compatibility pack, но в docx войти не могу, т.к. тотал считает его простым зипом и входит в него сам. |
Аналогичная ситуация. Как-то починить это можно? |
Внутренняя детекция тотала имеет всегда высший приоритет (на данный момент), поэтому пока никак. Возможно, в следующей версии TC будет введена таковая опция. |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Mon Jan 26, 2009 20:26 Post subject: |
|
|
Добрый вечер.
Использую сей плагин(в частности файл converter.pas) для конвертации doc'а в тхт без Ворда. В общем-целом с задачей справляется очень неплохо, но, как всегда, при сдаче всего проекта дала сбой
Если, например, сохранить лог из аськи в ДОКе, а затем конвертировать его в ТХТ с помощью этой программы, то гдето в середине образуется мусорная строчка типа
CCCyHCCHhHjCHiiiiiiio$$--$$--H,
Как с ней бороться?
Опытным путем установлено, что она появляется где угодно и состоит из абсолютно разных символов... откуда берется этот мусор? |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Mon Jan 26, 2009 20:45 Post subject: |
|
|
Добрый вечер! Прямой "direct" конвертер не обрабатывает файл как полноценный документ и полностью не поддерживает структуру doc файла, он пытается извлечь печатные символы по ряду offset. Обычно текст без форматирования, макросов, объектов и на одном языке извлекается без проблем, но в сложных документах могуть быть проблемы. Думаю , могуть быть проблемы при "быстром сохранении" файла и при любом наличии не-текстовых данных непосредственно рядом с местонахождением текстовых. Решение - изучать детально спецификации doc файлов, смотреть код OpenOffice и улучшать модуль direct преобразования. Если разберетесь - можно и плагин улучшить, это будет большим плюсом. |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Wed Jan 28, 2009 16:19 Post subject: |
|
|
также оптным путем установлено, что некоторые английские тексты он не конвертирует вообще (иногда выдает по 2-3 странных знака, иногда просто пустой тхт) |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Jan 28, 2009 17:20 Post subject: |
|
|
Nearga wrote: | также оптным путем установлено, что некоторые английские тексты он не конвертирует вообще (иногда выдает по 2-3 странных знака, иногда просто пустой тхт) |
Возможно, если текст не является unicode. Direct режим, вообще, заточен под русский текст - для полноценной конвертации плагин использует системные конвертеры и MSWord. |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Wed Jan 28, 2009 18:29 Post subject: |
|
|
alexanderwdark wrote: | Возможно, если текст не является unicode. |
я тестирую работу плагина с 100 разных файлов, там и юникод, и анси, и утф...
мне просто нужно написать свою дллку, чтоб только она извлекала текст из дока и сохраняла в тхт... а так как использую ваш плагин, решил сюда отписать об ошибках |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Jan 28, 2009 22:11 Post subject: |
|
|
Nearga wrote: | alexanderwdark wrote: | Возможно, если текст не является unicode. |
я тестирую работу плагина с 100 разных файлов, там и юникод, и анси, и утф...
мне просто нужно написать свою дллку, чтоб только она извлекала текст из дока и сохраняла в тхт... а так как использую ваш плагин, решил сюда отписать об ошибках |
Тогда попробуйте новую редакцию плагина, здесь имеется эвристический детектор текста в юникод-16, поддерживаются блоки в ANSI формате (например, документы, содержащие только символы из US ASCII набора Word может сохранить именно так - версия плагина для unicode в direct режиме такое не читает. Конечно, детектор - это не чтение флага в заголовке документа или потока, но работает довольно стабильно (на первый взгляд ), т.о. теперь можно читать и ANSI doc документы, и юникод (детектор определяет символы поднабора US ASCII и наборов Cyrillic ) |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Thu Jan 29, 2009 17:39 Post subject: |
|
|
наверно мы друг друга немного недопоняли
детектор - это, конечно, замечательно, но я имел ввиду немного другие проблемы... например:
Code: |
можем виfdfdfdfffdfdfдио AhHCCCCyHCHHyjCiiiiiiiiiiiii$$--$$--Aa2KCCCy=C7ChH1CHH)CyH$C]CUWChHPCHCHHHHвключить а по аське болтать
|
Code: |
guildm@ster (15:20:26 27/01CuuuoooooooooooLuuuuuuuuuuuuuuu/2009)
и ваще..я диаблу 2 поставил |
это текст сохраненный из аськи прям в док и сконвертированый в тхт...
ЗЫ: это уже сделано в новой версии вашего плагина |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Thu Jan 29, 2009 23:04 Post subject: |
|
|
Вероятно, часть блока в другой кодировке или содержит нетекстовую информацию, для полноценного извлечения нужно анализировать таблицы описаний, там есть информация о кодировке втч. (это описано в том док-те, на который Вы ссылались). |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Tue Feb 03, 2009 19:27 Post subject: |
|
|
Курю шарп... вот чего понять немогу, в вашей проге же определяется начало и конце текста... откуда эти внетекстовые элементы берутся?
нашел прогу на шарпе, работает отлично, но дллку с нее не сделаешь... на плюсы перевожу помалу |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Tue Feb 03, 2009 20:11 Post subject: |
|
|
Nearga wrote: | Курю шарп... вот чего понять немогу, в вашей проге же определяется начало и конце текста... откуда эти внетекстовые элементы берутся?
нашел прогу на шарпе, работает отлично, но дллку с нее не сделаешь... на плюсы перевожу помалу |
Может, это вставки в другой кодировке? Читал, что в одном блоке может использоваться несколько кодировок, существуют таблицы описаний этого блока с описанием начала и конца этих вставок. Нужно смотреть конкретный документ, тогда ясно будет. |
|
Back to top |
|
|
Nearga
Joined: 26 Jan 2009 Posts: 11
|
(Separately) Posted: Tue Feb 03, 2009 20:23 Post subject: |
|
|
Врядли: вставки попадаются где угодно, хоть посреди слова, хоть между числами в дате... Попробуйте скопировать в док-файл лог из аськи, увидите... на крайний случай, могу прислать парочку |
|
Back to top |
|
|
|