Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

WordArc работа с файлами Word как с архивами
Goto page Previous  1, 2, 3, 4  Next
 
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander printer-friendly view
View previous topic :: View next topic  
Author Message
Scorpi0



Joined: 15 Dec 2004
Posts: 1
Location: Одесса, Украина

Post (Separately) Posted: Sun Nov 16, 2008 22:45    Post subject: Reply with quote

funduk wrote:
Ну вот поставил я 2007 compatibility pack, но в docx войти не могу, т.к. тотал считает его простым зипом и входит в него сам.

Аналогичная ситуация. Как-то починить это можно?
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Nov 19, 2008 18:31    Post subject: Reply with quote

Scorpi0 wrote:
funduk wrote:
Ну вот поставил я 2007 compatibility pack, но в docx войти не могу, т.к. тотал считает его простым зипом и входит в него сам.

Аналогичная ситуация. Как-то починить это можно?


Внутренняя детекция тотала имеет всегда высший приоритет (на данный момент), поэтому пока никак. Возможно, в следующей версии TC будет введена таковая опция.
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Mon Jan 26, 2009 20:26    Post subject: Reply with quote

Добрый вечер.
Использую сей плагин(в частности файл converter.pas) для конвертации doc'а в тхт без Ворда. В общем-целом с задачей справляется очень неплохо, но, как всегда, при сдаче всего проекта дала сбой Smile

Если, например, сохранить лог из аськи в ДОКе, а затем конвертировать его в ТХТ с помощью этой программы, то гдето в середине образуется мусорная строчка типа
CCCyHCCHhHjCHiiiiiiio$$--$$--H,

Как с ней бороться? Smile
Опытным путем установлено, что она появляется где угодно и состоит из абсолютно разных символов... откуда берется этот мусор?
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Mon Jan 26, 2009 20:45    Post subject: Reply with quote

Добрый вечер! Прямой "direct" конвертер не обрабатывает файл как полноценный документ и полностью не поддерживает структуру doc файла, он пытается извлечь печатные символы по ряду offset. Обычно текст без форматирования, макросов, объектов и на одном языке извлекается без проблем, но в сложных документах могуть быть проблемы. Думаю Idea , могуть быть проблемы при "быстром сохранении" файла и при любом наличии не-текстовых данных непосредственно рядом с местонахождением текстовых. Решение - изучать детально спецификации doc файлов, смотреть код OpenOffice и улучшать модуль direct преобразования. Если разберетесь - можно и плагин улучшить, это будет большим плюсом. Smile
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Tue Jan 27, 2009 16:44    Post subject: Reply with quote

Спецификации док-файлов - определенно зло, качал и смотрел уже Smile
Была мысля, что это, возможно, автовставка или автозамена малину портят, однако эти символы появляются только 1 раз в 1 строке и в любом месте (даже посреди даты)

Наверно, стоит ОпенОфис покурить... ибо уже полторы недели шарю инет, ничего толкового немогу найти Sad
Всего 2 или 3 страницы по конвертерам без ОЛЕ-обьектов:
про WordArc,
http://users.iafrica.com/d/da/dart/zen/Articles/DocFile/DocFile.html и
http://www.firststeps.ru/fs/r.php?44
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Wed Jan 28, 2009 16:19    Post subject: Reply with quote

также оптным путем установлено, что некоторые английские тексты он не конвертирует вообще (иногда выдает по 2-3 странных знака, иногда просто пустой тхт)
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Jan 28, 2009 17:20    Post subject: Reply with quote

Nearga wrote:
также оптным путем установлено, что некоторые английские тексты он не конвертирует вообще (иногда выдает по 2-3 странных знака, иногда просто пустой тхт)


Возможно, если текст не является unicode. Direct режим, вообще, заточен под русский текст - для полноценной конвертации плагин использует системные конвертеры и MSWord.
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Wed Jan 28, 2009 18:26    Post subject: Reply with quote

http://www.docstoc.com/docs/2550102/How-to-Retrieve-Text-from--a-Binary-doc-File

Может, это чемто поможет...
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Wed Jan 28, 2009 18:29    Post subject: Reply with quote

alexanderwdark wrote:
Возможно, если текст не является unicode.

я тестирую работу плагина с 100 разных файлов, там и юникод, и анси, и утф...

мне просто нужно написать свою дллку, чтоб только она извлекала текст из дока и сохраняла в тхт... а так как использую ваш плагин, решил сюда отписать об ошибках Smile
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Wed Jan 28, 2009 22:11    Post subject: Reply with quote

Nearga wrote:
alexanderwdark wrote:
Возможно, если текст не является unicode.

я тестирую работу плагина с 100 разных файлов, там и юникод, и анси, и утф...

мне просто нужно написать свою дллку, чтоб только она извлекала текст из дока и сохраняла в тхт... а так как использую ваш плагин, решил сюда отписать об ошибках Smile


Тогда попробуйте новую редакцию плагина, здесь имеется эвристический детектор текста в юникод-16, поддерживаются блоки в ANSI формате (например, документы, содержащие только символы из US ASCII набора Word может сохранить именно так - версия плагина для unicode в direct режиме такое не читает. Конечно, детектор - это не чтение флага в заголовке документа или потока, но работает довольно стабильно (на первый взгляд Smile ), т.о. теперь можно читать и ANSI doc документы, и юникод (детектор определяет символы поднабора US ASCII и наборов Cyrillic )
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Thu Jan 29, 2009 17:39    Post subject: Reply with quote

наверно мы друг друга немного недопоняли Smile
детектор - это, конечно, замечательно, но я имел ввиду немного другие проблемы... например:

Code:

можем виfdfdfdfffdfdfдио AhHCCCCyHCHHyjCiiiiiiiiiiiii$$--$$--Aa2KCCCy=C7ChH1CHH)CyH$C]CUWChHPCHCHHHHвключить а по аське болтать


Code:

guildm@ster (15:20:26 27/01CuuuoooooooooooLuuuuuuuuuuuuuuu/2009)
и ваще..я диаблу 2 поставил


это текст сохраненный из аськи прям в док и сконвертированый в тхт...
ЗЫ: это уже сделано в новой версии вашего плагина
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Thu Jan 29, 2009 23:04    Post subject: Reply with quote

Вероятно, часть блока в другой кодировке или содержит нетекстовую информацию, для полноценного извлечения нужно анализировать таблицы описаний, там есть информация о кодировке втч. (это описано в том док-те, на который Вы ссылались).
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Tue Feb 03, 2009 19:27    Post subject: Reply with quote

Курю шарп... вот чего понять немогу, в вашей проге же определяется начало и конце текста... откуда эти внетекстовые элементы берутся?

нашел прогу на шарпе, работает отлично, но дллку с нее не сделаешь... на плюсы перевожу помалу
Back to top
View user's profile Send private message
alexanderwdark



Joined: 14 Apr 2008
Posts: 304
Location: Россия

Post (Separately) Posted: Tue Feb 03, 2009 20:11    Post subject: Reply with quote

Nearga wrote:
Курю шарп... вот чего понять немогу, в вашей проге же определяется начало и конце текста... откуда эти внетекстовые элементы берутся?

нашел прогу на шарпе, работает отлично, но дллку с нее не сделаешь... на плюсы перевожу помалу


Может, это вставки в другой кодировке? Читал, что в одном блоке может использоваться несколько кодировок, существуют таблицы описаний этого блока с описанием начала и конца этих вставок. Нужно смотреть конкретный документ, тогда ясно будет.
Back to top
View user's profile Send private message
Nearga



Joined: 26 Jan 2009
Posts: 11

Post (Separately) Posted: Tue Feb 03, 2009 20:23    Post subject: Reply with quote

Врядли: вставки попадаются где угодно, хоть посреди слова, хоть между числами в дате... Попробуйте скопировать в док-файл лог из аськи, увидите... на крайний случай, могу прислать парочку Smile
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Плагины Total Commander All times are GMT + 4 Hours
Goto page Previous  1, 2, 3, 4  Next
Page 3 of 4

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group