EncInfo (content-плагин)
Select messages from
# through # FAQ
[/[Print]\]
Goto page 1, 2, 3, 4, 5  Next  :| |:
Total Commander -> Плагины Total Commander

#1: EncInfo (content-плагин) Author: Alextp PostPosted: Mon Oct 14, 2013 15:29
    —
В новом плаге думаю определять encoding файла.
release http://wincmd.ru/plugring/EncInfo.html
beta www.uvviewsoft.com/bb/


Last edited by Alextp on Wed Oct 16, 2013 01:00; edited 1 time in total

#2:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 16:18
    —
Alextp
То есть TEXT— это всё в кучу, кроме юникодых, DOS и бинарных? А хорошо ли это? Конечно, хотелось бы кириллические тексты в ANSI 1251 отличать от латиницы и от нераспознанных. Целесообразность RTF и KOI (если брать возможности Codepage) обсуждабельна, но если их нетрудно показать — почему нет?

#3:  Author: Alextp PostPosted: Mon Oct 14, 2013 17:27
    —
не знаю пока, как детектить русиш текст в Cp1251.
Бета. Смотрим.
www.uvviewsoft.com/bb/

Добавлено спустя 2 минуты:

-То есть TEXT— это всё в кучу
Нет.В бете уже не так

Добавлено спустя 25 минут:

Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично

Может еще колонку? IsRus.

Добавлено спустя 27 минут:

Детект NFO. Update

#4:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 18:30
    —
Alextp
Посмотрел. С той колонкой, где Binary и Text, всё ясно (но о числе колонок см. далее). А с кодировками пока нет. Проверил на рабочем каталоге TC. Один файл распознан как UTF-8 BOM, один как RTF, для прочих отображаются сплошные знаки вопроса. И добро бы для бинарных, а то и для текстовых.

Alextp wrote:
Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично

Если учесть, что русских текстов в ANSI у меня многократно больше, чем в юникоде, логика получается несколько другой. Насчёт отдельной колонки не уверен. Всё-таки когда вся информация сведена в единую колонку, удобнее. Тем более, если она используется вместе с другими колонками от других плагинов. Даже при наличии прокрутки.

Добавлено спустя 7 минут:

Проверил обновлённую версию. File_id.diz не детектится как DOS (знак вопроса). Про пару файлов в кодировке Windows-1252 (это FullTCHistory.txt и NoClose.ini) утверждается, что это ASCII. RTF отображается правильно. Дальше опять знаки вопроса...

#5:  Author: Alextp PostPosted: Mon Oct 14, 2013 19:03
    —
File_id.diz, FullTcHistory.txt- проверь в Synwrite, есть ли вхождения regex
[\x80-\xFF]
видимо нет если файл не ASCII. или есть если ascii

Добавлено спустя 2 минуты:

Может 1 лишний символ дает плохой детект ascii. Но даже 1 символ из ascii надо учесть. или игнорить 1? а 2 игнорить?

#6:  Author: Skif_off PostPosted: Mon Oct 14, 2013 20:54
    —
Как потенциальный будущий пользователь отвечу на вопрос не мне:
Alextp wrote:
Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично

UTF-8/UTF-16 везде откроются одинаково, а ANSI - это и 1251, и 1252, и 1250 и это геморрой.

#7:  Author: Alextp PostPosted: Mon Oct 14, 2013 21:53
    —
позже сделаю, по опции, определение русиш текстов 1251. Подумаю еще какие там опции делать. То ли минимальное число русиш символов, то ли минимальное число разных, и каких именно.

Last edited by Alextp on Mon Oct 14, 2013 21:54; edited 1 time in total

#8:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 21:54
    —
Alextp wrote:
проверь в Synwrite, есть ли вхождения

Нет. И не File_id.diz отображался как ASCII (хотя он-то как раз должен бы), а NoClose.ini из NoClose Replacer в кодировке ANSI 1252. Вот его содержание:
Quote:
[General]
CommandProcessor=cmd.exe /C START " NoClose Replacer 1.3 © Konstantin Vlasov" cmd.exe /T:1B /E:ON /F:ON /V:ON /K
ShowWindow=normal
ShortcutWaitDelay=500
А в файле истории могут встречаться всякие последовательности, но как ASCII он детектиться не должен. И не детектится самыми разными средствами.

#9:  Author: Alextp PostPosted: Mon Oct 14, 2013 21:57
    —
Подкручу для History/Noclose

Добавлено спустя 37 минут:

Avada, Upd.

#10:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 23:28
    —
Alextp
Теперь уже завтра гляну, срочные дела.

#11:  Author: Skif_off PostPosted: Tue Oct 15, 2013 01:56
    —
Alextp
x64-версия будет попозже или не будет вовсе?

#12:  Author: Alextp PostPosted: Tue Oct 15, 2013 02:05
    —
Попозже, видимо.

#13:  Author: AvadaLocation: Россия, Саратов PostPosted: Tue Oct 15, 2013 08:51
    —
Alextp
Посмотрел. Для двух указанных файлов тоже отображаются теперь знаки вопроса. Теперь, видимо, надо ждать, когда вместо вопросиков в абсолютном большинстве строк появится что-то содержательное.

#14:  Author: Serge Yolkin PostPosted: Tue Oct 15, 2013 11:00
    —
Хоть для меня эти вопросы и не связаны с TC, всё же, думаю, в этой теме они не будут оффтопными:
  1. Надо ли детектить .rtf? Т.е., существуют ли в реальности, не в тестовых наборах, файлы формата RTF с иным расширением?
  2. Кто-нибудь видел, опять же - в реальности, файлы в кодировках UTF-32 LE/BE (UCS-4)?
  3. UTF-8 без BOM и ANSI, при отсутствии кириллицы (символов из расширенного набора) - одно и то же. Как логичнее описать: ANSI, или UTF-8 w/o BOM?

#15:  Author: Alextp PostPosted: Tue Oct 15, 2013 13:09
    —
+Detect RUS ANSI. если в начале файла (2Кб) от 30% русиш символов (это коды $C0..$FF). BEta



Total Commander -> Плагины Total Commander


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Goto page 1, 2, 3, 4, 5  Next  :| |:
Page 1 of 5

Powered by phpBB © 2001, 2005 phpBB Group