Codepage – плагин для определения кодировки файла
Select messages from
# through # FAQ
[/[Print]\]

Total Commander -> Плагины Total Commander

#1: Codepage – плагин для определения кодировки файла Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Wed Dec 22, 2010 03:00
    —
Codepage 2.0 бета – контентный (информационный) плагин для Total Commander для определения кодировки текстового файла.

В единственном поле CodePage показывает кодировку текстового файла, определённую по первым 64 символам.

пустое поле – если пустой файл
n/a – если длина текста меньше 4
RTF – определяется по '{\rtf1'
UTF8BOM – определяется по первым 3 символам 'EF BB BF'
UTF8 – определяется функцией IsUTF8Memory, подсказанной на форуме forum.wincmd.ru
функция определяет бинарные и латинские файлы как UTF8, поэтому дополнительно проверяется
BIN – если символов с кодом <32 больше ~14%
LAT – если нет русских символов
иначе функцией AutoCode из модуля xlat.pas определяются
WIN – кодировка Windows 1251
KOI – кодировка KOI-8R
DOS – кодировка CP866

На выборке из 11,5 тыс песен с аккордами показывает как KOI для некоторых WIN файлов и совсем немного DOS для UTF-8 файлов.

Скачать (26 Кб)


Last edited by Моторокер on Thu Dec 23, 2010 22:33; edited 1 time in total

#2:  Author: AvadaLocation: Россия, Саратов PostPosted: Wed Dec 22, 2010 09:40
    —
Моторокер wrote:
LAT – если нет нерусских символов

Может быть, в этом случае нет всё-таки русских символов?

Разделение текстовых файлов в Windows-1251, содержащих как латиницу, так и кириллицу, происходит по непонятной логике. Часть у меня отмечается как LAT, часть как WIN, часть как KOI.
Далее. Имеются два тестовых набора русских языковых файлов TC в UTF-8. Один с BOM, другой без. Набор с сигнатурой чётко определяется как UTF-8. Набор без сигнатуры: LNG как UTF-8, остальные (MNU и INC) как WIN.

#3:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Thu Dec 23, 2010 22:39
    —
BOM определяется только по первым 3 символам. Теоретически это должно срабатывать в большинстве случаев.

Остальные варианты зависят только от используемых готовых алгоритмов – срочно надо было выявить UTF файлы среди WIN. Среди ложных срабатываний пошерстить руками оказалось проще, чем среди всех файлов.

Распознавание идёт по первым 64 символам. Наверно этого мало. Может настройку сделать, чтобы проверять всё? Понятно, что скорость упадёт – вначале прочитать настройки, потом весь файл.

#4:  Author: AvadaLocation: Россия, Саратов PostPosted: Fri Dec 24, 2010 10:32
    —
Моторокер
Можно сделать тестовую версию, где проверяется всё, и погонять на неправильные определения и на скорость работы.

#5:  Author: Tol!kLocation: Арзамас PostPosted: Fri Dec 24, 2010 21:26
    —
Первых 4kB должно хватить

#6:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 11:30
    —
Моторокер
Есть ли возможность добавить плагину 64-битную версию и заодно его нормально выложить на wincmd.ru/totalcmd.net (нынешняя ссылка на сайт автора не работает)? Ну и про некоторые усовершенствования тут речь раньше шла.

#7:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Mon Oct 14, 2013 11:34
    —
Новую Delphi ещё не пробовал – руки не доходят. Да и особо отзывов нет, поэтому стимула продолжать тоже мало Smile

#8:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 12:09
    —
Моторокер
А какие ещё появятся отзывы, если плагин несколько лет не обновляется?

#9:  Author: Alextp PostPosted: Mon Oct 14, 2013 12:41
    —
У кого есть тот файл wdx_codepage.rar ?

#10:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 12:58
    —
Alextp
У меня есть. Берём здесь.

#11:  Author: Alextp PostPosted: Mon Oct 14, 2013 14:20
    —
Моторокер не против что я выложу на wincmd, я думаю

Добавлено спустя 6 минут:

Лучше я сделаю такой же (почти) но open source. попозже

А реальная нужда в плаге есть??

#12:  Author: AvadaLocation: Россия, Саратов PostPosted: Mon Oct 14, 2013 14:45
    —
Alextp
Есть. Не сказать, чтобы постоянно, но пользуюсь.

#13:  Author: Alextp PostPosted: Mon Oct 14, 2013 15:48
    —
Avada, перешел в новый топик. Просьба отписаться там- по моему вопросу. Все ли кодировки Codepage.wdx нужны. пишите там

Добавлено спустя 35 секунд:

http://forum.wincmd.ru/viewtopic.php?t=15264



Total Commander -> Плагины Total Commander


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Page 1 of 1

Powered by phpBB © 2001, 2005 phpBB Group