#1: Codepage – плагин для определения кодировки файла Author: Моторокер, Location: г. Пермь (читается Перьмь)Posted: Wed Dec 22, 2010 03:00 Codepage 2.0 бета – контентный (информационный) плагин для Total Commander для определения кодировки текстового файла.
В единственном поле CodePage показывает кодировку текстового файла, определённую по первым 64 символам.
пустое поле – если пустой файл
n/a – если длина текста меньше 4
RTF – определяется по '{\rtf1'
UTF8BOM – определяется по первым 3 символам 'EF BB BF'
UTF8 – определяется функцией IsUTF8Memory, подсказанной на форуме forum.wincmd.ru
функция определяет бинарные и латинские файлы как UTF8, поэтому дополнительно проверяется
BIN – если символов с кодом <32 больше ~14%
LAT – если нет русских символов
иначе функцией AutoCode из модуля xlat.pas определяются
WIN – кодировка Windows 1251
KOI – кодировка KOI-8R
DOS – кодировка CP866
На выборке из 11,5 тыс песен с аккордами показывает как KOI для некоторых WIN файлов и совсем немного DOS для UTF-8 файлов.
Может быть, в этом случае нет всё-таки русских символов?
Разделение текстовых файлов в Windows-1251, содержащих как латиницу, так и кириллицу, происходит по непонятной логике. Часть у меня отмечается как LAT, часть как WIN, часть как KOI.
Далее. Имеются два тестовых набора русских языковых файлов TC в UTF-8. Один с BOM, другой без. Набор с сигнатурой чётко определяется как UTF-8. Набор без сигнатуры: LNG как UTF-8, остальные (MNU и INC) как WIN.
#3: Author: Моторокер, Location: г. Пермь (читается Перьмь)Posted: Thu Dec 23, 2010 22:39 BOM определяется только по первым 3 символам. Теоретически это должно срабатывать в большинстве случаев.
Остальные варианты зависят только от используемых готовых алгоритмов – срочно надо было выявить UTF файлы среди WIN. Среди ложных срабатываний пошерстить руками оказалось проще, чем среди всех файлов.
Распознавание идёт по первым 64 символам. Наверно этого мало. Может настройку сделать, чтобы проверять всё? Понятно, что скорость упадёт – вначале прочитать настройки, потом весь файл.
#4: Author: Avada, Location: Россия, СаратовPosted: Fri Dec 24, 2010 10:32 Моторокер
Можно сделать тестовую версию, где проверяется всё, и погонять на неправильные определения и на скорость работы.
#5: Author: Tol!k, Location: АрзамасPosted: Fri Dec 24, 2010 21:26 Первых 4kB должно хватить
#6: Author: Avada, Location: Россия, СаратовPosted: Mon Oct 14, 2013 11:30 Моторокер
Есть ли возможность добавить плагину 64-битную версию и заодно его нормально выложить на wincmd.ru/totalcmd.net (нынешняя ссылка на сайт автора не работает)? Ну и про некоторые усовершенствования тут речь раньше шла.
#7: Author: Моторокер, Location: г. Пермь (читается Перьмь)Posted: Mon Oct 14, 2013 11:34 Новую Delphi ещё не пробовал – руки не доходят. Да и особо отзывов нет, поэтому стимула продолжать тоже мало
#8: Author: Avada, Location: Россия, СаратовPosted: Mon Oct 14, 2013 12:09 Моторокер
А какие ещё появятся отзывы, если плагин несколько лет не обновляется?
#9: Author: Alextp, Posted: Mon Oct 14, 2013 12:41 У кого есть тот файл wdx_codepage.rar ?
#10: Author: Avada, Location: Россия, СаратовPosted: Mon Oct 14, 2013 12:58 Alextp
У меня есть. Берём здесь.
#11: Author: Alextp, Posted: Mon Oct 14, 2013 14:20 Моторокер не против что я выложу на wincmd, я думаю
Добавлено спустя 6 минут:
Лучше я сделаю такой же (почти) но open source. попозже
А реальная нужда в плаге есть??
#12: Author: Avada, Location: Россия, СаратовPosted: Mon Oct 14, 2013 14:45 Alextp
Есть. Не сказать, чтобы постоянно, но пользуюсь.
#13: Author: Alextp, Posted: Mon Oct 14, 2013 15:48 Avada, перешел в новый топик. Просьба отписаться там- по моему вопросу. Все ли кодировки Codepage.wdx нужны. пишите там