View previous topic :: View next topic |
Author |
Message |
Skif_off
Joined: 28 Nov 2012 Posts: 1236
|
(Separately) Posted: Thu Oct 17, 2013 02:20 Post subject: |
|
|
Alextp
Почему эти два файла определяются как ANSI, хотя .txt по идее ANSI Ru, а .cmd - определенно OEM 866? Настройки по умолчанию, rus_percent= выставить побольше? Но разве не достаточно хотя бы одной буквы из кириллицы? |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Thu Oct 17, 2013 02:29 Post subject: |
|
|
Skif_off
для Txt выстави поменьше rus_percent, скажем 10. А для Cmd выставить rus_word_len=6, хотя это уже на другие файлы повлияет. лучше тогда совсем низкий rus_percent _________________ UniViewer - CudaText - LogViewer
|
|
Back to top |
|
|
Skif_off
Joined: 28 Nov 2012 Posts: 1236
|
(Separately) Posted: Thu Oct 17, 2013 04:14 Post subject: |
|
|
При rus_percent <= 8 файл описания xdoc2txt из DOS Ru (на самом деле 932 ANSI/OEM - японская Shift-JIS) превращается в ANSI Ru.
Выставил rus_word_len=3 (ниже никак) и rus_percent=10: с .cmd норма, файл описания xdoc2txt остается DOS Ru.
autoupdate_response.xml/tasks.xml/typed_history.xml из профиля Opera 12.16 определяются как ANSI, хотя первой строкой идет <?xml version="1.0" encoding="utf-8"?>, но это, так понимаю, из-за этого:
UTF-8 без BOM и ANSI, при отсутствии кириллицы (символов из расширенного набора) - одно и то же.
В общем, как-то до боли напоминает эксперименты с буфером автоопределения кодировки в AkelPad: с одним файлом прогон, подбираешь размер - внезапно гон с другим. Тогда просто забил в итоге
Ппц, как меня бесят все эти кодировки, так понимаю - UTF-8/UTF-16LE с головой хватило бы на все... |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Serge Yolkin
Joined: 25 Jul 2009 Posts: 664
|
(Separately) Posted: Thu Oct 17, 2013 14:32 Post subject: |
|
|
Alextp wrote: | детекта xml utf8 нет |
И очень хорошо! Файлы с кодировкой, отличной от декларируемой, попадаются с завидной регулярностью. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Serge Yolkin
Joined: 25 Jul 2009 Posts: 664
|
(Separately) Posted: Thu Oct 17, 2013 17:00 Post subject: |
|
|
Alextp
Можно учитывать, но после детекта: если уверенно не распознали, берём из декларации (например, та же ситуация при отсутствии нелатинских символов), или сразу брать декларацию за умолчание (вместо ANSI), а потом детектить. |
|
Back to top |
|
|
Orion9
Joined: 01 Jan 2024 Posts: 365
|
(Separately) Posted: Thu May 16, 2024 13:36 Post subject: |
|
|
Заметил, что плагин иногда определяет текстовые файлы UTF-16 LE как Binary, это так задумано или это ошибка? |
|
Back to top |
|
|
imig73
Joined: 18 Jun 2013 Posts: 285 Location: г. Иркутск
|
(Separately) Posted: Thu May 16, 2024 15:19 Post subject: |
|
|
Orion9
Так и есть. Если текстовый файл UTF-16 LE без BOM, то определится как binary и это явная ошибка, которая меня здорово заставила блудить, пока я не разобрался в чём дело. С BOM определяет верно. |
|
Back to top |
|
|
Orion9
Joined: 01 Jan 2024 Posts: 365
|
(Separately) Posted: Fri May 17, 2024 00:46 Post subject: |
|
|
imig73
Спасибо за пояснение, а то я уже начал сомневаться.)
А что, нет шансов на багофикс? Очень бы хотелось исправный плуг |
|
Back to top |
|
|
imig73
Joined: 18 Jun 2013 Posts: 285 Location: г. Иркутск
|
(Separately) Posted: Fri May 17, 2024 01:33 Post subject: |
|
|
Orion9
/К сожалению бох не научил меня писать плагины и как халявщик Лёня я не знаю как попросить автора пояснить ситуацию. Над как-то попробовать через оффорум обратиться. Этот плагин очень важен для меня. |
|
Back to top |
|
|
Orion9
Joined: 01 Jan 2024 Posts: 365
|
|
Back to top |
|
|
yozhik
Joined: 04 May 2014 Posts: 244 Location: Электросталь
|
(Separately) Posted: Fri May 17, 2024 13:19 Post subject: |
|
|
Если что, исходники здесь. _________________ Amo ergo sum |
|
Back to top |
|
|
|