View previous topic :: View next topic |
Author |
Message |
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Mon Oct 14, 2013 16:18 Post subject: |
|
|
Alextp
То есть TEXT— это всё в кучу, кроме юникодых, DOS и бинарных? А хорошо ли это? Конечно, хотелось бы кириллические тексты в ANSI 1251 отличать от латиницы и от нераспознанных. Целесообразность RTF и KOI (если брать возможности Codepage) обсуждабельна, но если их нетрудно показать — почему нет? _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Mon Oct 14, 2013 17:27 Post subject: |
|
|
не знаю пока, как детектить русиш текст в Cp1251.
Бета. Смотрим.
www.uvviewsoft.com/bb/
Добавлено спустя 2 минуты:
-То есть TEXT— это всё в кучу
Нет.В бете уже не так
Добавлено спустя 25 минут:
Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично
Может еще колонку? IsRus.
Добавлено спустя 27 минут:
Детект NFO. Update _________________ UniViewer - CudaText - LogViewer
|
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Mon Oct 14, 2013 18:30 Post subject: |
|
|
Alextp
Посмотрел. С той колонкой, где Binary и Text, всё ясно (но о числе колонок см. далее). А с кодировками пока нет. Проверил на рабочем каталоге TC. Один файл распознан как UTF-8 BOM, один как RTF, для прочих отображаются сплошные знаки вопроса. И добро бы для бинарных, а то и для текстовых.
Alextp wrote: | Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично |
Если учесть, что русских текстов в ANSI у меня многократно больше, чем в юникоде, логика получается несколько другой. Насчёт отдельной колонки не уверен. Всё-таки когда вся информация сведена в единую колонку, удобнее. Тем более, если она используется вместе с другими колонками от других плагинов. Даже при наличии прокрутки.
Добавлено спустя 7 минут:
Проверил обновлённую версию. File_id.diz не детектится как DOS (знак вопроса). Про пару файлов в кодировке Windows-1252 (это FullTCHistory.txt и NoClose.ini) утверждается, что это ASCII. RTF отображается правильно. Дальше опять знаки вопроса... _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Mon Oct 14, 2013 19:03 Post subject: |
|
|
File_id.diz, FullTcHistory.txt- проверь в Synwrite, есть ли вхождения regex
[\x80-\xFF]
видимо нет если файл не ASCII. или есть если ascii
Добавлено спустя 2 минуты:
Может 1 лишний символ дает плохой детект ascii. Но даже 1 символ из ascii надо учесть. или игнорить 1? а 2 игнорить? _________________ UniViewer - CudaText - LogViewer
|
|
Back to top |
|
|
Skif_off
Joined: 28 Nov 2012 Posts: 1236
|
(Separately) Posted: Mon Oct 14, 2013 20:54 Post subject: |
|
|
Как потенциальный будущий пользователь отвечу на вопрос не мне:
Alextp wrote: | Зачем тебе отличать русиш тексты в ANSI надо, а отличать русиш тексты в UTF16, или utf8 - не надо? Нелогично |
UTF-8/UTF-16 везде откроются одинаково, а ANSI - это и 1251, и 1252, и 1250 и это геморрой. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Mon Oct 14, 2013 21:53 Post subject: |
|
|
позже сделаю, по опции, определение русиш текстов 1251. Подумаю еще какие там опции делать. То ли минимальное число русиш символов, то ли минимальное число разных, и каких именно. _________________ UniViewer - CudaText - LogViewer
Last edited by Alextp on Mon Oct 14, 2013 21:54; edited 1 time in total |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Mon Oct 14, 2013 21:54 Post subject: |
|
|
Alextp wrote: | проверь в Synwrite, есть ли вхождения |
Нет. И не File_id.diz отображался как ASCII (хотя он-то как раз должен бы), а NoClose.ini из NoClose Replacer в кодировке ANSI 1252. Вот его содержание:
Quote: | [General]
CommandProcessor=cmd.exe /C START " NoClose Replacer 1.3 © Konstantin Vlasov" cmd.exe /T:1B /E:ON /F:ON /V:ON /K
ShowWindow=normal
ShortcutWaitDelay=500 | А в файле истории могут встречаться всякие последовательности, но как ASCII он детектиться не должен. И не детектится самыми разными средствами. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Mon Oct 14, 2013 23:28 Post subject: |
|
|
Alextp
Теперь уже завтра гляну, срочные дела. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Skif_off
Joined: 28 Nov 2012 Posts: 1236
|
(Separately) Posted: Tue Oct 15, 2013 01:56 Post subject: |
|
|
Alextp
x64-версия будет попозже или не будет вовсе? |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Tue Oct 15, 2013 08:51 Post subject: |
|
|
Alextp
Посмотрел. Для двух указанных файлов тоже отображаются теперь знаки вопроса. Теперь, видимо, надо ждать, когда вместо вопросиков в абсолютном большинстве строк появится что-то содержательное. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Serge Yolkin
Joined: 25 Jul 2009 Posts: 664
|
(Separately) Posted: Tue Oct 15, 2013 11:00 Post subject: |
|
|
Хоть для меня эти вопросы и не связаны с TC, всё же, думаю, в этой теме они не будут оффтопными:- Надо ли детектить .rtf? Т.е., существуют ли в реальности, не в тестовых наборах, файлы формата RTF с иным расширением?
- Кто-нибудь видел, опять же - в реальности, файлы в кодировках UTF-32 LE/BE (UCS-4)?
- UTF-8 без BOM и ANSI, при отсутствии кириллицы (символов из расширенного набора) - одно и то же. Как логичнее описать: ANSI, или UTF-8 w/o BOM?
|
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
|