View previous topic :: View next topic |
Author |
Message |
oyx147
Joined: 18 Apr 2021 Posts: 2
|
(Separately) Posted: Sun Apr 18, 2021 13:41 Post subject: Поиск дубликатов по размеру с погрешностью |
|
|
Всем привет!
Есть ли возможность настроить погрешность при поиске дубликатов по размеру? К примеру у одного файла размер 25 507 килобайт, а у другого 25 505. Содержимое-то и одно и то же, просто взято из разных источников и лежит в одной куче. |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10278 Location: Россия, Саратов
|
(Separately) Posted: Sun Apr 18, 2021 14:07 Post subject: |
|
|
oyx147
При поиске дубликатов — не настраивается. (И каким образом, интересно, вы установили, что файлы с разным размером полностью одинаковы? Последнего переноса строки в одном месте нет?) _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Skif_off
Joined: 28 Nov 2012 Posts: 1232
|
(Separately) Posted: Sun Apr 18, 2021 14:37 Post subject: |
|
|
Avada
По идее, в MP3, например, теги в формате ID3v2 (они вроде обычно в начале файла): очистить какой-нибудь или добавить - размер и контрольная сумма изменятся (или только второе, если, например, опечатку исправили или теги ID3v1), но собственно содержимое то же.
Хотя пример так себе, ТС же не будет вырезать теги и сравнивать... |
|
Back to top |
|
|
oyx147
Joined: 18 Apr 2021 Posts: 2
|
(Separately) Posted: Sun Apr 18, 2021 14:42 Post subject: |
|
|
Avada wrote: | oyx147
При поиске дубликатов — не настраивается. (И каким образом, интересно, вы установили, что файлы с разным размером полностью одинаковы? Последнего переноса строки в одном месте нет?) |
Это pdf-файлы в основном. За счет чего отличие - черт его знает. Я открывал и сравнивал. Просто когда их за тысячу с хреном - очень муторно их разгребать. Думал что хоть так себе задачу облегчу. |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10278 Location: Россия, Саратов
|
(Separately) Posted: Sun Apr 18, 2021 15:18 Post subject: |
|
|
Skif_off wrote: | ТС же не будет вырезать теги и сравнивать... | Вот именно.
oyx147
Непохоже, что вы себе что-то облегчите. Сравнение дубликатов как таковое совпадений не выявит, а сравнивать по порядку каждую пару... Впрочем, мне иногда приходится что-то подобное делать. Например, при сравнениии разных версий HTM-файлов, составляющих справку TC. И на уровне самого текста, и — при необходимости — с тегами, если текст одинаков, а файлы всё-таки разные. Но это уже совсем другой инструментарий. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Wed Apr 28, 2021 13:27 Post subject: |
|
|
Теоретически можно в сравнение добавить поле процентов.
Если в конце или начале что-то добавить, в середине пару байт поменять.
Но если изменений несколько, да ещё со сдвигом, это не поможет. Тут уже мощнее алгоритмы нужны. Скорее всего есть спецсофт для этого.
В своё время пользовался программой BinDiff вроде называется, вот она мощно сравнивала.
Только какой-нибудь контентный плагин. Например из PDF будет вытаскивать тексты/строки и сравнивать их. _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
|