View previous topic :: View next topic |
Author |
Message |
Rusl8
Joined: 02 Nov 2012 Posts: 21
|
(Separately) Posted: Mon Feb 18, 2013 00:15 Post subject: Программа, способная сделать сравнительный анализ текстов... |
|
|
Здравствуйте,
пытаюсь найти программу, через которую можно было бы произвести сравнение разных текстов.
Задача: определить, писал ли тексты один и тот же человек или нет.
Нужен буквально минимум - выявить например разность написания слов, типичные орфографические ошибки и пунктуационные в одном случае и, возможно, отсутствующие таковые в другом.
"Продвинутый" какой-то вариант тоже был бы интересен, если есть, например выявление использования разных типов кавычек, разные тире, и т.п.
Может кто подскажет что из существующих доступных программ.. |
|
Back to top |
|
|
Flasher
Joined: 06 Nov 2009 Posts: 14229 Location: Москва
|
(Separately) Posted: Mon Feb 18, 2013 00:27 Post subject: |
|
|
Задачка для искусственного интеллекта (хотя системы такие, конечно, разработаны, но вряд ли в общем доступе, только скорее разработки касаются больше идентификации по почерку, нежели сравнения текстов).
Речь про прописной текст или клавиатурный?
Типичные пунктуационные ошибки в посте умышленно созданы? _________________ Автору сборки TC Image (Andrey_A) настоятельно рекомендуется не распространять на иных ресурсах любую предоставленную мной где-либо техническую информацию по автоматизации и оптимизации в работе с ТС и системой. |
|
Back to top |
|
|
Rusl8
Joined: 02 Nov 2012 Posts: 21
|
(Separately) Posted: Mon Feb 18, 2013 02:40 Post subject: |
|
|
Клавиатурный текст. Намеренные ошибки в данном случае учитывать не требуется от программы.
Просто неудобно выискивать самостоятельно, объёмная работа. Как вариант примитивный использовал Ворд с подсветкой орфографических и пунктуационных ошибок. Более удобно было тем, что можно нажать Правописание и выписать набор ошибок или так по тексту глянуть, что подчёркнуто.
Но спецпрограмма была бы удобнее. Сложного врядли что-то должно быть уж сильно. Не нужно анализировать смысл. Как самое простое бы - списком вывести слова, в которых сделаны орфографические ошибки и быть может предложения с ошибочной пунктуацией.
Пожалуй даже этого достаточно - из всего текста сделать список слов, где сделаны орфографические ошибки. Их может быть достаточно для сравнения. |
|
Back to top |
|
|
Flasher
Joined: 06 Nov 2009 Posts: 14229 Location: Москва
|
(Separately) Posted: Mon Feb 18, 2013 20:48 Post subject: |
|
|
Rusl8 wrote: | Как самое простое бы - списком вывести слова, в которых сделаны орфографические ошибки и быть может предложения с ошибочной пунктуацией. | Если первое ещё вполне реализуемо, то со вторым куда сложнее. Ведь, как я понял, нужна ошибка и число её повторений в тексте. Поскольку предложения могут строиться по разному, то просто так вычисления провести не получится, в каждом случае контекст важен, к тому же есть проблемы с омофонами, омоформами и омографами. В общем, алгоритмика для всяких таких нюансов мощная нужна. _________________ Автору сборки TC Image (Andrey_A) настоятельно рекомендуется не распространять на иных ресурсах любую предоставленную мной где-либо техническую информацию по автоматизации и оптимизации в работе с ТС и системой. |
|
Back to top |
|
|
Rusl8
Joined: 02 Nov 2012 Posts: 21
|
(Separately) Posted: Tue Feb 19, 2013 05:33 Post subject: |
|
|
Число повторений это интересно бы, это может быть использовано для оценки, является ли ошибка единичной, опечаткой, например, или, если она повторяется, следствием незнания правильного варианта написания слова.
Но это не обязательно, достаточно просто списка слов с ошибками. Из этого уже работать намного проще. Берётся слово с ошибкой и забивается в поиск по второму тексту, с которым нужно сравнивать. Если слово с такой же ошибкой попадается, то уже может говорить это о том, что или в обоих случаях люди одинаково ошибаются или написавший тот же самый человек. Тогда берутся следующие слова... и т.д.
Ну а если есть программы, которые автоматически это все сравнения делают и по разным прочим признакам, то было бы любопытно... |
|
Back to top |
|
|
Моторокер
Joined: 06 May 2005 Posts: 1517 Location: г. Пермь (читается Перьмь)
|
(Separately) Posted: Tue Feb 19, 2013 19:53 Post subject: |
|
|
Rusl8 wrote: | Пожалуй даже этого достаточно - из всего текста сделать список слов, где сделаны орфографические ошибки. Их может быть достаточно для сравнения. |
Мне тоже это нужно было Пробуй http://www.autoaf.ru/soft_orf.htm
Возможно, база устарела, запроси в почту zoth@bk.ru _________________ плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми |
|
Back to top |
|
|
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
Powered by phpBB © 2001, 2005 phpBB Group
|