Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

Программа, способная сделать сравнительный анализ текстов...

 
Post new topic   Reply to topic    Total Commander Forum Index -> Программное обеспечение printer-friendly view
View previous topic :: View next topic  
Author Message
Rusl8



Joined: 02 Nov 2012
Posts: 21

Post (Separately) Posted: Mon Feb 18, 2013 00:15    Post subject: Программа, способная сделать сравнительный анализ текстов... Reply with quote

Здравствуйте,

пытаюсь найти программу, через которую можно было бы произвести сравнение разных текстов.

Задача: определить, писал ли тексты один и тот же человек или нет.

Нужен буквально минимум - выявить например разность написания слов, типичные орфографические ошибки и пунктуационные в одном случае и, возможно, отсутствующие таковые в другом.

"Продвинутый" какой-то вариант тоже был бы интересен, если есть, например выявление использования разных типов кавычек, разные тире, и т.п.

Может кто подскажет что из существующих доступных программ..
Back to top
View user's profile Send private message
Flasher



Joined: 06 Nov 2009
Posts: 12734
Location: Москва

Post (Separately) Posted: Mon Feb 18, 2013 00:27    Post subject: Reply with quote

Задачка для искусственного интеллекта (хотя системы такие, конечно, разработаны, но вряд ли в общем доступе, только скорее разработки касаются больше идентификации по почерку, нежели сравнения текстов).
Речь про прописной текст или клавиатурный?
Типичные пунктуационные ошибки в посте умышленно созданы? Wink
_________________
Автору сборки TC Image (Andrey_A) настоятельно рекомендуется не распространять на иных ресурсах любую предоставленную мной где-либо техническую информацию по автоматизации и оптимизации в работе с ТС и системой.
Back to top
View user's profile Send private message
Rusl8



Joined: 02 Nov 2012
Posts: 21

Post (Separately) Posted: Mon Feb 18, 2013 02:40    Post subject: Reply with quote

Клавиатурный текст. Намеренные ошибки в данном случае учитывать не требуется от программы.

Просто неудобно выискивать самостоятельно, объёмная работа. Как вариант примитивный использовал Ворд с подсветкой орфографических и пунктуационных ошибок. Более удобно было тем, что можно нажать Правописание и выписать набор ошибок или так по тексту глянуть, что подчёркнуто.

Но спецпрограмма была бы удобнее. Сложного врядли что-то должно быть уж сильно. Не нужно анализировать смысл. Как самое простое бы - списком вывести слова, в которых сделаны орфографические ошибки и быть может предложения с ошибочной пунктуацией.

Пожалуй даже этого достаточно - из всего текста сделать список слов, где сделаны орфографические ошибки. Их может быть достаточно для сравнения.
Back to top
View user's profile Send private message
Flasher



Joined: 06 Nov 2009
Posts: 12734
Location: Москва

Post (Separately) Posted: Mon Feb 18, 2013 20:48    Post subject: Reply with quote

Rusl8 wrote:
Как самое простое бы - списком вывести слова, в которых сделаны орфографические ошибки и быть может предложения с ошибочной пунктуацией.
Если первое ещё вполне реализуемо, то со вторым куда сложнее. Ведь, как я понял, нужна ошибка и число её повторений в тексте. Поскольку предложения могут строиться по разному, то просто так вычисления провести не получится, в каждом случае контекст важен, к тому же есть проблемы с омофонами, омоформами и омографами. В общем, алгоритмика для всяких таких нюансов мощная нужна.
_________________
Автору сборки TC Image (Andrey_A) настоятельно рекомендуется не распространять на иных ресурсах любую предоставленную мной где-либо техническую информацию по автоматизации и оптимизации в работе с ТС и системой.
Back to top
View user's profile Send private message
Rusl8



Joined: 02 Nov 2012
Posts: 21

Post (Separately) Posted: Tue Feb 19, 2013 05:33    Post subject: Reply with quote

Число повторений это интересно бы, это может быть использовано для оценки, является ли ошибка единичной, опечаткой, например, или, если она повторяется, следствием незнания правильного варианта написания слова.

Но это не обязательно, достаточно просто списка слов с ошибками. Из этого уже работать намного проще. Берётся слово с ошибкой и забивается в поиск по второму тексту, с которым нужно сравнивать. Если слово с такой же ошибкой попадается, то уже может говорить это о том, что или в обоих случаях люди одинаково ошибаются или написавший тот же самый человек. Тогда берутся следующие слова... и т.д.

Ну а если есть программы, которые автоматически это все сравнения делают и по разным прочим признакам, то было бы любопытно...
Back to top
View user's profile Send private message
Моторокер



Joined: 06 May 2005
Posts: 1482
Location: г. Пермь (читается Перьмь)

Post (Separately) Posted: Tue Feb 19, 2013 19:53    Post subject: Reply with quote

Rusl8 wrote:
Пожалуй даже этого достаточно - из всего текста сделать список слов, где сделаны орфографические ошибки. Их может быть достаточно для сравнения.

Мне тоже это нужно было Smile Пробуй Smile http://www.autoaf.ru/soft_orf.htm

Возможно, база устарела, запроси в почту zoth@bk.ru
_________________
плагины для Total Commander, статьи Graphics Converter; NSCopy; SEO HTML; KillOK; Плагин на Delphi
ПармаСруб - строительство домов и бань в Перми
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Программное обеспечение All times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group