Total Commander Forum Index Total Commander
Форум поддержки пользователей Total Commander
Сайты: Все о Total Commander | Totalcmd.net | Ghisler.com | RU.TCKB
 
 RulesRules   SearchSearch   FAQFAQ   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

Поиск стоп-слов в текстовом файле

 
Post new topic   Reply to topic    Total Commander Forum Index -> Программное обеспечение printer-friendly view
View previous topic :: View next topic  
Author Message
Langly



Joined: 06 Apr 2009
Posts: 3

Post (Separately) Posted: Mon Apr 06, 2009 15:51    Post subject: Поиск стоп-слов в текстовом файле Reply with quote

Здравствуйте!
Исходные данные:
Есть список стоп-слов, более сотни.
Есть файл в котором забиты ссылки в HTML с анкорами, более 12000строк (1строка - 1 ссылка)
Задача:
Сравнение файлов и поиск стоп-слов из одного списка, в другом.

Просто чтобы выделил стоп-слова в списке ссылок.

Возможно такое или нет?
Перепробовал кучу софта, никак не могу найти ничего подходящего.
В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно.
Спасибо.

 !  CaptainFlint:
Тема перенесена в "Программное обеспечение".
Back to top
View user's profile Send private message
Rodny



Joined: 24 Jan 2007
Posts: 949
Location: Могилёв, Беларусь

Post (Separately) Posted: Mon Apr 06, 2009 16:20    Post subject: Reply with quote

Langly wrote:
В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно.
В большинстве приличных текстовых редакторах есть поиск с регулярными выражениями. Например, EmEditor, Notepad++ и т.п.

Пример запроса: слово1|слово2|слово3|слово4|...|слово50
Back to top
View user's profile Send private message
Langly



Joined: 06 Apr 2009
Posts: 3

Post (Separately) Posted: Mon Apr 06, 2009 17:32    Post subject: Reply with quote

Rodny wrote:
Langly wrote:
В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно.
В большинстве приличных текстовых редакторах есть поиск с регулярными выражениями. Например, EmEditor, Notepad++ и т.п.

Пример запроса: слово1|слово2|слово3|слово4|...|слово50


Не знаю... специально Notepad++ установил.
Пробовал и так: слово1|слово2|слово3|слово4|...|слово50
и так \слово1, \слово, и по всякому...
нифига не находит.
Контрольные слова в текст вставлял.
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Mon Apr 06, 2009 18:54    Post subject: Reply with quote

Видимо, поддержка regex в редакторе неполная.
можно попробовать LogViewer (ссылка в подписи): настроить подсветку этих слов, и смотреть файл.
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Langly



Joined: 06 Apr 2009
Posts: 3

Post (Separately) Posted: Mon Apr 06, 2009 20:06    Post subject: Reply with quote

Alextp wrote:
Видимо, поддержка regex в редакторе неполная.
можно попробовать LogViewer (ссылка в подписи): настроить подсветку этих слов, и смотреть файл.


Нет. не идет...
Вбил для проверки
продажа диплом|купить диплом|покупка диплом

И вставил все три выражения в текст в разных местах.
Показал только :покупка диплом, самое последнее.
Back to top
View user's profile Send private message
Alextp



Joined: 06 Feb 2005
Posts: 4957

Post (Separately) Posted: Mon Apr 06, 2009 21:35    Post subject: Reply with quote

У меня идет, все 3 строки показывает:

Img
_________________
UniViewer - CudaText - LogViewer
Back to top
View user's profile Send private message
Rodny



Joined: 24 Jan 2007
Posts: 949
Location: Могилёв, Беларусь

Post (Separately) Posted: Mon Apr 06, 2009 21:54    Post subject: Reply with quote

Langly
Виноват, Notepad++ действительно конструкцию "|" не знает. Придётся исключить его из списка приличных редакторов.
EmEditor справляется с поставленной задачей, в том числе и с последними примерами. В нём вообще наилучшая работа с регекспами из того, что я пробовал.
Back to top
View user's profile Send private message
basileus



Joined: 08 Dec 2009
Posts: 3

Post (Separately) Posted: Sun Apr 25, 2010 21:32    Post subject: Reply with quote

Вообще-то есть специальные утилиты (потоковые редакторы), поддерживающие регэкспы, с форками под windows.
http://gazette.linux.ru.net/rus/articles/abs-guide/a15696.html

http://ru.wikipedia.org/wiki/Sed
http://ru.wikipedia.org/wiki/Awk
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Total Commander Forum Index -> Программное обеспечение All times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group