ЭлементыЭлементы большой науки
Жизнь в науке. Дневники
Главная / Дневники / Вячеслав / Запись

НЕСКОЛЬКО ДОПОЛНИТЕЛЬНЫХ СЛОВ О СЛОВАХ "ПАРАЗИТАХ" В ТЕКСТЕ

15.08.2010
20:46
напомню, что в прошлой записи мы поднимали тему определения интеллекта. С тех пор, нашей командой был проделан огромный кусок работы в области ИИ, информационного анализа и его автоматизации. Повторимся, что основной упор нашего проекта - выделение темы информационного сообщения.
---
Вход в Уголок педанта)
Многие, особо любознательные сразу же задаются вопросом того, что мы имеем в виду под Темой. Не вдаваясь в второстепенные вопросы мы оставили это определение банально простым - тема это набор слов, который согласно экспертной оценке наиболее полно характеризует цель. Так мы избавляем себя от формализации этого термина и в то же время, в случае если мы сможем автоматизировать процес получение темы, согласно этого определения, мы добьемся получение именно той темы, которую видит в сообщении эксперт (читай - человек).
Выход из уголка педанта)
-----
Итак, работая на автоматизацию поиска темы и проделав в этом направлении огромную работу наша команда ппришла к любопытным выводам, один из которых касается поисков так называемых слов "паразитов". Именно о нем далее и пойдет речь.
Для более полного понимания того о чем будем говорить, необходимо уточнить несколько вещей. Поиск темы текста мы осуществляем путем построения семантической сети, элементами которой являются слова. В процесс создания сети одной из особо острых проблем, стояла проблема определения одинаковых слов, так как очень часто одно и тоже слово в тексте может иметь разную словоформу или попросту может быть написано граматически неверно. Как результат мы для сравнения двух слов используем вероятностную систему, то есть для любых двух слов мы можем получить вероятность их равенства. Соответственно, если два слова похожи более чем специальный, наперед заданный порог, считаем, что эти два слова одинаковые. Таким образом верно подобрав порог (что тоже иногда бывает не тривиальной задачей но все же поддается автоматизации) мы успешно анализируем слова, как похожие, так и те что написаны с ошибкой.
Теперь можно перейти к самому вкусному) а именно как раз к той части где мы и расскажем о словах паразитах, для чего собственно и написана эта заметка. Как уже стало понятно из написанного мы, при анализе слов в тексте используем при поиске уже известных слов вероятность. После построения всей сети, мы можем составить для каждого слова вероятность появления той или иной словоформы. И на этом этапе есть пожалуй довольно очевидное, но ранее не отмеченное нами свойство некоторых слов, используя которое можно довольно удачно осуществлять поиск слов паразитов в тексте. Как выяснилось, большинство слов, которые имеют число словоформ в текст стремящейся к одной (т.е. У слова есть словоформА, вероятность появления которой стремится к единичной), это и есть так называемые слова паразиты. Однако как известно у каждой монеты есть и обратная сторона и подобный грубый анализ все же отсеивал множество информаитвных слов, особенно в тех текстах где часто встречается аббривиатура или другие частотные сокращения. Но, при грамотным использовании всех уже созданных нами фильтров с данным новым подходом к поиску слов паразитов удалось существенно улучшить показатели ошибок как первого так второго родов без существенного увеличения нагрузки на вычислительные ресурсы.
Ответить предыдущая | следующая
Вести дневник и оставлять комментарии могут только зарегистрированные пользователи
Логин:
Пароль:
Зарегистрироваться
Последние сообщения
Помощь
Всего дневников: 653

Пользователей
в системе: 2781

Всего записей
и комментариев: 50246

Записей и комментариев
за последние 24 часа: 14

АКТИВНЫЕ ДНЕВНИКИ


 
Энциклопедия | Новости | Блоги | Календарь | Право | Библиотека | Детские вопросы | ЖОБ При поддержке фонда Дмитрия Зимина - Династия