ЭлементыЭлементы большой науки
Жизнь в науке. Дневники
Главная / Дневники / Вячеслав / Запись

АВТОМАТИЗИРУЕМ АНАЛИЗ МЕТОДОМ "ОКОН-ФАКТОВ" ИЛИ КАК НАУЧИТЬ ПРОГРАММУ ИСКАТЬ ФАКТЫ В ТЕКСТЕ

26.05.2009
10:54

Сегодня мы буде говорить о том как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методы Вы можете почерпнуть достаточно много по средствам любой поисковой машины в интернете. В общих чертах задача метода сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом. В этой статье под фактом будет пониматься следующее — это суждение (предложение) в котором упоминается какой либо субъект или именованный объект. Имея возможность извлекать подобные факты из многих текстов, мы получаем текст лишенный «воды» и содержащий одни лишь факты.

Сформулируем задачу которая перед нами стоит: в имеющейся информации в виде текста найти слова, которые являются персоналиями или другими важными объектами( например названия местности, места или что либо другое значимое в человеческом понимании этого слова).
По какому признаку мы отличаем персоналию от обычного слова? Думаю ответ на этот вопрос очень прост - по большой букве! Разумеется такое обобщение имеет очень много проблем, без решения которых подобный метод может не работать. И именно о том, какие проблемы возникают у человека который пытается реализовать нечто подобное и как с ними бороться и будет данный пост.
С главным мы разобрались (для начала) — все что начинается с большой буквы — будем именовать Субъектом или Объектом о которых идет речь в тексте или о которых в тексте упоминается. Однако сразу же стоит вспомнить об некоторых ограничениях: в каждом языке существуют символы после которых следующее слово чаще всего начинается большой буквой. Для нашего языка такими символами могут служить точка, вопросительный знак, восклицательный знак и т.д. Таким образом из поля зрения нашего подхода выпадают как минимум все те слова, которые стоят в начале предложения, так как нету не известно по какой причине в них большая буква. Такое ограничение не может положительно сказатьсяате роботы.

Итак подведя итоги первой части статьи:

Мы научились определять Субъекты информации по большой букве,

Так как не все слова начинающиеся с большой буквой — Субъекты, то мы пришли к необходимости составить список правил — исключений.
Ответить предыдущая | следующая

КОММЕНТАРИИ:

26.05.2009 12:42#
putnik
Автоматизируем анализ методом "Окон-Фактов" или как научить программу искать факты в тексте
> Мы научились определять Субъекты информации по большой букве, ...

Такой метод заведомо грамоздкий и однозначно глюкавый... :-)

PS: И в целом, факты в тексте лучше выискивать по смыслу, а не по формальным признакам.
26.05.2009 14:49#
sh18
Автоматизируем анализ методом "Окон-Фактов" или как научить программу искать факты в тексте

На пост Владимира Наседкина от 12:42 



> PS: И в целом, факты в тексте лучше выискивать по смыслу, а не по формальным признакам.

Осталось научить программу понимать смысл... )

26.05.2009 15:40#
putnik
Автоматизируем анализ методом "Окон-Фактов" или как научить программу искать факты в тексте
>> PS: И в целом, факты в тексте лучше выискивать по смыслу, а не по формальным признакам.
> Осталось научить программу понимать смысл... )


Именно так. :-)

Конкретно для текста это уже сегодня достижимо, компы достаточно мощные.
Более сложные варианты - для анализа плоского цв. изображения, еще более сложные - для цв. и поливолновых (термин сейчас придумал) 3D-картинок. То бишь для единой 3D-картинки, содержащей не только видимый спектр, но и инфракрасный и ультрафиолетовый диапазоны (как видят некоторые животные и отдельные телескопы).
Но и это всё решабельно в ближнем будущем, если уже сейчас взять верное направление... :-)

Так что, дорогу осилит идущий... :-)
26.05.2009 17:54#
Автоматизируем анализ методом "Окон-Фактов" или как научить программу искать факты в тексте
> PS: И в целом, факты в тексте лучше выискивать по смыслу, а не по формальным признакам.

Собственно, об этом я тоже со временем напишу. Сейчас же я по немного открываю костяк алгоритма, на котором построен программный продукт MadWin (последняя версия кажется 0.092.3), который используется некоторыми учреждениями на Украине. Он достаточно хорошо себя зарекомендовал как инструмент для автоматизированного анализа новостных сообщений и переписки. В дальнейшем я постараюсь описать пути решения проблемы поиска темы текста и его реферирования имея ограниченные ресурсы при помощи семантического анализа (и нейро сети в качестве сравнения).

Домашняя страничка упомянутой программы analiz.at.ua
Вести дневник и оставлять комментарии могут только зарегистрированные пользователи
Логин:
Пароль:
Зарегистрироваться
Последние сообщения
Помощь
Всего дневников: 653

Пользователей
в системе: 2780

Всего записей
и комментариев: 50246

Записей и комментариев
за последние 24 часа: 14

АКТИВНЫЕ ДНЕВНИКИ


 
Энциклопедия | Новости | Блоги | Календарь | Право | Библиотека | Детские вопросы | ЖОБ При поддержке фонда Дмитрия Зимина - Династия