Прогресс информационных технологий в немалой степени зависит от решения проблемы понимания текстов естественного языка. Структура системы, понимающей естественный язык, условно разбивается на уровни морфологического, синтаксического и семантического анализа. Обработка предложения на этих уровнях организована последовательно, уровень морфологического разбора готовит данные для уровня синтаксического разбора. Результаты работы уровней морфологического и синтаксического разбора используются уровнем семантического анализа. Следовательно, нельзя разрабатывать уровни морфологического и синтаксического разбора без определения к ним требований со стороны уровня семантического анализа. Задачей уровня семантического анализа является построение имитационной модели реальности, описываемой обрабатываемым текстом. Такая модель не может быть построена на данных, содержащихся только в анализируемом предложении.
Создание модели требует наличия в памяти системы модели реальности, в которой существует эта понимающая система. Уровень семантического анализа находит в памяти системы модели понятий и строит из них семантически связанную модель фрагмента реальности, описываемого анализируемым текстом. Выполнение этой задачи требует максимально полно идентифицировать каждый элемент анализируемого текста, не потеряв в процессах морфологического и синтаксического анализа любой, даже самой незначительной детали. Задачей уровней морфологического и синтаксического анализа является не уменьшение количества информации, ассоциированного с каждым элементом текста, а наоборот, максимальное увеличение этого количества. Уровни морфологического и синтаксического анализа должны сопоставить с каждым анализируемым элементом текста максимальное количество атрибутов этого элемента и передать их уровню семантического анализа.
Увеличение объемов пространства поиска в этом случае, является только кажущимся. На самом деле увеличение информации, сопоставляемой с каждым элементом анализируемого текста, позволяет на этапе семантического анализа более жестко построить критерии отбора моделей понятий, описываемых этими элементами и сократить количество понятий, удовлетворяющих условиям поиска. Морфологический разбор проводится путем выделения из текста отдельных слов и разбором выделенных слов на морфемы. Операция синтаксического разбора текста естественного языка представляет собой определение всех синтаксических признаков и синтаксических связей этих слов, необходимых для семантического разбора[3,5].
Для решения задач морфологического и синтаксического анализа текста, а так же задач анализа словоизменения применим семантическую нейронную сеть[1], близкую по свойствам формальной нейронной сети Маккаллока-Питтса[4]. В подсети извлечения смысла из текста, отдельный нейрон обозначает элементарное понятие, соответствующее этапу обработки, к которому относится данный подслой нейронной сети. Элементарными понятиями являются любые понятия естественного языка с законченным смыслом, такие как символ, слог, слово, словосочетание, предложение, абзац, весь текст. Различным этапам обработки соответствуют различные уровни агрегации элементарных понятий, например: символ, слог, слово, словосочетание. В качестве структуры семантической нейронной сети, выполняющей морфологический и синтаксический разбор, применим синхронизированное линейное дерево[2,3]. Линейное дерево состоит из слоев нейронов. Каждому слою соответствует фронт волны обработки.
Слой состоит из классифицирующего подслоя не синхронизированных дизъюнкторов и распознающего подслоя синхронизированных конъюнкторов[2,3]. Обработка слов естественного языка, обладающих синонимией или омонимией, производится естественными для семантической нейронной сети средствами. Благодаря параллелизму вычислений, омонимия представляется в нейронной сети как множество одновременно возбужденных нейронов, соответствующих концептам, присущим данному слову. Синонимия представляется как возбуждение одного и того же нейрона-концепта разными словами-синонимами. Совокупность возбужденных нейронов в каждый момент времени является результатом морфологического и синтаксического разбора, удовлетворяя требованиям, предъявляемым со стороны уровня семантического анализа, так как каждый возбужденный нейрон, соответствующий некоторому понятию, всего лишь дополняет картину разбора текста, не затеняя активности других нейронов.
Источник: http://eidolon.euro.ru/ai00006s.htm
(Eidolon) →
Обработка морфологической и синтаксической синонимии и омонимии в семантической нейронной сети /Д.Е.Шуклин // 6-й Международный молодежный форум "Радиоэлектоника и молодежь в XXI веке": Сб. научных трудов. Ч. 2. - Харьков: ХНУРЭ. 2002. С.308-309
Дополнительно
Научный руководитель Шабанов-Кушнаренко С.Ю.
Харьковский Государственный Технический Университет Радиоэлектроники
ИИ от Prof
E-mail
© Prof 2004
13.02.2004
1/3