HomeHomeHome


Материалы к семинару.
Публикуется с разрешения В.Н. Полякова

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ, ОРИЕНТИРОВАННЫХ НА ЛЕКСИЧЕСКОЕ ЗНАЧЕНИЕ, В ЗАДАЧАХ ПОИСКА И КЛАССИФИКАЦИИ

В.Н. Поляков

ИЯ РАН

статья находится в печати и будет опубликована в сборнике ИЯ РАН
«Проблемы прикладной лингвистики»

Аннотация

В работе представлен подход к созданию лингвистических технологий, основанный на активном использовании лексического значения (ЛЗ). Сформулированы базовые постулаты предлагаемых технологий. Показаны преимущества и ограничения такого подхода. Выявлены оппозиции в указанных технологических направлениях: пакетные – интерактивные методы, явное – неявное использование ЛЗ. Преимущества проиллюстрированы примерами на задачах поиска и классификации текстовой информации.

ВВЕДЕНИЕ

Научные проблемы, связанные с лексическим значением, давно находятся в поле зрения современной теоретической и прикладной лингвистики. Последние достижения компьютерных, (а если брать шире, — информационных) технологий, позволили по-новому взглянуть на эти проблемы не только в прикладном, но и в теоретическом аспекте. В статье обсуждаются некоторые результаты и ближайшие перспективы исследований и разработок на этом направлении.

Прежде, чем излагать базовые посылки, лежащие в основе компьютерных лингвистических технологий, ориентированных на значение (далее — ЛЗ-технологий), необходимо определить, что мы понимаем под лексическим значением, и провести краткий обзор значительных достижений отечественной и зарубежной лингвистики, полученных в этой области.

В БСЭ [5] приводится следующее определение:

Значение лексическое, та часть семантического состава слова, которая в противоположность грамматическому значению целых классов и категорий слов присуща лишь данной лексической единице. Лексическое содержание большинства полнозначных лексем неоднородно и представляет собой смысловую структуру, иерархическую соподчинённость отдельных значений или, под иным углом зрения, лексико-семантических вариантов слова. Это свойство организации лексической семантики называется полисемией, или семантическим варьированием слова. В зависимости от характера предметной и понятийной отнесённости слова значения могут быть прямыми и переносными, в зависимости от степени контекстуальной обусловленности — свободными, фразеологически связанными, конструктивно обусловленными.

Структурные, семантические и функциональные аспекты слова изучает лексикологическая теория [1-4, 6, 7, 9, 11, 13, 14, 16, 17, 28-30, 32].

Для фиксации известных значений слов традиционно используется такая лексикографическая форма, как толковый словарь. В этом направлении за два прошедших века (XIX-XX в.в.) в России (и в СССР) была проделана колоссальная работа, которая позволила сохранить и зафиксировать как диахронную так и синхронную семантику русской лексики [8, 21, 26, 27, 31]. Можно отметить прочные лексикографические традиции и в других развитых в научном отношении странах (США, Англия, Германия). В качестве альтернативы бумажным словарям в проекте WordNet были предложены и апробированы компьютерные методы фиксации значений, основанные на экспликации семантических связей между словами средствами информационных технологий (базы данных и знаний) [49, 50]. Дву- и многоязычные словари (бумажные и компьютерные) содержат сопоставительное описание лексических значений. В качестве примера плодотворного сотрудничества в области традиционной и компьютерной отечественной лексикографии можно привести словарь НБАРС и его компьютерный аналог Мультилекс [20]).

Проблема разрешения лексической многозначности является одной из самых сложных прикладных задач, связанных с лексическим значением. Задача автоматического (реже полуавтоматического) разрешения лексической многозначности была впервые сформулирована в рамках направления науки и технологии, связанного с созданием систем машинного перевода (МП). В дальнейшем проблема разрешения лексической многозначности стала одной из ключевых не только при создании систем МП, но и систем обработки естественно-языкового текста (ОЕЯТ) других назначений (поиск, классификация). Десятки научных коллективов и коммерческих организаций во всем мире занимаются этой проблемой. На регулярной основе проводятся соревнования между действующими компьютерными программными системами, предназначенными для этих целей [45, 46]. Однако, несмотря на предложенные решения (см. например [18, 34-48, 51-54, 58-61]), полного решения проблема пока не получила. К примеру, общий механизм, предложенный Ю.Н. Марчуком (метод детерминант) — эффективный, но слишком трудоемкий метод, так как предполагает необходимость формирования индивидуальных правил для каждой лексемы.

В тоже время для некоторых задач ОЕЯТ этап распознавания лексического значения очень важен. Рассмотрим это на примере трех компьютерных технологий, связанных с ОЕЯТ: машинный перевод, поиск текстовых ресурсов в Интернете, классификация текстов.

Отсутствие надежных механизмов распознавания значения сводит «на нет» все усилия по реализации систем машинного перевода. На сегодняшний день это критическая проблема повышения качества систем для указанного направления компьютерной лингвистики 1.

В области поисковых технологий в Интернет проблема многозначности не носит критического характера, так как сравнительно низкое качество поиска часто сглаживается большими объемами информации в сети Интернет. Тем не менее, по оценкам специалистов, поиск с использованием разрешения многозначности способен привести к повышению релевантности поиска (в среднем с 30 до 70 %), повысить таргетинг рекламы, тем самым резко повысив доходность поисковых систем, снизить общий траффик в сети и время на поиск конкретной информации.

В задачах классификации текстов влияние многозначности проявляется в том, что при выборе в качестве базового признака классификации единичную лексему, вы сталкиваетесь с ее многозначностью, что понижает точность классификации текстов.

Эти и другие аргументы говорят о необходимости для специалистов по прикладной лингвистике сосредоточиться на лингвистических технологиях, ориентированных на лексическое значение, так как даже частичное решение этой проблемы способно обеспечить прорыв сразу по нескольким направлениям. Статья посвящена описанию указанных оригинальных технологий и включает примеры их применения для задач классификации текстов и поиска. Преимущества новых технологий, ориентированных на лексическое значение, демонстрируются на примерах проекта «Интеллектуальная поисковая машина» [22, 23] и программы классификации текстов Rubryx [25, 55].

Кроме того, в статье описываются перспективы использования предложенных технологических решений в целях разработки новых инструментальных средств для лингвистических исследований.

1. ХАРАКТЕРНЫЕ ЧЕРТЫ НОВОГО ПОДХОДА К РАЗРЕШЕНИЮ МНОГОЗНАЧНОСТИ

Хочется сразу подчеркнуть прикладной, инженерный характер описываемого подхода к разрешению лексической многозначности. Это означает, в частности, не только исследование природы многозначности, но и разработку моделей, механизмов и процедур, способных помочь в ее разрешении или сгладить ее влияние. Разумеется, дополнительным эффектом от этих работ может стать и новая научная информация о феноменологии многозначности.

Другая особенность этого подхода заключается в том, что на задачу заранее накладываются разумные ограничения, позволяющие добиться положительного результата за счет сокращения необходимых компьютерных и людских ресурсов. В частности это позволяет сократить такие ресурсы, как:

  • трудозатраты на подготовку необходимых лексикографических массивов;
  • компьютерные мощности и время, что оказывается очень важным при обработке больших объемов текста.

Кроме того, введение разумных ограничений позволяет добиться положительного результата хотя и на локальном, но важном для решаемой задачи направлении. Приведем примеры таких ограничений.

Пример 1.

Для задач поиска и тематической классификации текстов оказывается достаточным разрешать лексическую многозначность только имен существительных, что объясняется следующими факторами:

  • в задачах поиска свыше 99 процентов запросов полностью или частично состоят из имен существительных или включают таковые [22];
  • в задачах тематической классификации текстов основными признаками являются термины, которые также преимущественно включают имена существительные.

Пример 2.

Даже использование такого сильного ограничения, как в примере 1, еще не позволяет говорить о возможности полного разрешения многозначности всех имен существительных в случаях, когда корпус индексируемых текстов насчитывает миллионы единиц. Это связано с тем, что задача разрешения многозначности для каждого отдельного слова в тексте сложна и требует применения многофакторного анализа. При большом количестве текстов (а значит и слов) решение задачи может оказаться неприемлемым с комбинаторной точки зрения. Последнее обстоятельство заставляет проводить предварительный частотный анализ слов в тексте, для выявления слова-темы. Предварительный частотный анализ запросов к поисковой машине также позволяет расставить приоритеты по тем многозначным словам, которые наиболее часто являются элементами поискового образа.

Пример 3.

Практика показывает, что для задачи поиска при многословном запросе достаточно интерактивно разрешить многозначность всего по одному существительному (мы называем его ядром запроса), так как остальные слова будут находиться уже в контексте с данным лексическим значением, и в силу этого будут иметь фиксированным свое лексическое значение. Отметим, что в этом примере речь идет о фокусировке запроса, т.е интерактивном методе разрешения многозначности.

Пример 4.

Известно, что при разрешении многозначности существует ряд самостоятельных задач. В частности, можно выделить наиболее крупные, «классические» задачи:

  1. Задача приписывания известного значения известной лексеме.

    Например, в предложении «Прямо по курсу находится остров сокровищ» слову «курс» компьютер должен сопоставить значение Курс1-1. (Направление движения, путь (корабля, летательного аппарата, транспортного средства). Идти по заданному курсу.)

  2. Задача приписывания известного значения новой лексеме.

    Например, для неологизма «криминалитет», в предложении «Президент отдал распоряжение прекратить разгул преступности и ограничить власть криминалитета» целью работы программы разрешения многозначности является установление соответствие слова «криминалитет» онтологическому классу «Группа людей, объединенных родом занятий или общими интересами».

  3. Задача выявления нового значения для известной лексемы.

    В этом случае, например, для предложения «В течение первого полугодия рост курса евро устойчиво опережает доллар США» для слова «евро» программа должна сопоставить новое значение «разновидность национальной валюты».

  4. Задача выявления нового значения для новой лексемы.

    Эти ситуации крайне редки. Объясняется это тем, что структура лексической онтологии хорошо сформирована и отработана таким образом, что охватывают подавляющее большинство онтологических классов [49, 50]. В силу этого обстоятельства вероятность ситуации, когда появляется абсолютно новое понятие, не относящееся ни к одному из известных классов, крайне маловероятна и эти случаи могут быть доверены для обработки человеку (например, администратору поисковой машины). Можно сказать, что эта задача носит скорее теоретический, чем практический характер. 3

    Отдельно можно рассмотреть следующие задачи, которые пока сравнительно редко рассматриваются в теории многозначности, но имеют актуальность в прикладных задачах:

  5. Задача идентификации имени собственного и отнесение его к онтологическому классу.

    Например, в предложении «Подлодка «Орел» отправилась в свой полугодовой поход» целью работа программы является установление соответствия между лексемой «Орел» и классом «технические устройства — подводные лодки».

  6. Задача идентификации использования слова в переносном значении (метафора, метонимия, синекдоха).

Решение этой задачи не носит критического характера, так как поиск по метафорическому использованию слов осуществляется крайне редко. Однако для снижения уровня шума было бы полезным отфильтровать метафорические использования терминов (если только речь не идет о сухих метафорах типа «дворник» в автомобиле, железнодорожная «ветка» и т.д.)

В целом, зачастую в задачах поиска достаточно решить задачу 1 и 5 для того, чтобы заметно повысить пертинентность4 результатов поиска.

Пример 5.

Для задачи машинного перевода эффективным решением является ограничение предметной области перевода. Это обстоятельство хорошо известно специалистам.

Пример 6.

Важным фактором является характер ограничений, накладываемых на точность используемых методов. В задачах машинного перевода, конечно же, требуется максимальная точность решения задачи многозначности для всех слов в тексте. Напротив, в задачах поиска и классификации допускается некоторая погрешность, а точнее неопределенность лексических значений для какой-то доли слов в тексте. Это связано с тем, что поиск в сети Интернет, как правило, осуществляется по огромным массивам электронных текстов. Результатом поиска могут оказаться тысячи, а то и десятки тысяч документов. В таких условиях допускается определенный процент неполноты поиска, связанный с неопределенностью лексического значения. Неполнота обработки компенсируется большими объемами обрабатываемых текстов5.

Продолжим краткое описание основных характеристик предлагаемого подхода. В основе разрабатываемых технологий лежит практика инженерного освоения результатов многолетних лингвистических исследований. Это проявляется в двух аспектах.

Во-первых, мы проповедуем идею максимального сочетания четырех известных подходов в прикладной лингвистике. Таким образом, в рамках предлагаемых технологий не противопоставляются, а объединяются тексто-центрический, лексико-центрический, словарно-центрический и смысло-центрический подходы [18]. Связано это с тем обстоятельством, что один отдельно взятый метод не может дать стопроцентного результата при решении задачи разрешения многозначности, или оказывается слишком трудоемким в массовом применении. Это заставляет комбинировать различные подходы в стремлении добиться максимально надежного и полного результата. Кроме того, на различных этапах обработки текста используются различные подходы6.

Во-вторых, в разработке ставится акцент на процедурную семантику, связанную с обработкой значения, в то время как в большинстве исследований главным вопросом было описание различных аспектов многозначности как таковой (омонимии, полисемии, синонимии, метафоричности, деривации и т.д.), без выяснения процедурной природы использования или учета этого явления. В этом смысле, каждый метод — это совокупность лингвистических и экстралингвистических знаний, которым пока уделяется сравнительно мало внимания в традиционной лингвистике. Лингвистические ресурсы (словари и корпусы текстов) в данном случае выступают исходными данными, своеобразным «технологическим сырьем».

2. БАЗОВЫЕ ПОСЫЛКИ

Традиционным для лингвистики способом описания лингвистического значения является толковый словарь, в котором для каждого значения слова приводится толкование (интерпретация) и примеры (cм. [8, 21, 26, 27, 31]).

Другим способом толкования, используемым в рамках лексической семантики, является пропозиция (См. [1, 19]). Пропозиция является более формальным способом, чем тестовое толкование. Следующим шагом по пути формализации описания лексического значения является предикативная форма, используемая в логико-ориентированных моделях. Этот последний способ (предикативный) уже нельзя считать полностью лингвистическим, и он скорее относится к области интеллектуальных технологий (см. например [56, 57]).

Однако существуют и другие способы постулирования значений. Так, например, в проекте WordNet в качестве интенсионала значения используются так называемые «синсеты» (synsets), которые представляют собой множества синонимов, объединенных конкретным значением слова7. Вообще в проекте WordNet достаточно много новаций, связанных с постулированием, маркированием и описанием лексических значений. Очень эффективным способом описания лексического значения, примененным в проекте WordNet, на наш взгляд, является непосредственное отнесение слова к определенному онтологическому классу. Этот же метод (в сочетании с толкованием) применен в Семантическом словаре русского языка под редакцией Н.Ю. Шведовой [33].

В целом можно сказать (и это отмечено в [50]), что определение лексического значения через толкование (так же как и через другие перечисленные способы) является неполным, и носит в основном не энциклопедический, а индексирующий характер. То есть определение значения в словаре является лишь ссылкой, призванной вызвать в нашей памяти систему ассоциаций. В этом смысле проекты типа WordNet являются компьютерными моделями, призванными сымитировать когнитивно-психологические принципы функционирования значения в памяти человека и перенести эти принципы в компьютерную среду.

Кроме того, известно, что существуют определенные закономерности деривации значений [15]. В работе [10] приведен обзор современных взглядов на теорию лексического значения.

Итак, перечислим основные посылки ЛЗ-технологий:

  1. В прикладных задачах компьютерной лингвистики под многозначностью слова, термина понимается многозначность текстовой строки. В этом смысле не делается различия между омонимичными и полисемичными значениями слова. Это связано с тем, что в подавляющем большинстве прикладных задач важна не столько этимология слова, сколько семантика самого значения. Мы также будем придерживаться этой позиции, сознательно допуская некоторую некорректность использования термина лексическая многозначность. При этом распознавание и разделение групп омонимичных значений также входит в нашу задачу разрешения лексической многозначности, так как иногда может оказаться полезным с практической точки зрения.

    Пример: В омонимичной паре лес (группа деревьев) – леса (строительные) информация о неполной морфологической парадигме второго слова может оказаться полезной при поиске и индексации текстов.

  2. Слово имеет несколько зафиксированных значений (включая омонимы) и бесконечное число метафорических использований.

    Пример: Слово курс по словарю Ожегова [21] имеет следующие значения:

    Курс1

    1. Направление движения, путь (корабля, летательного аппарата, транспортного средства). Идти по заданному курсу.

    2. перен. Направление какой-н. политической, общественной деятельности. Внешнеполитический к.

    3. Цена, по которой продаются ценные бумаги. Валютный к.

    Курс2

    1. Законченный цикл, весь объем специального обучения, каких-н. процедур. К. грязелечения.

    2. Отдельная годичная ступень образования в высшей школе и в специальных учебных заведениях, а также группа учащихся этой ступени. Студент третьего курса. Староста курса. 8

    3. Изложение научной дисциплины в высшей школе, в специальном учебном заведении. К. истории.

    Кроме того, возможны метафорические и метонимические использования этого слова. О трактовке сухих метафор (см. значения Курс1-2 и Курс2-2) уже говорилось.

  3. Проблема многозначности считается решена, если для слова выбрано его регулярное значение или, если найден синонимический эквивалент в виде регулярного значения для метафорического использования.

  4. Если мы знаем, что должно быть на входе (слово) и что на выходе (значение) системы разрешения многозначности, то разработка системы сводится к созданию и наполнению словарей слов и значений, а также к разработке механизмов разрешения многозначности.

  5. Для новых слов, включая имена собственные, необходимо сначала сформулировать перечень возможных значений9, и затем перейти к решению классической задачи разрешения многозначности.

  6. Исходим из гипотезы, что не существует единого механизма разрешения многозначности. Их несколько. Иногда работает один механизм, иногда одновременно несколько, и тогда могут возникнуть противоречивые гипотезы, и эту проблему также надо решать.

  7. Мы различаем два основных класса механизмов разрешения многозначности.

    1 класс. Это механизмы автоматические, предполагающие полностью компьютерное решение этой задачи. Применяются, например, в задаче поиска при индексировании текстов в БД поисковой машины.

    2 класс. Это механизмы интерактивные (диалоговые, полуавтоматические), предполагающие совместное решение задачи человеком и компьютером. Применяются, например, в задаче фокусировки запроса в Интеллектуальной поисковой машине. Сводятся, как правило, к тому, что компьютер предоставляет пользователю набор альтернатив, из которого он должен выбрать.

  8. К механизмам разрешения многозначности мы относим и те, которые не используют лексического значения, постулированного в явном виде, как это сделано, например, в толковом словаре. Для нас достаточно уже того, что применяемая техника позволяет просто сузить спектр возможных значений. Такие методы, как правило, носят статистический характер и применяются нами в технологии классификации текстов Rubryx и в ряде механизмов фокусировки запроса в проекте Интеллектуальной поисковой машины.

  9. Другой разновидностью методов разрешения многозначности являются фильтры, то есть методы, не выявляющие точного значения, но в явном виде накладывающие ограничения на их спектр. Примерами такого рода фильтров являются правила сочетаемости лексем, правила входимости актантов в синтаксемы и предикативные структуры.

  10. Наш подход к переносным значениям носит дифференцированный характер. Дело в том, что основные явления полисемии — метафора, метонимия и синекдоха вносят различный вклад в информационный шум при поиске. Метафора (перенос значения на основании сходства свойств предметов и понятий, обозначаемых именами существительными10) наиболее «вредное» явление с точки зрения информационного поиска, так как приводит к значительному искажению смысла поискового образа. Метонимия (перенос значения на основании близости, ситуационной или пространственной) и синекдоха (перенос значения с предмета на его часть) имеют гораздо меньшее влияние, так как, хотя и меняют онтологический класс искомого понятия, но оставляют его в рамках ситуационного контекста, что не приводит к катастрофической ошибке. Сухие метафоры и метонимии, отраженные в толковых, энциклопедических и тематических словарях, рассматриваются нами как регулярные значения.

3. МЕТОДЫ РАЗРЕШЕНИЯ МНОГОЗНАЧНОСТИ

В этом разделе мы перечислим и кратко охарактеризуем основные методы пакетного11 разрешения многозначности, предполагая, что их полное описание появится в последующих публикациях. Интерактивные методы фокусировки запросов будут рассмотрены подробно ниже в разделе 5.

Предлагаемые методы по виду анализируемой информации делятся на четыре типа:

  1. морфологические;
  2. лексические;
  3. синтаксические;
  4. семантические.

В процессе разрешения многозначности исходной информацией является само слово, его контекст, вспомогательная информация из лингвистической базы данных. На выходе мы должны получить ссылку на значение в базе данных или ссылку на гипероним (онтологический класс).

В качестве контекста может выступать словосочетание, полное предложение, фрагмент текста, размер которого зависит от используемого метода, или текст целиком.

Морфологические методы

  1. Метод, основанный на словоизменительной морфологической парадигме.

    Некоторые значения и омонимы имеют ограниченную морфологическую парадигму. Это обстоятельство можно использовать при фильтрации неподходящих значений.

    Пример: лес, леса (строительные).

    Лексические методы12

  2. Метод, основанный на семантических связях в лексической онтологии.

    Основан на том обстоятельстве, что лексемы ближайшего онтологического окружения (гипероним, когипонимы и гипонимы) представляют собой достаточно сильный лексический контекст.

  3. Метод, основанный на тематических кластерах.

    Списки терминов, объединенные определенной тематикой, названные нами «тематические кластеры», представляют собой эффективное средство маркирования лексического значения. Такие кластеры формируются преимущественно на основе тематических помет в словарях общеупотребительной лексики, собираются из специальных тематических словарей. Для составления словников предметных областей, для которых отсутствуют тематические словари, нами используются частотные методы [24]. При определении лексического значения формируется рейтинг, построенный на основе частоты встречаемости в тексте терминов из разных тематических областей. Термины-словосочетания обладают более высоким рейтингом, чем однословные термины. Задача построения рейтинга лексического значения на основе слов-спутников похожа на задачу тематической классификации текста [25] с той лишь разницей, что в этом случае объектом классификации выступает одно слово, а основанием классификации – его лексическое значение. Подобные методы активно используются в системах машинного перевода.

  4. Метод, основанный на устойчивых словосочетаниях.

    Специалистам известно, что устойчивые словосочетания представляют собой очень эффективное средство фокусировки значения при поиске [22]. Метод можно использовать, если приписать лексеме, входящей в устойчивое словосочетание, определенное лексическое значение. В большинстве случаев использование лексемы в именной группе (словосочетании) приводит к сужению экстенсионала13 лексического значения.

  5. Метод, основанный на выявлении фразеологизмов.

    Идиоматическое вхождение лексемы в подавляющем большинстве случаев однозначно фиксирует ее значение. При этом для некоторых типов фразеологизмов (фразеологические сращения и фразеологические единства) исходное значение может быть полностью утрачено.

    Синтаксические методы

  6. Метод, основанный на характерных синтаксемах.

    Некоторым онтологическим классам можно приписать характерные синтаксемы [12]. Этот метод особенно эффективен при обработке имен собственных.

  7. Метод, основанный на синтаксических фильтрах.

    Фильтры сочетаемости лексем и правила входимости актантов в синтаксемы позволяют сузить список рассматриваемых гипотез.

  8. Метод, основанный на частотном анализе всех синтаксем.

    При прочих равных условиях, некоторые значения имеют разную сочетаемость в синтаксемах. Это можно использовать в сочетании с вероятностным подходом.

    Семантические методы14

  9. Метод, основанный на анализе предикативных структур.

    Анализ входимости лексем в предикативные структуры (глагольные группы) способен пролить свет на их лексическое значение. Метод представляет собой весьма сложную комбинацию синтаксических методов 6 и 7. Для использования этого метода необходимо создание нового лингвистического ресурса: предикативного словаря.

  10. Метод, основанный на анализе свойств объектов.

    Свойства объекта представляют собой сильный маркер значения сигнифицирующей его лексемы. Выявление свойств объекта в тексте возможно на основе анализа именных групп с прилагательными, которые являются их номинативами. Для этого метода необходимо создание словаря классов объектов и их свойств.

    Как уже было отмечено, значения лексем, заимствованные из толковых словарей снабжаются текстом толкования. Этот текст оказывается полезным для сообщения пользователю поисковой системы дополнительной информации о выбранном значении. Попутно эта информация может быть использована в процессе распознавания значения. Мы выделяем два метода разрешения лексической многозначности, основанные на тексте толкования: лексический и параметрический.

  11. Лексический метод, основанный на толковании.

    В этом случае лексемы, входящие в толкование служат индикаторами значения в тексте. Разумеется, для этих целей подходят не все слова. Некоторые слова являются специфическими для толкований и не несут полезной информации. Список таких стоп-слов был составлен на основе частотного анализа текстов толковых словарей.

  12. Параметрический метод, основанный на толковании.

    В этом случае синтаксические, грамматические и семантические конструкции толкования служат индикаторами значения в тексте.

  13. Методы, основанные на примерах из толковых словарей.

Аналогично методам п.п. 11-12, только основываются не на тексте толкования, а на текстах примеров из словарной статьи.

Приведенный спектр методов ориентирован в первую очередь на работу с именами существительными. При этом, разумеется, мы устанавливаем приоритеты значимости результатов, полученных различными методами, не говоря уже о том, что цена применения каждого метода будет различной.

Далее приведены примеры использования технологий, ориентированных на лексическое значение, в задачах компьютерной лингвистики.

4. ТЕХНОЛОГИЯ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ RUBRYX

Проблему классификации текстов можно сформулировать следующим образом:

  • дано множество рубрик (классов документов) К;
  • дано множество документов D;
  • необходимо установить отнощение R(k,d), задающее родо-индивидную связь между классами и индивидами документов.

При поиске эффективного решения этой проблемы мы исходили из следующих посылок:

  • наилучшей и наиболее доступной характеристикой классов текстовых документов является лексика, т.е. словарный состав документов, входящих в это подмножество;
  • практикой доказано, что использование отдельных слов (лексем) в качестве признаков классификации не дает высокой надежности классификации для документов малого и среднего объема в силу многозначности терминов;
  • ручное создание словарей- тезаурусов, привязывающих слова к рубрикам, является чрезвычайно трудоемким занятием15;
  • необходимо обеспечить гибкость и быструю настраиваемость классифакатора на новую предметную область;
  • для глобального Интернета уже созданы общие рубрикаторы и сейчас основная проблема состоит в создании локальных рубрикаторов по предметным областям, в которых особенно остро нуждаются специалисты.

В результате поиска и экспериментов было найдено оптимальное, на наш взгляд, научное и инженерное решение поставленной проблемы. Была создана программа классификации текстов Rubryx, которая отличается следующими технологическими решениями:

  1. Классификация осуществляется на основе тематического словаря, созданного заранее в специальном формате, который содержит однословные, двусловные и трехсловные термины.

  2. Для эффективной классификации необходимо участие эксперта, который подбирает образцы текстов для каждой рубрики (3-5 образцов).

  3. На основании отобранных образцов автоматически формируется микрословарь для каждой рубрики, который уже в дальнейшем служит основным критерием отбора текстов для этой рубрики.

  4. При классификации текстов на основании совпадения терминов из микрословаря и лексики документа расчитывается коэффициент родства документа и текущей рубрики.

  5. Эксперт делает опытный прогон для определения порога, при превышении которого документ автоматически причисляется к текущей рубрике.

  6. После настройки рубрикатора, микрословарей и порога осуществляется автоматическая классификация и формируется отчет о результатах работы.

Таким образом при использовании технологии Rubryx существенно сокращается объем ручной работы16. Как показали эксперименты использование словосочетаний значительно повышает надежность классификации даже на небольших документах. Этот эффект объясняется практически отсутствием многозначности у словосочетаний. Технология Rubryx хорошо проявила себя на текстах научно-технического характера.

Программа распространяется как продукт с бесплатным испытальным сроком (shareware) и доступна в Интернете по адресу: www.sowsoft.com/rubryx/index.htm

В настоящий момент рассматривается вопрос использования этой технологии для классификации текстов других жанров, в том числе с учетом не только отраслевой, но и стилевой специфики.

5. ИНТЕРАКТИВНЫЕ МЕТОДЫ ПРЕОБРАЗОВАНИЯ ЗАПРОСОВ В ПРОЕКТЕ «ИНТЕЛЛЕКТУАЛЬНАЯ ПОИСКОВАЯ МАШИНА»

В проекте «Интеллектуальная поисковая машина» [22] при поиске происходит группировка обнаруженных ресурсов по значению слова. Для выявления этих значений планируется использовать «пакетные» методы, описанные в разделе 3.

Кроме этого, в проекте предложен ряд интерактивных механизмов преобразования запросов. По своему назначению интерактивные методы преобразования запросов можно разделить на три категории:

  • фокусировка,
  • расширение,
  • переформулирование с целью изменения или исправления ошибки.

5.1. Фокусировка запроса

В ИПМ предусмотрено несколько механизмов разрешения лексической многозначности путем диалоговой фокусировки запроса. Наряду с отсортированным по значению списком результатов пользователь на свой запрос получает список словосочетаний, образованных ядерной лексемой и список тематических кластеров, в которые входит ядерная лексема. Выбирая то или иное словосочетание, пользователь из-за контекстной связи слов в словосочетании уменьшает или даже разрешает лексическую многозначность ядерного слова, тем самым ограничивая область поиска.

Пример:

Для слова «аттестат» ИПМ формирует следующий список устойчивых словосочетаний: аттестат зрелости, аттестат профессора, квалификационный аттестат, продовольственный аттестат.

Аналогичным образом работает и кластерный механизм. Кластер представляет собой список слов наиболее часто встречающихся совместно в текстах определенной тематики. Ограничив темой направленность поиска, пользователь неизбежно ограничивает количество возможных толкований ядерной лексемы. Обычно тематическому кластеру можно поставить в соответствие название некоторой предметной области.

Пример:

Для слова «аттестат» в БД ИПМ было обнаружено две предметные области: военная служба, коневодство.

В качестве альтернативы названию предметной области можно использовать непосредственно часть списка слов, входящих в кластер, таким образом вызывая интуитивные ассоциации у пользователя.

Пример:

Для одного из значений слова «аттестат» можно предложить такой список: аттестат, сбруя, ипподром, жокей, порода …

После решения проблемы лексической многозначности встает другая, не менее острая проблема. Она заключается в том что, обращаясь к поисковой машине, зачастую пользователь жаждет получить конкретную, специфическую информацию по интересующей его тематике. Поисковая машина же возвращает весь объем имеющейся у нее информации на заданную тему, сортируя ее не всегда лучшим образом. Из-за этого желаемая информация может оказаться на второстепенных страницах результатов поиска. Эта проблема называется коммуникативной многозначностью запроса. Проблема коммуникативной многозначности запроса в отличие от проблемы лексической многозначности сравнительно мало изучена и сам термин коммуникативная многозначность запроса был введен впервые в рамках проекта ИПМ.

ИПМ содержит интерактивные механизмы разрешения коммуникативной многознач-ности запроса, позволяя пользователю уточнить свой запрос с помощью списка коммуникативных кластеров и списка целевых вопросов. Список коммуникативных кластеров представляет собой перечисление видов деятельности, связанных с найденными документами. Каждому виду деятельности соответствует кластер ключевых лексем, наличие которых позволяет отнести к данной области выбранный текст. Список целевых вопросов состоит из уточняющих вопросов, на которые можно найти ответ в обнаруженных документах. Как правило, вопросы формируются путем анализа синтаксических и семантических предикативных структур, актантами которых выступают существительные.

Пример:

Предположим, что пользователь ввел запрос по слову «борт» и выбрал из списка значение: 6.Кристаллы и агрегаты алмаза низкого качества, непригодные для огранки. Используются как абразивные материалы.

Для семантической категории «сырье», к которой относится это значение, в системе хранятся следующие коммуникативные кластеры: бизнес, наука, образование, производство, работа.

Также пользователю предоставляется список вопросов, позволяющих уточнить цель, для которой ищется информация:

Где добывается? Как обработать? Где продается? Какие цены?

Таким образом, достигается еще большее сужение круга документов, оставшихся после разрешения лексической многозначности. Разрешение коммуникативной многозначности полезно, если предмет поиска рассматривается в Интернет с разных точек зрения. Оба метода позволяют еще больше поднять релевантность выводимых данных. Ещё одним способом фокусировки является фрагмент онтологического дерева, с помощью которого пользователь может сузить свой запрос.

5.2. Расширение

Причиной выполнения действий по расширению полноты запроса обычно является малое количество обнаруженных ресурсов. В ИПМ эта граница задается пользователем. Как правило, неполнота или небольшое количество ресурсов связаны либо с очень узкой формулировкой запроса, либо с редкой, специфичной предметной областью запроса.

В ИПМ есть четыре основных способа расширения полноты запроса. Это список словообразований, список синонимов, список аббревиатур и фрагмент онтологического дерева.

Механизм расширения, основанный на словообразовании предоставляет пользователю список из однокоренных с ключевым слов. На основании этого списка пользователь может переформулировать свой запрос или выбрать одно из однокоренных слов и попробовать осуществить поиск по нему.

Вместе со списком однокоренных слов пользователю также предоставляется список синонимов ключевого слова. Он может выбрать все или наиболее подходящий из списка и продолжить поиск в соответствии со своим выбором. Список аббревиатур во многом напоминает по своему действию список синонимов.

Пример:

Для ключевого слова борт в значении «в сочетаниях «на борт», «на борту», «с борта» — о самом судне, а также о летательном аппарате» в качестве списка словообразовательных морфоформ будет предложен следующий вариант: бортинженер, бортмеханик, бортрасширитель, бортпроводник, бортпроводница, бортрадист, бортсеть; в качестве списка синонимов будет предложен список из одного слова: «судно».

Механизм онтологий основывается на использовании онтологических деревьев и сводится к предоставлению пользователю списка слов, находящихся в тесной семантической связи с ключевым словом запроса. Его действие будет рассмотрено ниже.

Также в качестве средств расширения полноты поиска могут выступать рассмотренные ранее средства фокусировки: список словосочетаний и список тематических кластеров. Это достигается возможностью множественного выбора словосочетаний, кластеров, вопросов и т. д.

5.3. Переформулирование

В процессе использования ПС возникают ситуации, когда пользователь некорректно формулирует запрос, не подозревая об этом. Часто эта ситуация приводит к отсутствию результатов поиска. Причиной необходимости переформулирования запроса может быть орфографическая ошибка, раскладка клавиатуры или использование пользователем иностранного языка, слабые навыки в поисковых технологиях, сложный характер предметной области или запроса. В этом случае пользователю требуется помощь «компьютерного интеллекта».

Такие возможности, как орфокоррекция и транскрибирование уже стали средствами стандартного арсенала поисковых технологий, поэтому мы не будем на них подробно останавливаться.

Несколько особняком стоит видоизменение логической формулы, например смена И-запроса на ИЛИ-запрос (или наоборот). В зависимости от направления этого изменения такое переформулирование может служить как средством расширения поиска, так и средством фокусировки. В сложных запросах с использованием синтаксических средств языка запросов пользователь может допустить ошибку, которую ему поможет исправить блок переформулирования запросов, предлагая альтернативные варианты формулировок.

5.4. Лексические онтологии

Онтологии в системе представляют самостоятельный механизм, который можно использовать самым разнообразным способом: для фокусирования/дефокусирования или переформулирования запросов специфическим для онтологий способом.

В проекте ИПМ используются так называемые лексические онтологии. Лексические онтологии — это лексико-семантические структуры, в которых установлены семантические связи между словами и словосочетаниями. При этом отличительной чертой онтологий, является то, что узлами этой сети являются не сами слова (лексемы), а их семантические значения. Кроме того в нашей системе каждой связи приписывается определенный тип. Самым распространенным типом семантической связи в онтологиях является родо-видовая связь. Общее количество типов связей насчитывает свыше 60 типов. Как показали первые опыты работы с онтологиями, настройка допустимых связей в онтологиях также может служить средством фокусировки или таргетинга. В настоящее время в систему проконвертировано свыше 50 тыс. онтологических связей.

Для того, чтобы лучше понять особенности этой разновидности лексико-семантических структур, необходимо рассмотреть их в сравнении с такими, ставшими уже традиционными механизмами обработки текстов для поиска и классификации, как рубрикаторы и тезаурусы. В последних также устанавливаются связи, однако связи эти маркируются между словами и словосочетаниями, а не между значениями. Иногда в тезаурусах предусмотрено использование понятия «тип связи», но разновидность типов связей, как правило, сильно ограничена. В рубрикаторах доминирующим типом связи является связь «область-подобласть», в силу того, что рубрики маркируют предметные области. Кроме того, в рубрикаторах по рубрикам классифицируются не слова, а сами тексты, в то время как в онтологической системе связи осуществляются на уровне значений слов, входящих в тексты.

В системе формируется три фрагмента онтологического дерева для ядерного слова в запросе:

  • список гипонимов, т.е. терминов, подчиненных ядерному;
  • список когипонимов, т.е. терминов, находящихся с ядерным на одном уровне;
  • фрагмент онтологического дерева в виде пути от ядерного термина до вершины онтологии.

Рассмотрим на примере запроса по слову топливо, как работает механизм фокусировки/дефокусировки запроса с помощью фрагмента онтологического дерева.

Пример:

Система формирует список гипонимов для исходного значения Топливо-> (кокс, мазут, дрова, газ)

Далее пользователь имеет возможности:

  1. выбрать один из гипонимов и сделать запрос по данному ключевому слову, например: кокс;
  2. сформировать комбинированный И-запрос, например: (топливо & мазут);
  3. сформировать комбинированный ИЛИ-запрос, например: (топливо | кокс | мазут | дрова | газ) .

В примере рассматривался случай перехода по онтологическому дереву от гиперонима к гипониму, примерно также работает переход от гипонима к гиперониму или списку когипонимов. Обратим внимание, что переформулирование запроса осуществляется путем добавления новых значений из списка когипонимов, гипонимов или гиперонима.

ЗАКЛЮЧЕНИЕ

В работе представлен подход к созданию лингвистических технологий, основанный на активном использовании лексического значения. Преимущества этого подхода заключаются в возможностях повысить избирательность лингвистических технологий. В системах машинного перевода это означает исключение целого класса ошибок при переводе, в системах классификации – более высокое качество классификации, в поисковых системах – повышение пертинентности.

Сформулированы основные задачи разрешения ЛЗ и базовые постулаты ЛЗ-технологий. Выявлены оппозиции в указанных технологических направлениях: пакетные – интерактивные методы, явное – неявное использование ЛЗ.

Отмечено, что современные методы разрешения лексической многозначности не дают 100-процентной гарантии, что накладывает определенные ограничения на использование ЛЗ-технологий. Можно сказать, что наиболее продуктивным методом применения ЛЗ-технологий является области массовой обработки текстов, допускающие определенный процент ошибки. В работе приведены примеры таких разработок. В области классификации примером служит технология Rubryx. В области поисковых систем ЛЗ-технология активно применяются в проекте «Интеллектуальная поисковая машина».

Литература


Home << Публикации CogLab'а << Публикации <<