|
| |||||||||||
ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ, ОРИЕНТИРОВАННЫХ НА ЛЕКСИЧЕСКОЕ ЗНАЧЕНИЕ, В ЗАДАЧАХ ПОИСКА И КЛАССИФИКАЦИИИЯ РАН статья находится в печати и будет опубликована в сборнике ИЯ РАН АннотацияВ работе представлен подход к созданию лингвистических технологий, основанный на активном использовании лексического значения (ЛЗ). Сформулированы базовые постулаты предлагаемых технологий. Показаны преимущества и ограничения такого подхода. Выявлены оппозиции в указанных технологических направлениях: пакетные – интерактивные методы, явное – неявное использование ЛЗ. Преимущества проиллюстрированы примерами на задачах поиска и классификации текстовой информации. ВВЕДЕНИЕНаучные проблемы, связанные с лексическим значением, давно находятся в поле зрения современной теоретической и прикладной лингвистики. Последние достижения компьютерных, (а если брать шире, — информационных) технологий, позволили по-новому взглянуть на эти проблемы не только в прикладном, но и в теоретическом аспекте. В статье обсуждаются некоторые результаты и ближайшие перспективы исследований и разработок на этом направлении. Прежде, чем излагать базовые посылки, лежащие в основе компьютерных лингвистических технологий, ориентированных на значение (далее — ЛЗ-технологий), необходимо определить, что мы понимаем под лексическим значением, и провести краткий обзор значительных достижений отечественной и зарубежной лингвистики, полученных в этой области. В БСЭ [5] приводится следующее определение: Значение лексическое, та часть семантического состава слова, которая в противоположность грамматическому значению целых классов и категорий слов присуща лишь данной лексической единице. Лексическое содержание большинства полнозначных лексем неоднородно и представляет собой смысловую структуру, иерархическую соподчинённость отдельных значений или, под иным углом зрения, лексико-семантических вариантов слова. Это свойство организации лексической семантики называется полисемией, или семантическим варьированием слова. В зависимости от характера предметной и понятийной отнесённости слова значения могут быть прямыми и переносными, в зависимости от степени контекстуальной обусловленности — свободными, фразеологически связанными, конструктивно обусловленными. Структурные, семантические и функциональные аспекты слова изучает лексикологическая теория [1-4, 6, 7, 9, 11, 13, 14, 16, 17, 28-30, 32]. Для фиксации известных значений слов традиционно используется такая лексикографическая форма, как толковый словарь. В этом направлении за два прошедших века (XIX-XX в.в.) в России (и в СССР) была проделана колоссальная работа, которая позволила сохранить и зафиксировать как диахронную так и синхронную семантику русской лексики [8, 21, 26, 27, 31]. Можно отметить прочные лексикографические традиции и в других развитых в научном отношении странах (США, Англия, Германия). В качестве альтернативы бумажным словарям в проекте WordNet были предложены и апробированы компьютерные методы фиксации значений, основанные на экспликации семантических связей между словами средствами информационных технологий (базы данных и знаний) [49, 50]. Дву- и многоязычные словари (бумажные и компьютерные) содержат сопоставительное описание лексических значений. В качестве примера плодотворного сотрудничества в области традиционной и компьютерной отечественной лексикографии можно привести словарь НБАРС и его компьютерный аналог Мультилекс [20]). Проблема разрешения лексической многозначности является одной из самых сложных прикладных задач, связанных с лексическим значением. Задача автоматического (реже полуавтоматического) разрешения лексической многозначности была впервые сформулирована в рамках направления науки и технологии, связанного с созданием систем машинного перевода (МП). В дальнейшем проблема разрешения лексической многозначности стала одной из ключевых не только при создании систем МП, но и систем обработки естественно-языкового текста (ОЕЯТ) других назначений (поиск, классификация). Десятки научных коллективов и коммерческих организаций во всем мире занимаются этой проблемой. На регулярной основе проводятся соревнования между действующими компьютерными программными системами, предназначенными для этих целей [45, 46]. Однако, несмотря на предложенные решения (см. например [18, 34-48, 51-54, 58-61]), полного решения проблема пока не получила. К примеру, общий механизм, предложенный Ю.Н. Марчуком (метод детерминант) — эффективный, но слишком трудоемкий метод, так как предполагает необходимость формирования индивидуальных правил для каждой лексемы. В тоже время для некоторых задач ОЕЯТ этап распознавания лексического значения очень важен. Рассмотрим это на примере трех компьютерных технологий, связанных с ОЕЯТ: машинный перевод, поиск текстовых ресурсов в Интернете, классификация текстов. Отсутствие надежных механизмов распознавания значения сводит «на нет» все усилия по реализации систем машинного перевода. На сегодняшний день это критическая проблема повышения качества систем для указанного направления компьютерной лингвистики 1. В области поисковых технологий в Интернет проблема многозначности не носит критического характера, так как сравнительно низкое качество поиска часто сглаживается большими объемами информации в сети Интернет. Тем не менее, по оценкам специалистов, поиск с использованием разрешения многозначности способен привести к повышению релевантности поиска (в среднем с 30 до 70 %), повысить таргетинг рекламы, тем самым резко повысив доходность поисковых систем, снизить общий траффик в сети и время на поиск конкретной информации. В задачах классификации текстов влияние многозначности проявляется в том, что при выборе в качестве базового признака классификации единичную лексему, вы сталкиваетесь с ее многозначностью, что понижает точность классификации текстов. Эти и другие аргументы говорят о необходимости для специалистов по прикладной лингвистике сосредоточиться на лингвистических технологиях, ориентированных на лексическое значение, так как даже частичное решение этой проблемы способно обеспечить прорыв сразу по нескольким направлениям. Статья посвящена описанию указанных оригинальных технологий и включает примеры их применения для задач классификации текстов и поиска. Преимущества новых технологий, ориентированных на лексическое значение, демонстрируются на примерах проекта «Интеллектуальная поисковая машина» [22, 23] и программы классификации текстов Rubryx [25, 55]. Кроме того, в статье описываются перспективы использования предложенных технологических решений в целях разработки новых инструментальных средств для лингвистических исследований. 1. ХАРАКТЕРНЫЕ ЧЕРТЫ НОВОГО ПОДХОДА К РАЗРЕШЕНИЮ МНОГОЗНАЧНОСТИХочется сразу подчеркнуть прикладной, инженерный характер описываемого подхода к разрешению лексической многозначности. Это означает, в частности, не только исследование природы многозначности, но и разработку моделей, механизмов и процедур, способных помочь в ее разрешении или сгладить ее влияние. Разумеется, дополнительным эффектом от этих работ может стать и новая научная информация о феноменологии многозначности. Другая особенность этого подхода заключается в том, что на задачу заранее накладываются разумные ограничения, позволяющие добиться положительного результата за счет сокращения необходимых компьютерных и людских ресурсов. В частности это позволяет сократить такие ресурсы, как:
Кроме того, введение разумных ограничений позволяет добиться положительного результата хотя и на локальном, но важном для решаемой задачи направлении. Приведем примеры таких ограничений. Пример 1.Для задач поиска и тематической классификации текстов оказывается достаточным разрешать лексическую многозначность только имен существительных, что объясняется следующими факторами:
Пример 2.Даже использование такого сильного ограничения, как в примере 1, еще не позволяет говорить о возможности полного разрешения многозначности всех имен существительных в случаях, когда корпус индексируемых текстов насчитывает миллионы единиц. Это связано с тем, что задача разрешения многозначности для каждого отдельного слова в тексте сложна и требует применения многофакторного анализа. При большом количестве текстов (а значит и слов) решение задачи может оказаться неприемлемым с комбинаторной точки зрения. Последнее обстоятельство заставляет проводить предварительный частотный анализ слов в тексте, для выявления слова-темы. Предварительный частотный анализ запросов к поисковой машине также позволяет расставить приоритеты по тем многозначным словам, которые наиболее часто являются элементами поискового образа. Пример 3.Практика показывает, что для задачи поиска при многословном запросе достаточно интерактивно разрешить многозначность всего по одному существительному (мы называем его ядром запроса), так как остальные слова будут находиться уже в контексте с данным лексическим значением, и в силу этого будут иметь фиксированным свое лексическое значение. Отметим, что в этом примере речь идет о фокусировке запроса, т.е интерактивном методе разрешения многозначности. Пример 4.Известно, что при разрешении многозначности существует ряд самостоятельных задач. В частности, можно выделить наиболее крупные, «классические» задачи:
Решение этой задачи не носит критического характера, так как поиск по метафорическому использованию слов осуществляется крайне редко. Однако для снижения уровня шума было бы полезным отфильтровать метафорические использования терминов (если только речь не идет о сухих метафорах типа «дворник» в автомобиле, железнодорожная «ветка» и т.д.) В целом, зачастую в задачах поиска достаточно решить задачу 1 и 5 для того, чтобы заметно повысить пертинентность4 результатов поиска. Пример 5.Для задачи машинного перевода эффективным решением является ограничение предметной области перевода. Это обстоятельство хорошо известно специалистам. Пример 6.Важным фактором является характер ограничений, накладываемых на точность используемых методов. В задачах машинного перевода, конечно же, требуется максимальная точность решения задачи многозначности для всех слов в тексте. Напротив, в задачах поиска и классификации допускается некоторая погрешность, а точнее неопределенность лексических значений для какой-то доли слов в тексте. Это связано с тем, что поиск в сети Интернет, как правило, осуществляется по огромным массивам электронных текстов. Результатом поиска могут оказаться тысячи, а то и десятки тысяч документов. В таких условиях допускается определенный процент неполноты поиска, связанный с неопределенностью лексического значения. Неполнота обработки компенсируется большими объемами обрабатываемых текстов5. Продолжим краткое описание основных характеристик предлагаемого подхода. В основе разрабатываемых технологий лежит практика инженерного освоения результатов многолетних лингвистических исследований. Это проявляется в двух аспектах. Во-первых, мы проповедуем идею максимального сочетания четырех известных подходов в прикладной лингвистике. Таким образом, в рамках предлагаемых технологий не противопоставляются, а объединяются тексто-центрический, лексико-центрический, словарно-центрический и смысло-центрический подходы [18]. Связано это с тем обстоятельством, что один отдельно взятый метод не может дать стопроцентного результата при решении задачи разрешения многозначности, или оказывается слишком трудоемким в массовом применении. Это заставляет комбинировать различные подходы в стремлении добиться максимально надежного и полного результата. Кроме того, на различных этапах обработки текста используются различные подходы6. Во-вторых, в разработке ставится акцент на процедурную семантику, связанную с обработкой значения, в то время как в большинстве исследований главным вопросом было описание различных аспектов многозначности как таковой (омонимии, полисемии, синонимии, метафоричности, деривации и т.д.), без выяснения процедурной природы использования или учета этого явления. В этом смысле, каждый метод — это совокупность лингвистических и экстралингвистических знаний, которым пока уделяется сравнительно мало внимания в традиционной лингвистике. Лингвистические ресурсы (словари и корпусы текстов) в данном случае выступают исходными данными, своеобразным «технологическим сырьем». 2. БАЗОВЫЕ ПОСЫЛКИТрадиционным для лингвистики способом описания лингвистического значения является толковый словарь, в котором для каждого значения слова приводится толкование (интерпретация) и примеры (cм. [8, 21, 26, 27, 31]). Другим способом толкования, используемым в рамках лексической семантики, является пропозиция (См. [1, 19]). Пропозиция является более формальным способом, чем тестовое толкование. Следующим шагом по пути формализации описания лексического значения является предикативная форма, используемая в логико-ориентированных моделях. Этот последний способ (предикативный) уже нельзя считать полностью лингвистическим, и он скорее относится к области интеллектуальных технологий (см. например [56, 57]). Однако существуют и другие способы постулирования значений. Так, например, в проекте WordNet в качестве интенсионала значения используются так называемые «синсеты» (synsets), которые представляют собой множества синонимов, объединенных конкретным значением слова7. Вообще в проекте WordNet достаточно много новаций, связанных с постулированием, маркированием и описанием лексических значений. Очень эффективным способом описания лексического значения, примененным в проекте WordNet, на наш взгляд, является непосредственное отнесение слова к определенному онтологическому классу. Этот же метод (в сочетании с толкованием) применен в Семантическом словаре русского языка под редакцией Н.Ю. Шведовой [33]. В целом можно сказать (и это отмечено в [50]), что определение лексического значения через толкование (так же как и через другие перечисленные способы) является неполным, и носит в основном не энциклопедический, а индексирующий характер. То есть определение значения в словаре является лишь ссылкой, призванной вызвать в нашей памяти систему ассоциаций. В этом смысле проекты типа WordNet являются компьютерными моделями, призванными сымитировать когнитивно-психологические принципы функционирования значения в памяти человека и перенести эти принципы в компьютерную среду. Кроме того, известно, что существуют определенные закономерности деривации значений [15]. В работе [10] приведен обзор современных взглядов на теорию лексического значения. Итак, перечислим основные посылки ЛЗ-технологий:
3. МЕТОДЫ РАЗРЕШЕНИЯ МНОГОЗНАЧНОСТИВ этом разделе мы перечислим и кратко охарактеризуем основные методы пакетного11 разрешения многозначности, предполагая, что их полное описание появится в последующих публикациях. Интерактивные методы фокусировки запросов будут рассмотрены подробно ниже в разделе 5. Предлагаемые методы по виду анализируемой информации делятся на четыре типа:
В процессе разрешения многозначности исходной информацией является само слово, его контекст, вспомогательная информация из лингвистической базы данных. На выходе мы должны получить ссылку на значение в базе данных или ссылку на гипероним (онтологический класс). В качестве контекста может выступать словосочетание, полное предложение, фрагмент текста, размер которого зависит от используемого метода, или текст целиком. Морфологические методы
Аналогично методам п.п. 11-12, только основываются не на тексте толкования, а на текстах примеров из словарной статьи. Приведенный спектр методов ориентирован в первую очередь на работу с именами существительными. При этом, разумеется, мы устанавливаем приоритеты значимости результатов, полученных различными методами, не говоря уже о том, что цена применения каждого метода будет различной. Далее приведены примеры использования технологий, ориентированных на лексическое значение, в задачах компьютерной лингвистики. 4. ТЕХНОЛОГИЯ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ RUBRYXПроблему классификации текстов можно сформулировать следующим образом:
При поиске эффективного решения этой проблемы мы исходили из следующих посылок:
В результате поиска и экспериментов было найдено оптимальное, на наш взгляд, научное и инженерное решение поставленной проблемы. Была создана программа классификации текстов Rubryx, которая отличается следующими технологическими решениями:
Таким образом при использовании технологии Rubryx существенно сокращается объем ручной работы16. Как показали эксперименты использование словосочетаний значительно повышает надежность классификации даже на небольших документах. Этот эффект объясняется практически отсутствием многозначности у словосочетаний. Технология Rubryx хорошо проявила себя на текстах научно-технического характера. Программа распространяется как продукт с бесплатным испытальным сроком (shareware) и доступна в Интернете по адресу: www.sowsoft.com/rubryx/index.htm В настоящий момент рассматривается вопрос использования этой технологии для классификации текстов других жанров, в том числе с учетом не только отраслевой, но и стилевой специфики. 5. ИНТЕРАКТИВНЫЕ МЕТОДЫ ПРЕОБРАЗОВАНИЯ ЗАПРОСОВ В ПРОЕКТЕ «ИНТЕЛЛЕКТУАЛЬНАЯ ПОИСКОВАЯ МАШИНА»В проекте «Интеллектуальная поисковая машина» [22] при поиске происходит группировка обнаруженных ресурсов по значению слова. Для выявления этих значений планируется использовать «пакетные» методы, описанные в разделе 3. Кроме этого, в проекте предложен ряд интерактивных механизмов преобразования запросов. По своему назначению интерактивные методы преобразования запросов можно разделить на три категории:
5.1. Фокусировка запросаВ ИПМ предусмотрено несколько механизмов разрешения лексической многозначности путем диалоговой фокусировки запроса. Наряду с отсортированным по значению списком результатов пользователь на свой запрос получает список словосочетаний, образованных ядерной лексемой и список тематических кластеров, в которые входит ядерная лексема. Выбирая то или иное словосочетание, пользователь из-за контекстной связи слов в словосочетании уменьшает или даже разрешает лексическую многозначность ядерного слова, тем самым ограничивая область поиска. Пример: Для слова «аттестат» ИПМ формирует следующий список устойчивых словосочетаний: аттестат зрелости, аттестат профессора, квалификационный аттестат, продовольственный аттестат. Аналогичным образом работает и кластерный механизм. Кластер представляет собой список слов наиболее часто встречающихся совместно в текстах определенной тематики. Ограничив темой направленность поиска, пользователь неизбежно ограничивает количество возможных толкований ядерной лексемы. Обычно тематическому кластеру можно поставить в соответствие название некоторой предметной области. Пример: Для слова «аттестат» в БД ИПМ было обнаружено две предметные области: военная служба, коневодство. В качестве альтернативы названию предметной области можно использовать непосредственно часть списка слов, входящих в кластер, таким образом вызывая интуитивные ассоциации у пользователя. Пример: Для одного из значений слова «аттестат» можно предложить такой список: аттестат, сбруя, ипподром, жокей, порода … После решения проблемы лексической многозначности встает другая, не менее острая проблема. Она заключается в том что, обращаясь к поисковой машине, зачастую пользователь жаждет получить конкретную, специфическую информацию по интересующей его тематике. Поисковая машина же возвращает весь объем имеющейся у нее информации на заданную тему, сортируя ее не всегда лучшим образом. Из-за этого желаемая информация может оказаться на второстепенных страницах результатов поиска. Эта проблема называется коммуникативной многозначностью запроса. Проблема коммуникативной многозначности запроса в отличие от проблемы лексической многозначности сравнительно мало изучена и сам термин коммуникативная многозначность запроса был введен впервые в рамках проекта ИПМ. ИПМ содержит интерактивные механизмы разрешения коммуникативной многознач-ности запроса, позволяя пользователю уточнить свой запрос с помощью списка коммуникативных кластеров и списка целевых вопросов. Список коммуникативных кластеров представляет собой перечисление видов деятельности, связанных с найденными документами. Каждому виду деятельности соответствует кластер ключевых лексем, наличие которых позволяет отнести к данной области выбранный текст. Список целевых вопросов состоит из уточняющих вопросов, на которые можно найти ответ в обнаруженных документах. Как правило, вопросы формируются путем анализа синтаксических и семантических предикативных структур, актантами которых выступают существительные. Пример: Предположим, что пользователь ввел запрос по слову «борт» и выбрал из списка значение: 6.Кристаллы и агрегаты алмаза низкого качества, непригодные для огранки. Используются как абразивные материалы. Для семантической категории «сырье», к которой относится это значение, в системе хранятся следующие коммуникативные кластеры: бизнес, наука, образование, производство, работа. Также пользователю предоставляется список вопросов, позволяющих уточнить цель, для которой ищется информация: Где добывается? Как обработать? Где продается? Какие цены? Таким образом, достигается еще большее сужение круга документов, оставшихся после разрешения лексической многозначности. Разрешение коммуникативной многозначности полезно, если предмет поиска рассматривается в Интернет с разных точек зрения. Оба метода позволяют еще больше поднять релевантность выводимых данных. Ещё одним способом фокусировки является фрагмент онтологического дерева, с помощью которого пользователь может сузить свой запрос. 5.2. РасширениеПричиной выполнения действий по расширению полноты запроса обычно является малое количество обнаруженных ресурсов. В ИПМ эта граница задается пользователем. Как правило, неполнота или небольшое количество ресурсов связаны либо с очень узкой формулировкой запроса, либо с редкой, специфичной предметной областью запроса. В ИПМ есть четыре основных способа расширения полноты запроса. Это список словообразований, список синонимов, список аббревиатур и фрагмент онтологического дерева. Механизм расширения, основанный на словообразовании предоставляет пользователю список из однокоренных с ключевым слов. На основании этого списка пользователь может переформулировать свой запрос или выбрать одно из однокоренных слов и попробовать осуществить поиск по нему. Вместе со списком однокоренных слов пользователю также предоставляется список синонимов ключевого слова. Он может выбрать все или наиболее подходящий из списка и продолжить поиск в соответствии со своим выбором. Список аббревиатур во многом напоминает по своему действию список синонимов. Пример: Для ключевого слова борт в значении «в сочетаниях «на борт», «на борту», «с борта» — о самом судне, а также о летательном аппарате» в качестве списка словообразовательных морфоформ будет предложен следующий вариант: бортинженер, бортмеханик, бортрасширитель, бортпроводник, бортпроводница, бортрадист, бортсеть; в качестве списка синонимов будет предложен список из одного слова: «судно». Механизм онтологий основывается на использовании онтологических деревьев и сводится к предоставлению пользователю списка слов, находящихся в тесной семантической связи с ключевым словом запроса. Его действие будет рассмотрено ниже. Также в качестве средств расширения полноты поиска могут выступать рассмотренные ранее средства фокусировки: список словосочетаний и список тематических кластеров. Это достигается возможностью множественного выбора словосочетаний, кластеров, вопросов и т. д. 5.3. ПереформулированиеВ процессе использования ПС возникают ситуации, когда пользователь некорректно формулирует запрос, не подозревая об этом. Часто эта ситуация приводит к отсутствию результатов поиска. Причиной необходимости переформулирования запроса может быть орфографическая ошибка, раскладка клавиатуры или использование пользователем иностранного языка, слабые навыки в поисковых технологиях, сложный характер предметной области или запроса. В этом случае пользователю требуется помощь «компьютерного интеллекта». Такие возможности, как орфокоррекция и транскрибирование уже стали средствами стандартного арсенала поисковых технологий, поэтому мы не будем на них подробно останавливаться. Несколько особняком стоит видоизменение логической формулы, например смена И-запроса на ИЛИ-запрос (или наоборот). В зависимости от направления этого изменения такое переформулирование может служить как средством расширения поиска, так и средством фокусировки. В сложных запросах с использованием синтаксических средств языка запросов пользователь может допустить ошибку, которую ему поможет исправить блок переформулирования запросов, предлагая альтернативные варианты формулировок. 5.4. Лексические онтологииОнтологии в системе представляют самостоятельный механизм, который можно использовать самым разнообразным способом: для фокусирования/дефокусирования или переформулирования запросов специфическим для онтологий способом. В проекте ИПМ используются так называемые лексические онтологии. Лексические онтологии — это лексико-семантические структуры, в которых установлены семантические связи между словами и словосочетаниями. При этом отличительной чертой онтологий, является то, что узлами этой сети являются не сами слова (лексемы), а их семантические значения. Кроме того в нашей системе каждой связи приписывается определенный тип. Самым распространенным типом семантической связи в онтологиях является родо-видовая связь. Общее количество типов связей насчитывает свыше 60 типов. Как показали первые опыты работы с онтологиями, настройка допустимых связей в онтологиях также может служить средством фокусировки или таргетинга. В настоящее время в систему проконвертировано свыше 50 тыс. онтологических связей. Для того, чтобы лучше понять особенности этой разновидности лексико-семантических структур, необходимо рассмотреть их в сравнении с такими, ставшими уже традиционными механизмами обработки текстов для поиска и классификации, как рубрикаторы и тезаурусы. В последних также устанавливаются связи, однако связи эти маркируются между словами и словосочетаниями, а не между значениями. Иногда в тезаурусах предусмотрено использование понятия «тип связи», но разновидность типов связей, как правило, сильно ограничена. В рубрикаторах доминирующим типом связи является связь «область-подобласть», в силу того, что рубрики маркируют предметные области. Кроме того, в рубрикаторах по рубрикам классифицируются не слова, а сами тексты, в то время как в онтологической системе связи осуществляются на уровне значений слов, входящих в тексты. В системе формируется три фрагмента онтологического дерева для ядерного слова в запросе:
Рассмотрим на примере запроса по слову топливо, как работает механизм фокусировки/дефокусировки запроса с помощью фрагмента онтологического дерева. Пример: Система формирует список гипонимов для исходного значения Топливо-> (кокс, мазут, дрова, газ) Далее пользователь имеет возможности:
В примере рассматривался случай перехода по онтологическому дереву от гиперонима к гипониму, примерно также работает переход от гипонима к гиперониму или списку когипонимов. Обратим внимание, что переформулирование запроса осуществляется путем добавления новых значений из списка когипонимов, гипонимов или гиперонима. ЗАКЛЮЧЕНИЕВ работе представлен подход к созданию лингвистических технологий, основанный на активном использовании лексического значения. Преимущества этого подхода заключаются в возможностях повысить избирательность лингвистических технологий. В системах машинного перевода это означает исключение целого класса ошибок при переводе, в системах классификации – более высокое качество классификации, в поисковых системах – повышение пертинентности. Сформулированы основные задачи разрешения ЛЗ и базовые постулаты ЛЗ-технологий. Выявлены оппозиции в указанных технологических направлениях: пакетные – интерактивные методы, явное – неявное использование ЛЗ. Отмечено, что современные методы разрешения лексической многозначности не дают 100-процентной гарантии, что накладывает определенные ограничения на использование ЛЗ-технологий. Можно сказать, что наиболее продуктивным методом применения ЛЗ-технологий является области массовой обработки текстов, допускающие определенный процент ошибки. В работе приведены примеры таких разработок. В области классификации примером служит технология Rubryx. В области поисковых систем ЛЗ-технология активно применяются в проекте «Интеллектуальная поисковая машина». Литература | ||||||||||||