1.6.Автоматически составленные (машинные) двуязычные словари: методология составления и применение
С 1990 годов начинаются многочисленные исследования, посвящённые автоматическому извлечению переводных эквивалентов из параллельных корпусов.
Полученные словари обозначали как machine-readable dictionaries (MRD) или bilingual lexicons. Однако, поначалу такие словари использовались в системах машинного перевода (см. выше) или в качестве вспомогательных источников для лексикографов. Подобные ресурсы обычно содержат только информацию о возможных переводных эквивалентах, вероятности перевода (или просто частоте конкретного перевода в корпусе); иногда входные слова и словосочетания снабжаются морфологической информацией.
В противоположность традиционным бумажным словарям, которым присущи «универсальность, всеобъемлемость и мультиприложимость» [Марчук 1976: 2], машинный словарь строго ориентирован на заданную совокупность текстов. Отбор материала для машинного словаря происходит на протяжении всего времени его функционирования в системе автоматической обработки текстов. Принципы формирования словника машинных словарей основываются в большей степени на точных методах, и в меньшей – на логико-интуитивных методах, которыми руководствуются разработчики традиционных словарей. Можно сказать, что традиционный бумажный словарь представляет собой статическое описание, существующее в диахронии, тогда как машинный словарь – динамическое описание, существующее в строгой синхронии.
Развитие интернет-технологий, увеличение объёма доступных параллельных корпусов текстов сделали возможным построение машинных словарей, сопоставимых по размеру с традиционными бумажными или электронными словарями. Кроме того, существует большое количество инструментов автоматической обработки текста, которые позволяют преобразовать информацию из машинного словаря, предназначенного, например, для системы машинного перевода, в электронный словарь, ориентированный на пользователя.
Как уже было сказано, технология извлечения переводных эквивалентов из корпуса разрабатывается довольно давно, и одним из наиболее значимых результатов многолетних исследований явился класс разнообразных методов фильтрации шумных переводов из фразовых таблиц. Таким образом, главной задачей при создании автоматических переводных словарей является включение в них вспомогательной информации: группировка переводов в синонимические ряды, иллюстрация особенностей употребления, грамматические и стилистические пометы.
Первая задача – группировка переводов из фразовой таблицы – несмотря на кажущуюся очевидность её трактовки, имеет лишь несколько известных прикладных решений. В [Bansal 2012] описывается реализация алгоритма группировки переводных эквивалентов, основанная на кластеризации методом K-средних. В качестве факторов кластеризации используются информация об обратном переводе и контекстные представления переводных эквивалентов. Полученные «кластеры смыслов» сравниваются со смыслами из WordNet. Небольшая часть статьи посвящена иллюстрации различных вариантов перевода, оказавшихся в одной группе.
Другой возможный подход описан в [Antonova, Misyurev 2014]: группировка смыслов опирается на предварительно собранный словарь синонимов. Этот словарь генерируется автоматически на основании дистрибутивной векторной модели [см. также Antonova и др. 2016] и сходстве переводов слова. В этой статье [Antonova, Misyurev 2014] описывается создание машинного словаря сервиса Яндекс.Переводчик (http://translate.yandex.ru), который будет использован в практической части данной работы. Рассмотрим на этом примере технологию создания машинного словаря в общем виде. Автоматическое построение переводного словаря предполагает следующие этапы:
Предобработка параллельного корпуса (извлечение фразовой таблицы, морфосинтаксический анализ, лемматизация, фильтрация «шумных» переводных эквивалентов).
Объединение переводных эквивалентов для каждого слова в ряды синонимов.
Добавление грамматических помет.
Генерация обратных переводов, то есть синонимов входного слова. В данном случае этот этап производится на основании полученных прямых переводов.
Иллюстрация каждой группы переводов примерами употребления из параллельного корпуса.
В результате формируется словарная статья, пример который представлен на рис. 4.
Рисунок . Пример словарной статьи из машинного словаря сервиса Яндекс.Переводчик.
Качество параллельного корпуса представляет определённую проблему в развитии автоматической переводной лексикографии. Поэтому в некоторых работах по автоматическому построению двуязычных словарей в качестве параллельных корпусов используются специфические источники. Так, в [Tyers, Pienaar 2008] описывается метод создания словаря на основе заголовков статей Википедии, которым авторы предлагают пользоваться в частности для языков, для которых нет корпусов достаточного объёма – так называемых under-resourced languages.
Последним направлением, активно развивающимся в последнее десятилетие, является построение переводного словаря по данным сопоставимого (comparable) корпуса. С одной стороны, задача оказывается более актуальной, поскольку для многих пар языков параллельные корпуса доступны в ограниченном объёме (если вообще доступны). С другой стороны, извлечение переводных эквивалентов из похожих корпусов требует более сложных методов. Все эти методы используют начальный словарь, состоящий из небольшого набора переводных эквивалентов для заданной языковой пары, а затем осуществляется поиск «похожих» слов входного языка и их переводов в сопоставимом корпусе. Часто применяются графовые модели: в [Sadat и др. 2002; Laws и др. 2010; Yu, Tsujii 2009; Fung 2000; Chatterjee и др. 2010] используется сходство синтаксических деревьев для предложений на разных языках, при условии, что имеется исходный словарь небольшого размера. Возможны разные подходы в зависимости от используемой метрики сходства, способа построения контекстных векторов и так далее. Авторы [Tamura и др. 2012] предлагают улучшения для методов, основанных на сходстве, которое заключается в использовании непрямых отношений между словами (когда вершины графа связаны более чем через одно ребро). Для близких языков предлагаются методы, которые используют не специальный начальный словарь, а, например, слова, общие для обоих языков [Fiser, Ljubesic 2011]. В [Ismail, Manandhar 2010] сначала извлекаются наиболее близкие и относящиеся к одной теме слова, для которых перевод будет наиболее надёжным. Улучшение словаря также может достигаться за счёт добавления параллельного корпуса [Morin, Prochasson 2011] или использования методов разрешения лексической неоднозначности [Bouamor 2013]. Отдельные работы посвящаются проблеме состава начального словаря [Hazem, Morin 2012].
|