Скачать 6.4 Mb.
|
Н.В. Лукашевич Тезаурусы в задачах информационного поиска Москва 2010 Лукашевич Наталья Валентинова Тезаурусы в задачах информационного поиска – М., 2010. – 396 с., ил. Оглавление Введение 12 Часть 1. Тезаурусы 20 Глава 1. Информационно-поисковые тезаурусы 23 1.1. Единицы информационно-поисковых тезаурусов 24 1.1.1. Дескрипторы информационно-поискового тезауруса 24 1.1.2. Критерии ввода многословных дескрипторов 26 1.1.3. Аскрипторы 27 1.2. Отношения в информационно-поисковых тезаурусах 28 1.2.1. Иерархические отношения 29 1.2.1.1. Отношение Выше-Ниже 29 1.2.1.2. Отношение Часть-Целое 30 1.2.1.3. Обобщенные отношения ВЫШЕ-НИЖЕ 31 1.2.2. Отношения ассоциации 32 1.3. Основные принципы разработки тезаурусов 34 1.4. Конкретные тезаурусы 35 1.4.1. Тезаурус Европейского союза EUROVOC 35 1.4.2. Тезаурус исследовательской службы Конгресса США 36 1.4.3. Тезаурус ООН UNBIS 36 1.4.4. Тезаурус по архитектуре и искусству (Art and Architecture Thesaurus) 36 1.4.5. Тезаурус в области медицины MeSH 38 1.5. Правила индексирования документов дескрипторами информационно-поискового тезауруса 39 1.6. Информационно-поисковые тезаурусы в приложениях автоматической обработки документов 42 1.6.1. Автоматическое индексирование по информационно-поисковым тезаурусам 43 1.6.2. Проблема вариантности терминов и автоматическое индексирование 43 1.6.3. Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов 45 1.7. Почему традиционный информационно-поисковый тезаурус сложно использовать как ресурс для автоматической обработки текстов в задачах информационного поиска 46 1.7.1. Нехватка информации о языке предметной области 46 1.7.2. Использование отношений между дескрипторами в автоматическом режиме 47 1.8. Тезаурусы и рубрикаторы в информационно-поисковых системах 50 Заключение к главе 1 51 Глава 2. Тезаурус английского языка WordNet 52 2.1. WordNet: основные принципы 52 2.2. Существительные в WordNet 53 2.3. Описание прилагательных в WordNet 54 2.4. Описание глаголов в WordNet 57 2.5. Исследования конкретных проблем представления лексической информации в WordNet и последующие модификации тезауруса 58 2.5.1. Отсутствие отношений между частями речи 59 2.5.2. Слишком много значений в WordNet 59 2.5.2.1. Отношения между значениями одного и того же слова 60 2.5.2.2. Подходы к кластеризации значений WordNet 60 2.5.3. Проблемы описания отношений между синсетами существительных 63 2.5.3.1. «Теннисная проблема» 63 2.5.3.2. Проблемы родовидовых отношений WordNet 65 Заключение к главе 2 67 Глава 3. EuroWordNet и тезаурусы типа WordNet для разных языков 68 3.1. Общие принципы организации EuroWordNet 68 3.2. Отношения в EuroWordNet 69 3.2.1. Атрибуты дизъюнктивности/конъюктивности 69 3.2.2. Отношения между разными частями речи 70 3.2.3. Новые отношения 71 3.2.4. Описание предметных областей (domains) 71 3.2.5. Межъязыковой индекс ILI 72 3.3. Ворднеты для других языков 72 3.3.1. Немецкий ворднет GermaNet 72 3.3.2. Датский ворднет DanNet 73 3.3.3 Компьютерный тезаурус русского языка RussNet 75 3.3.4. Ворднет итальянского языка MultiWordNet 76 3.3.5. Проект Meaning 76 3.3.6. Словосочетания в WordNet и ворднетах других языков 77 3.3.7. Общеупотребительная лексика и терминология предметных областей в тезаурусах типа WordNet 79 3.4. Сравнение модели представления знаний в информационно-поисковых тезаурусах и тезаурусах типа WordNet 79 Заключение к главе 3 80 Часть 2. Формальные и лингвистические онтологии 81 Глава 4. Онтологии как ресурсы для представления знаний о мире 83 4.1. Определения онтологии 83 4.2. Виды онтологий 84 4.3. Два основных подхода к построению онтологий 86 4.4. Принцип независимости онтологии от естественного языка. Лингвистические онтологии 88 4.5. Онтологии и автоматическая обработка текстов 89 4.5.1. Онтология Microkosmos 90 4.5.2. FrameNet 92 4.5.3. От информационно-поисковых тезаурусов к формальным онтологиям 93 Заключение к главе 4 96 Глава 5. Единицы онтологии: понятия 97 5.1. Понятия как единицы мышления и понятия в онтологиях 97 5.2. Критерии для ввода нового понятия 99 5.3. Понятие и значение в лингвистических онтологиях 100 5.3.1 Разбиение на понятия совокупности значений квазисинонимов 100 5.3.2. Выделение разных понятий для отражения близких значений одного и того же слова 102 5.4. Смешение понятия и его имени в Принстонском WordNet и других ворднетах 103 5.5. Квазисинонимы в Принстонском WordNet 105 5.6. Понятие и значение в онтологии MicroKosmos 106 5.6.1 Отражение значений квазисинонимов 106 5.6.2. Описание близких значений многозначных слов в онтологии MikroKosmos 106 5.6. Понятия и значения в ресурсе FrameNet 107 5.7. Понятия и значения в информационно-поисковых тезаурусах 109 Заключение к главе 5 110 Глава 6. Установление отношений в онтологиях. Отношение класс-подкласс 111 6.1. Проблемы установления отношения «класс-подкласс» 111 6.2. Возможные критерии проверки правильности установления родовидовых отношений 112 6.3. Смешение типов и ролей 113 6.4. Смешение отношений класс-подкласс и класс-экземпляр 114 6.5. Смешение родовидовых отношений и отношений часть-целое 115 6.6. Смешение родовидовых отношений и отношений происхождения 116 6.7. Смешение описания сущности и знака 116 Заключение к главе 6 116 Глава 7. Описание ролей в компьютерных ресурсах 118 7.1. Концепция роли в онтологических исследованиях 118 7.2. Критерии распознавания ролей 119 7.3. Типы понятий-ролей 120 7.4. Роли как части контекста 121 7.5. Представление ролей в компьютерных ресурсах 123 7.6. Роли в тезаурусах 124 Заключение к главе 7 125 Глава 8. Отношения часть-целое 126 8.1. Определение отношения ЧАСТЬ-ЦЕЛОЕ в философии и лингвистике 126 8.2. Разнообразие отношений ЧАСТЬ-ЦЕЛОЕ 127 8.3. Классификация отношений ЧАСТЬ-ЦЕЛОЕ 128 8.4. Проблема транзитивности отношения ЧАСТЬ-ЦЕЛОЕ 129 8.5. Вертикальные» отношения между частью и целым 130 8.6. Отношение ЧАСТЬ-ЦЕЛОЕ в компьютерных ресурсах и подходах 131 8.6.1. Отношение ЧАСТЬ-ЦЕЛОЕ в объектно-ориентированных моделях 131 8.6.2. Отношения ЧАСТЬ-ЦЕЛОЕ в информационно-поисковых тезаурусах и WordNet 132 8.6.3. Отношение ЧАСТЬ-ЦЕЛОЕ в онтологиях верхнего уровня 134 Заключение к главе 8 135 Глава 9. Отношения онтологической зависимости 136 9.1. Определение и свойства отношения онтологической зависимости 136 9.2. Виды отношения онтологической зависимости 137 9.3. Онтологическая зависимость в онтологиях верхнего уровня 139 9.4. Нетаксономические отношения информационно-поискового тезауруса и отношение онтологической зависимости 140 9.5. Анализ отношения ассоциации в традиционных информационно-поисковых тезаурусах: тезаурус EUROVOC 142 Заключение к главе 9 145 Часть 3. Применение тезаурусов в конкретных приложениях информационного поиска 147 Глава 10. Автоматическое разрешение многозначности 148 10.1. Тестирование разрешения многозначности на конференции Senseval 148 10.1.1. Задание «Набор многозначных слов» 149 10.1.2. Задание «все слова текста» 150 10.2. Подходы к разрешению лексической многозначности на основе тезаурусных знаний 151 Заключение к главе 10. 154 Глава 11. Тезаурусы в информационном поиске 155 11.1. Модели информационного поиска 155 11.1.1. Булевская модель 155 11.1.2. Векторная модель информационного поиска 156 11.1.3. Вероятностные модели информационного поиска 157 11.1.4. Языковые статистические модели (language modelling) 158 11.2. Оценка качества информационного поиска 159 11.3. Тезаурусы типа WordNet в информационном поиске 161 11.3.1. Эксперименты по использованию тезауруса WordNet в векторной модели информационного поиска 162 11.3.2. Эксперименты по семантическому индексированию на базе европейских ворднетов 164 11.3.3. Исследования влияния качества разрешения лексической многозначности на информационный поиск 165 11.3.4. Эксперимент по встраиванию тезауруса WordNet в вероятностную модель информационного поиска 167 11.3.5. Эксперимент по использованию WordNet в рамках языковой модели информационного поиска 168 11.3.6. Расширение по WordNet на основе параметра «ясности» слова запроса 170 Заключение к главе 11. 171 Глава 12. Тезаурусы в вопросно-ответных системах 172 12.1. Основные этапы обработки вопросов в вопросно-ответных системах 172 12.2. Роль лексических ресурсов в работе вопросно-ответных систем 173 12.2.1. WordNet в вопросно-ответной системе Южного Методистского университета США 173 12.3. Предметные области вопросно-ответных систем 176 12.4. Поиск ответов на вопрос в вопросно-ответных сервисах 178 Заключение к главе 12 178 Глава 13. Тезаурусы в системах автоматической рубрикации текстов 180 13.1. Методы автоматической рубрикации и оценка их качества 180 13.2. Результаты автоматического рубрицирования на исследовательских коллекциях 182 13.2.1. Исследование методов рубрикации на коллекции Reuters-21578 182 13.2.2. Исследование методов рубрикации на коллекции РОМИП 183 13.3. Проблемы методов классификации текстов 183 13.3.1. Проблемы ручного рубрицирования 183 13.3.2. Проблемы методов машинного обучения 184 13.3.3. Проблемы автоматического рубрицирования с использованием экспертного описания рубрик 185 13.4. Системы автоматического рубрицирования при работе с реальными коллекциями 186 13.4.1. Выводы семинара по Операционным системы классификации 186 13.4.2. Организация рубрицирования в Reuters 188 13.5. Использование тезаурусов в автоматической рубрикации текстов 189 Заключение к главе 13. 190 Глава 14. Моделирование связности текста 191 14.1. Типы связности в связном тексте и их моделирование 191 14.1.1. Тематическая структура и тематическая связность текста 191 14.1.2. Риторическая структура и риторическая связность текста 193 14.1.3. Когезия как структурная связность текста 195 14.2. Моделирование лексической связности на основе тезаурусов 196 14.2.1. Подход Hirst and St Onge 197 14.2.2. Алгоритм Stairmand 199 14.2.3. Алгоритм Barzilay and Elhadad 200 14.2.4. Лексические цепочки: использование частотных ассоциаций 202 14.2.5. Лексические цепочки: использование информационно-поисковых тезаурусов 203 14.2.3. Лексические цепочки в задачах автоматической обработки текстов. Автоматическое аннотирование 204 14.2.3.1. Виды и методы автоматического аннотирования документов 204 14.2.3.2. Оценка качества аннотаций 205 14.2.3.3. Использование лексических цепочек для порождения аннотаций 205 Заключение к главе 14 208 Часть 4. Тезаурус РуТез 209 Глава 15. Тезаурус РуТез 210 15.1. Основные принципы разработки лингвистических ресурсов для приложений информационного поиска 212 15.2. Тезаурус РуТез: Общая структура 212 15.3. Соотношение лексики и терминологии. Общественно-политическая область 212 15.3.1. Разделение лексики и терминологии 215 15.3.2. Степень терминологичности понятия 216 15.3.3. Промежуточный слой между лексикой и терминологией 218 15.3.4. Общественно-политическая область 221 Заключение к главе 15. 222 Глава 16. Единицы тезауруса: понятия и их текстовые входы 223 16.1. Понятия vs. синсеты как единицы тезауруса 223 16.2. Имя понятия и толкование 224 16.3. Ввод понятий для группы близких по смыслу слов 225 16.4. Ввод понятий для группы близких значений одного слова 229 16.4.1. Принципы разделения значений в тезаурусе РуТез 229 16.4.3. Описание отношений между значениями многозначного слова в онтологии для автоматической обработки текстов 231 16.5. Словосочетания как источники понятий в лингвистической онтологии 233 16.5.1. Принципы, предлагаемые для отбора словосочетаний для включения в словари систем автоматической обработки текстов 235 16.5.2. Ввод понятий тезауруса РуТез на основе значений многословных выражений 236 16.5.2.1. Существует и важно 236 16.5.2.2. Словосочетание имеет «интересные» синонимы 237 16.5.2.3. Отношения, которые не следуют из структуры словосочетания 237 16.5.2.4. Достройка уровней тезауруса 237 16.5.2.5. Словосочетание однозначно, а его компоненты многозначны 238 16.5.2.6. Ввод понятия на основе сочинительной конструкции 238 16.5.2.7. Перестановка слов ведет к разным понятиям 239 16.6. Языковые выражения как текстовые входы понятий 239 16.6.1. Типы онтологических синонимов 240 16.6.2. Формирование синонимического ряда понятия 242 16.6.3. Словосочетания, синонимичные отдельным словам 243 16.6.4. Описание многозначности языковых единиц в тезаурусе РуТез 245 Заключение к главе 16 246 Глава 17. Отношения между понятиями в тезаурусе РуТез 248 17.1. Принципы описания отношений 249 17.2. Описание родовидовых отношений в тезаурусе РуТез 250 17.2.1. Принципы описания родовидовых отношений 250 17.2.2. Принципы описания ролевых отношений в Тезаурусе русского языка РуТез 250 17.3. Отношение ЧАСТЬ-ЦЕЛОЕ 253 17.3.1. Принципы описания отношения 253 17.3.2. Транзитивность отношения 256 17.3.3. Как описать отношение ЧАСТЬ-ЦЕЛОЕ, если часть не является зависимой 257 17.3.4. Сложные случаи описания отношений ЧАСТЬ-ЦЕЛОЕ 258 17.4. Отношение онтологической зависимости в тезаурусе РуТез 258 17.4.1. Влияние типа отношения онтологической зависимости на качество информационного поиска при расширении запроса 259 17.4.2. Критерии установления отношения онтологической зависимости в тезаурусе РуТез 261 17.4.3. Свойства несимметричной ассоциации 262 17.5. Симметричные ассоциации в тезаурусе РуТез 262 17.6. Модификаторы отношений: нарушение условий надежности 263 17.7. Примеры описания отношений 264 17.7.1. Типовые примеры описания отношений 264 17.7.2. Описание отношений между ролевыми понятиями и понятиями контекста 266 17.8. Тезаурус РуТез как структура 268 Заключение к главе 17 269 Заключение к части 4 270 Часть 5. Тезаурус РуТез в компьютерных приложениях 272 Глава 18. Построение тезаурусного индекса, автоматическое разрешение лексической многозначности 273 18.1. Построение тезаурусного индекса и тезаурусной проекции 273 18.2. Автоматическое разрешение многозначности 275 18.2.1. Метод глобального подтверждения 275 18.2.2. Метод взвешивания подтверждения от локального и глобального контекстов 277 18.2.2.1. Учет локального и глобального контекста 277 18.2.2.2. Семантическая близость понятий как функция от особенностей пути отношений между ними 278 18.2.2.3. Числовая оценка семантической близости 279 18.2.2.4. Этапы алгоритма 280 18.3. Организация тестирования алгоритмов разрешения многозначности 281 18.3.1. Тестирование алгоритмов разрешения многозначности на основе Общественно-политического тезауруса 282 18.3.2. Тестирование алгоритма разрешения многозначности на запросах из правовой области 283 18.3.3. Тестирование алгоритма разрешения многозначности по Тезаурусу РуТез 283 Заключение к главе 18 284 Глава 19. Общественно-политический тезаурус как средство построения тематического представления текста 285 19.1. Проблемы автоматического построения лексических цепочек 285 19.1.1. Субъективность выделения лексических цепочек 285 19.1.2. Построение лексических цепочек с учетом ситуативных отношений 286 19.2. Автоматическое построение тематического представления текста 288 19.2.1. Лексические цепочки и тематическая структура текста 288 19.2.2. Примеры разбора лексических цепочек с учетом тематической структуры текста 290 19.2.3. Автоматическое построение тематических узлов 292 19.2.3.1. Алгоритм построения тематических узлов 293 19.2.4. Определение статуса тематического узла 296 19.2.5. Порождение тематических узлов на основе мультиграфа 298 19.2.6. Тестирование качества построения тематических узлов 298 Заключение к главе 19 299 Глава 20. Информационный поиск с учетом тезаурусных знаний 300 20.1. Концептуальный индекс, веса понятий и отношений 300 20.2. Общественно-политический тезаурус как поисковое средство в Университетской информационной системе РОССИЯ 301 20.3. Тестирование эффективности информационного поиска на основе Тезауруса 305 20.4. Тезаурус и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП 307 20.5. Использование комбинированных моделей для поиска документов по запросам типа «формулировка проблемы» в правовой области 309 20.5.1. Особенность задачи 309 20.5.2. Алгоритм Феноменологическая модель 311 20.5.2.1. Обработка исходной формулировки вопроса 311 20.5.2.2. Построение формулы описания формулировки запроса 312 20.5.2.3. Применение феноменологической модели 314 Заключение к главе 20 315 Глава 21. Общественно-политический тезаурус как ресурс для автоматической рубрикации текстов 316 21.1. Технология автоматического рубрицирования 316 21.2. Описание смысла рубрики понятиями тезауруса 316 21.3. Автоматическое рубрицирование на тематическом представлении 318 21.4. Использование информеров при решении задач классификации 319 21.5. Эксперимент по автоматической рубрикации текстов в рамках семинара РОМИП 2007 321 21.6. Тезаурус как база для методов машинного обучения в рубрикации. Метод ПФА 323 Заключение к главе 21. 324 Глава 22. Общественно-политический тезаурус и автоматическое аннотирование 325 22.1. Автоматическое аннотирование одного текста на основе тематического представления 325 22.2. Построение структурной тематической аннотации текста 328 22.3. Построение аннотации для новостного кластера на основе тематического представления текстов кластера 328 22.3.1. Построение тематического представления для новостного кластера 328 22.3.2. Метод построение аннотации новостного кластера по тематическому представлению кластера 330 22.3.3. Тестирование предложенной модели аннотации новостного кластера 334 22.3.3. Оценка качества аннотаций новостных кластеров 335 22.3.3.1. Тестирование аннотаций новостных кластеров методом ROUGE 336 22.3.3.2. Тестирование аннотаций новостных кластеров Методом Пирамид 337 22.3.3.3. Оценка связности аннотаций новостных кластеров 338 Заключение к главе 22 338 Часть 6. Развитие тезауруса РуТез и ресурсы, основанные на тезаурусе РуТез 340 Глава 23. Развитие и пополнение тезауруса РуТез 341 23.1. Этапы развития тезауруса РуТез 341 23.2. Первичное наполнение Общественно-политического тезауруса 342 23.3. Пополнение тезауруса в результате работы в компьютерных приложениях 344 23.4. Пополнение тезауруса на основе анализа списка русскоязычных лемм 345 23.5. Пополнение Общественно-политического тезауруса за счет проникновения в профессиональные области 345 23.6. Тезаурус РуТез: Создание двуязычной онтологии 345 Заключение к главе 23 350 Глава 24. Онтология по естественным наукам и технологиям 351 24.1. Проблемы разработки онтологии в сфере естественных наук 351 24.2. Этапы создания онтологии ОЕНТ 352 24.2.1. Автоматический набор терминологии по текстам 352 24.2.2. Автоматизированное формирование первой версии онтологии 353 24.2.3. Методология работы экспертов 354 24.3. Текущее состояние проекта 354 24.4. Изменения в описаниях понятий, полученных из Тезауруса РуТез 356 24.4.1. Удаление текстовых входов понятия 357 24.4.2. Замена отношений между понятиями онтологии-прототипа на более длинные цепочки отношений 357 24.4.3. Несоответствие наивной, бытовой картины мира и научной картины мира 358 24.4.4. Смена антропоцентрической картины мира на естественнонаучную картину мира 358 24.4.5. Пример 359 24.4.6. Будущее развитие Онтологии ОЕНТ 362 Заключение к главе 24 363 Заключение 364 Литература 367 |
Тезаурусы в задачах информационного поиска Правила индексирования документов дескрипторами информационно-поискового тезауруса 39 |
Тезисы представленные на Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!! |
||
Инструкция по заполнению документов на регистрацию информационного ресурса Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных... |
Лекция №11 В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю... |
||
Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная... |
Инструкция по сверке Планов финансово-хозяйственной деятельности В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится... |
||
Алгоритмы поиска. Линейный поиск. Двоичный поиск Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума |
Рабочая инструкция по настройке представлений в hp sm Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления.... |
||
Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений... |
Общая характеристика информационного ресурса Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир... |
||
Отчёт о результатах деятельности отдела загс администрации Лужского... Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах... |
Инструкция по поиску и спасанию в зоне авиационно-космического поиска... Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс) |
||
Универсальный телевизионный пульт дистанционного управления «умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена... |
Инструкция по работе с программным комплексом единого информационного ресурса При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,... |
||
Регламент информационного взаимодействия Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:... |
Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке... Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации... |
Поиск |