Скачать 0.5 Mb.
|
Краткое содержание разделовРаздел 1. Основные понятия корпусной лингвистики Тема 1. Основные понятия и определения. Тема 2. Лингвистические (языковые) и нелингвистические корпусы. Раздел 2. История создания лингвистических корпусов Тема 3. История лингвистических корпусов: от картотеки к корпусу. Тема 4. Корпусная лингвистика: современное состояние. Тема 5. Корпусная лингвистика в России. Раздел 3. Типология корпусов Тема 6. Классификация (типология) корпусов по различным основаниям. Тема 7. Типы корпусов по задачам. Тема 8. Типы корпусов по формальным признакам. 2.3.2. Примерные вопросы для самоконтроля Дать определения терминов: Корпус Разметка Репрезентативность Метаданные Корпусный менеджер Treebank Лемматизация Конкорданс Параллельный корпус Перечислить типы корпусов Назвать и охарактеризовать наиболее известные корпусы. 2.3.3. Примерная тематика докладов, рефератов, курсовых работ Способы использования корпусов в лингвистических исследованиях. Исследование способов использования корпусов в лексикографии. Изучение средств обработки корпусных данных, представленных на языке XML. Создание электронной хрестоматии по корпусной лингвистике. Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат). Создание веб-сайта по корпусной лингвистике. 2.3.4. Примерный перечень вопросов к экзамену (зачету) История лингвистических корпусов: от картотеки к корпусу. Классификация (типология) корпусов. Корпусная лингвистика: современное состояние. Корпусная лингвистика в России. Обзор существующих корпусов различных типов. Корпус как поисковая система. Корпусоподобные интерфейсы между лингвистом и поисковыми системами Интернета. Лингвистические исследования, базирующиеся на корпусах. 2.3.5. Распределение часов курса по темам и видам работы
2.3.6. Форма текущего, промежуточного и итогового контроля В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — зачет. 2.3.7. Учебно-методическое обеспечение курса Основная литератураАндрющенко В.М. Концепция и архитектура машинного фонда русского языка / Отв. ред. А.П. Ершов. М., 1989. Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., 2001. С.112–137. Вербицкая Л.А., Казанский Н.Н., Касевич В.Б. Некоторые проблемы создания национального корпуса русского языка // Научно-техническая информация. Сер. 2. 2003. № 6. С. 2–8. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. Научно-техническая информация. Сер. 2. 2005. № 3. Научно-техническая информация. Сер. 2. 2003. № 6. Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан. Вып. 3. Тверь, 1999. С. 89–96 // См. также http://rykov-cl.narod.ru/t.html. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005». Труды Международной научной конференции «Корпусная лингвистика 2004» / Под ред. А.С. Герда. СПб., 2004. Чардин И.С. Лингвистические корпуса с синтаксической разметкой и их применение // Научно-техническая информация. Сер. 2. 2003. № 6. С. 18–24. Дополнительная литератураEnglish Corpus Linguistics: Studies in Honour of Jan Svartvik / Aijmer K., Altenberg B. (eds.). London, 1991. Čermák F. Today's Corpus Linguistics: Some Open Questions // International Journal of Corpus Linguistics. 2002. Vol. 7, N 2. P. 265–282. Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Atkins B.T.S., Zampolli A. (eds.). Computational Approaches to the Lexicon. 1994. Kennedy G. An Introduction to Corpus Linguistics. London, 1998. Leech G. The State of Art in Corpus Linguistics // English Corpus Linguistics / Aijmer K., Altenberg B. (eds.). London, 1991. P. 8–29. McEnery A., Wilson A. Corpus Linguistics. Edinburgh, 1996. Francis N. W. Language Corpora B.C. // Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4.–6. August 1991. / Svartvik J. (ed.). P. 17–32. Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005. Quirck R. On Corpus Principles and Design // Directions in Corpus Linguistics. Berlin; New York, 1992. P. 461–462. Sinclair J. M. The Automatic Analysis of Corpora // Directions in Corpus Linguistics. Berlin, 1992. Svartvik, J. (ed.). Directions in Corpus Linguistics, Berlin. 1992. Zakharov V. Russian Corpus of the 19th Century // Text, Speech and Dialogue: Proceedings of the 6th International Conference TSD 2003, České Budějovice, Czech Republic, September 2003 / Václav Matoušek, Pavel Mautner (eds.). Berlin; Heidelberg, 2003. P. 146–151. (Lecture Notes in Artificial Intelligence, 2807). 2.4. Часть 2. Создание корпусов 2.4.1. Разделы:
Краткое содержание разделов Раздел 1. Предварительные работы по созданию корпусаТема 1. Проблемы репрезентативности. Тема 2. Отбор источников. Внешние и внутренние критерии отбора. Тема 3. Нормализация файлов. Тема 4. Графематический анализ. Раздел 2. Разметка. Средства создания и разметки корпусовТема 5. Понятие разметки. Тема 6. Типы разметки. Тема 7. Автоматический морфологический и синтаксический анализ. Тема 8. Металингвистическая разметка. Тема 9. Параллельные корпусы. Проблема выравнивания. Раздел 3. Стандартизация в корпусной лингвистикеТема 10. Языковые средства представления размеченных текстов. Тема 10. Международные стандарты и проекты (TEI, EAGLES, CDIF, XCES). 2.4.2. Примерные вопросы для самоконтроля Дать определения терминов: Разметка Репрезентативность Метаданные Корпусный менеджер Treebank Лемматизация Параллельный корпус Перечислить типы корпусов 2.4.3. Примерная тематика докладов, рефератов, курсовых работ Графематический анализ текстов. Унификация текстов внутри корпуса 19 века. Автоматическая морфологическая разметка текстов 19 века. Исследование набора метаданных для корпуса 19 века. База данных «Морфологический словарь языка 19 века». Создание параллельного англо-русского корпуса. Создание параллельного русско-чешского корпуса. Создание параллельного русско-словацкого корпуса. Методы снятия морфологической неоднозначности. Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат). Анализ функций сегментных внеалфавитных графем («межморфемный» дефис, «межслоговой» дефис, «межсловный» дефис, апостроф). Проблема строчных и прописных букв в корпусах текстов (имена собственные и нарицательные, сплошная и начальная капитализация). Проблема омографии – акцентно-ориентированный морфологический анализ. Разработка модуля преобразования каллиграфем (жирность, курсивность, подчёркивание) в тэги языка XML. Анализ функций точки (и других знаков препинания) с точки зрения структурной разметки текста. Методы выделения структурных элементов текста (часть, глава, параграф, абзац). Составные лексемы. Методы снятия морфологической неоднозначности. Методы выделения структурных элементов текста (часть, глава, параграф, абзац). Составные лексемы. Проект TEI (обзор). Стандарты EAGLES (обзор). Форматы CDIF и XCES. 2.4.4. Примерный перечень вопросов к экзамену (зачету) Проблемы репрезентативности корпусов. Проблемы хронологии в общеязыковых корпусах. Отбор текстов для корпусов. Графематический анализ. Понятие разметки. Типы разметки. Морфологическая разметка. Синтаксические корпуса (treebanks). Семантическая разметка. Технология создания корпусов. Стадии работы. Понятие корпусоида. Автоматическая морфоразметка. Автоматический синтаксический анализ (parsing). Языковые средства представления размеченных текстов (языки SGML, XML). Международные стандарты (TEI, EAGLES, CDIF, XCES). 2.4.5. Распределение часов курса по темам и видам работы
2.4.6. Форма текущего, промежуточного и итогового контроля В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — зачет. 2.4.7. Учебно-методическое обеспечение курса Основная литератураБогуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, 2000. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36. Научно-техническая информация. Сер. 2. 2005. № 3, 6. 2003. № 6. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005». Труды Международной научной конференции «Корпусная лингвистика – 2004» / Под ред. А.С. Герда. СПб., 2004. Шаров С.А. Параметры описания текстов корпуса. // http://bokrcorpora. narod.ru/header.html. Шаров С.А. Формат выходного представления корпуса текстов. // http:// bokrcorpora.narod.ru/format.html. Дополнительная литератураAtkins S., Clear J., Ostler N. Corpus Design Criteria // Literary and Linguistic Computing. 1992. Vol. 7, N. 1. P. 1–16. Biber D. Representativeness in Corpus Design // Literary and Linguistic Computing. 1993. Vol. 8, N. 4. P. 243–258. Brill E. A Simple Rule-Based Part-of-Speech Tagger // Proceedings of the Third Conference on Applied Natural Language Processing (ANLF-92), Trento, Italy. 1992. Burnard L. A Gentle Introduction to SGML. TEI P2. 1993. Burnard L. A Gentle Introduction to XML. 1993 // http://www.tei-c.org/ Guidelines2/gentleintro.html. Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–235; См. также http://www-tei.uic.edu/orgs/tei/. Lee D. Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path through the BNC Jungle // Language Learning & Technology. September 2001. Vol. 5, N. 3, P. 37–72; См. также http://llt.msu.edu/vol5num3/pdf/lee.pdf Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing. 1993. Vol. 8. N. 4. P.275–281. Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005. Sharoff S. Towards Basic Categories for Describing Properties of Texts in a Corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal // http://www.comp.leeds.ac.uk/ ssharoff/texts/lrec-04.pdf. Sinclair J. Preliminary Recommendations on Text Typology. EAGLES Do-cument EAG-TCWG-TTYP/P, 1996 // http://www.ilc.cnr.it/EAGLES96/ texttyp/texttyp.html. TEI P4: Guidelines for Electronic Text Encoding and Interchange. 2001 / Sperberg-McQueen C. M., Burnard L. (eds.) // http://www.hcu.ox.ac.uk/ TEI/P4X/index.html. UCREL: Corpus Annotation // http://www.comp.lancs.ac.uk/ucrel/annotation.htm XML Corpus Encoding Standard Document XCES 0.2. // http://www.cs.vassar.edu/XCES/ Zakharov V., Volkov S. Evaluating Morphological Tagging of Russian texts of the XIXth Century // Text, Speech and Dialogue: Proceedings of the 7th International Conference TSD 2004, Brno, Czech Republic, September 2004 / Petr Sojka, Ivan Kopeček, Karel Pala (eds.). Berlin; Heidelberg, 2004. P. 235–242. (Lecture Notes in Artificial Intelligence, 3206). 2.5. Часть 3. Использование корпусов 2.5.1. Разделы:
Краткое содержание тем Раздел 1. Обзор существующих корпусов различных типовТема 1. Зарубежные национальные корпусы. Тема 2. Корпусы русского языка. Тема 3. Специальные корпусы. Раздел 2. Корпусные менеджерыТема 4. Корпус как поисковая система. Тема 5. Языки запросов. Тема 6. Выходные интерфейсы. Тема 8. Сравнительный анализ. Раздел 3. Корпусные исследованияТема 9. Лексические исследования, базирующиеся на корпусах. Тема 10. Грамматические исследования, базирующиеся на корпусах. Тема 11. Семантические исследования, базирующиеся на корпусах. Тема 12. Использование корпусов в социологии, исторической науке и др. 2.5.2. Примерные вопросы для самоконтроля Когда был создан BNC? Когда был создан CNK? Как назывался первый корпус русского языка? Каков был объем первого корпуса русского языка? Корпусы каких писателей существуют? Корпусы каких писателей доступны через Интернет? Что такое язык регулярных выражений? Что такое меры MI и T-score? 2.5.3. Примерная тематика докладов, рефератов, курсовых работ Анализ и описание различных корпусов. Анализ и описание корпусного менеджера Xaira. Анализ и описание корпусного менеджера Bonito. Анализ и описание корпусного менеджера QPL. Анализ и описание интерфейса WebCorp. Сравнительный анализ возможностей корпусов и поисковых систем Интернета. Использование корпусов в социологии. Использование корпусов в этнолингвистике. 2.5.4. Примерный перечень вопросов к экзамену (зачету) Британский национальный корпус. Чешский национальный корпус. Польский национальный корпус. Национальный корпус русского языка. Мангеймский корпус немецкого языка. Русско-английский корпус С. Шарова. Корпус языка А.С. Грибоедова. Корпус русского языка 19 века. Языки запросов корпусных менеджеров: общая характеристика. Языки запросов конкретных корпусных менеджеров. Выходные интерфейсы корпусных менеджеров: общая характеристика. Выходные интерфейсы конкретных корпусных менеджеров. Типы лексических исследований, базирующихся на корпусах. Типы грамматических исследований, базирующихся на корпусах. Семантическое наполнение Национального корпуса русского языка. Использование корпусов в других науках. Статистические меры вычисления совместной встречаемости. Веб как корпус. 2.5.5. Распределение часов курса по темам и видам работы
2.5.6. Форма текущего, промежуточного и итогового контроля В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса – экзамен. 2.5.7. Учебно-методическое обеспечение курса Основная литератураВенцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С. 25–32. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. Захаров В.П. Чешский национальный корпус текстов: организация и способы использования // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. С. 72–79. Копотев М.В. Корпусная лингвистика в Финляндии (обзор ресурсов) // Научно-техническая информация. Сер. 2. 2003. № 6. С. 37–41. Научно-техническая информация. Сер. 2. 2003. № 6, 10. 2005. № 3. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005». Труды Международной научной конференции «Корпусная лингвистика – 2004» / Под ред. А.С. Герда. СПб., 2004. Шаров, С.А. Представительный корпус русского языка в контексте мирового опыта // НТИ. Сер. 2. 2003. № 6. С. 9–17. Дополнительная литератураAarts Jan. Комментарий к статье «A New Corpus of English» (Sidney Greenbaum) // Directions in Corpus Linguistics. Berlin, 1992. Adam.Kilgarriff. Web as Corpus// http://www.itri.bton.ac.uk/ ~Adam.Kilgarriff/wac_cfp.html. Ball Catherine N. Tutorial: Concordances and Corpora // http://www.georgetown.edu/cball/corpora/tutorial.html. BNC: The BNC Users Reference Guide, 2000. http://www.natcorp.ox.ac.uk/World/HTML/. Český Národní Korpus – Úvod a Příručka Uživatele / Kocek J., Kopřivová M., Kučera K. (eds.). Praha, 2000. Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Computational Approaches to the Lexicon / Atkins B.T.S., Zampolli A. (eds.). 1994. Gellerstam Martin. Modern Swedish Text Corpora // Directions in Corpus Linguistics. Berlin, 1992. P. 151–159. Oakes M.P. Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh, 1998. Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005. Sinclair J. Corpus, Concordance, Collocation, Oxford University Press, 1991. Приложение 1 Корпусы в сети Интернет Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Linguists (http://devoted.to/corpora), веб-страницы М. Барбера (Manuel Barbera) (http://www.bmanuel.org/index.html) или М. Барлоу (Michael Barlow) (http://www.athel.com/corpus.html), сайт Language and Speech Resources (http://www.elsnet.org/resources.html) и др.
Рис. 1. Запросная форма НКРЯ для поиска по морфологическим признакам. Слово 1: слово nom&pl расстояние между словами: 1 Слово 2: слово ------------------------------------------------------------------------------------------------------ Область поиска: основной корпус (со снятой и неснятой омонимией) Найдено документов: 59, контекстов: 69 1. ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01 [омонимия не снята] Все контексты(1) Слова, слова, слова... [ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01] 2. Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26 [омонимия не снята] Все контексты(1) Потом уже были слова, слова, слова... [Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26] 3. Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08 [омонимия не снята] Все контексты(1) Что это: слова словами, а команда пока не дана? [Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08] ………………………………………………………………….. Страницы: ← 1 2 3 4 5 6 → Поиск осуществлен системой Яndex.Server При цитировании примеров просим ссылаться на Национальный корпус русского языка Рис. 2. Образец выдачи в НКРЯ 1. Поиск словоупотреблений слова holubí (голубиный). (...) (...) 2. Поиск словосочетания «holubí vejce» (голубиное яйцо) в любой форме и в любом написании (строчные и прописные) [lemma="holubí"] [lemma="vejce"] (...) (...) 3. Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S) [tag="ACYS.*"] (...) (...) Рис. 3. Образец выдачи в Чешском национальном корпусе. |
Образовательная программа: «Прикладная и экспериментальная лингвистика»... Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования |
Образовательная программа: «Прикладная и экспериментальная лингвистика»... Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8 |
||
Программа дисциплины «Литература стран изучаемого языка» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по направлению... |
Учебно-методический комплекс дисциплина: квантитативная лингвистика... Программа дисциплины «квантитативная лингвистика и новые информационные технологии» 4 |
||
Паспорт программы дисциплины Область применения программы рабочая... Лингвистика профиль (45. 03. 02. 02 Перевод и переводоведение) в соответствии с фгос впо по направлению подготовки 45. 03. 02 лингвистика... |
Программа практики (производственной) по направлению 031100. 62 «Лингвистика» Программа практики (производственной), для студентов, обучающихся по направлению 031100. 62 «Лингвистика». М.: Ноу впо мгта, 2012.... |
||
Программа дисциплины Теоретическая и прикладная лексикография для... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и бакалавров направления подготовки 035800.... |
Захаров А. И. "Дневные и ночные страхи у детей". Спб.: Издательство "Союз", 2004 Источник: Захаров А. И. "Дневные и ночные страхи у детей". Спб.: Издательство "Союз", 2004 |
||
Инструкция по пользованию. Цветная Корпусная видеокамера «День/Ночь» Внимательно изучите инструкцию по применению и эксплуатации камеры и сохраните её для дальнейшего использования |
Захаров Валерий Михайлович Почтовый адрес: 662200, Красноярский край, г. Назарово, Микрорайон Березовая роща, д. 31 |
||
Протокол Н., Матвеев П. М., Малолеткова И. С., Инжутов И. С., Козинов Г. Л., Шайдуров Г. Я.,Шилов Н. С.,Баранов А. М., Антонов Н. М., Шиманский... |
Программа научно-исследовательской практики (2 курс) Направление... |
||
Образовательная программа "Прикладная лингвистика" Современные тенденции изменения датской произносительной нормы на примере гласного «шва» |
Iv корпусная Научная практическая конференция «Первые шаги в науку... В результате средние дозы облучения человека достигают удвоенного естественного фона. Поэтому в современных условиях недопустимо... |
||
Основная образовательная программа магистратуры по направлению подготовки... Федеральное государственное бюджетное образовательное учреждение высшего образования |
Основная образовательная программа бакалавриата по направлению подготовки... Федеральное государственное бюджетное образовательное учреждение высшего образования |
Поиск |