Правительство Российской Федерации
Нижегородский филиал
Федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Кафедра иностранных языков
Рабочая программа дисциплины
«Корпусная лингвистика и компьютерные инструменты»
(Corpus Linguistics and Computer Tools)
для образовательной программы «Фундаментальная и прикладная лингвистика»
направления подготовки 45.03.03 «Фундаментальная и прикладная лингвистика»
уровень бакалавр
Разработчик программы:
Малафеев А.Ю., к.филол.н., aumalafeev@hse.ru
Одобрена на заседании кафедры
«___»____________ 2015 г.
Зав. кафедрой В.М. Бухаров____________
Рекомендована Академическим советом образовательной программы
«___»_______________ 2015 г., № протокола____
Утверждена «___»____________ 2015 г.
Академический руководитель образовательной программы
А.Ю.Малафеев _________________
Нижний Новгород
2015
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы
The course Corpus Linguistics and Computer Tools is aimed at imparting to students knowledge of modern computer tools and resources used in research in the fields of corpus, applied and computational linguistics, as well as teaching students to apply these tools and resources to linguistic problems. The computer tools covered in this course include: concordancers, corpus managers, corpus-building (and bootstrapping) tools, lemmatizers, stemmers, morphological analyzers, part-of-speech taggers, syntactic and semantic taggers, regular expressions, as well as the text-processing capabilities of the Python programming language. The course involves conducted individual and group research and presenting the results to the class.
1. Introduction to corpus linguistics
Basic concepts of corpus linguistics. Text and corpus. Corpus linguistics as a discipline. Types and properties of corpora. Web as a corpus. The use of corpora. The value of corpora. Corpora and computational linguistics. Markup. Concordance, concordancer. Criticism of corpus linguistics.
2. History and typology of English-language corpora
Periods of corpora history. First machine-readable corpora. The Brown Corpus. Syntactic treebanks. The Penn Treebank. The British National Corpus. The International Corpus of English. The Corpus of Contemporary American English. TenTen Corpora. The Google Books Ngram Corpus. Semantic treebanks. FrameNet. Groningen Meaning Bank.
3. Building corpora
Corpus design. Stages of corpus compilation. Text processing: tokenization, lemmatization, stemming, parsing. Tagging. Copyright. Standardization. Bootstrapping.
4. Computer tools review. Using corpora
Zipf’s law. Visualization of syntax trees with phpSyntaxTree. Web interfaces to corpora (COCA, RNC). Regular expressions. AntConc. Sketch Engine. Games with a purpose. BootCaT.
Prerequisites: knowledge of linguistics, basic programming skills (Python).
Author: Alexey Malafeev, Foreign Languages Department, Associate Professor.
Exam type: oral.
1.Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45.03.03 «Фундаментальная и прикладная лингвистика», изучающих дисциплину «Корпусная лингвистика и компьютерные инструменты».
Программа разработана в соответствии с:
образовательным стандартом НИУ ВШЭ для направления 45.03.03 «Фундаментальная и прикладная лингвистика»;
образовательной программой «Фундаментальная и прикладная лингвистика» направления подготовки 45.03.03 «Фундаментальная и прикладная лингвистика»;
учебным планом университета по направлению подготовки направления 45.03.03 «Фундаментальная и прикладная лингвистика», утвержденным в 2013 г.
2.Цели освоения дисциплины
Целями освоения дисциплины «Корпусная лингвистика и компьютерные инструменты» являются ознакомление с историей и основными проблемами современной корпусной лингвистики, а также приобретение практических навыков работы с корпусами и связанными с ними компьютерными инструментами (конкордансеры, корпусные менеджеры, программы для автоматического создания корпусов и др.). Дисциплина преподается на английском языке, поэтому дополнительная цель ее изучения – развитие навыков профессионального общения на английском языке.
3.Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
Знать ключевые понятия и актуальные проблемы корпусной лингвистики, вехи ее развития, основные типы корпусов, наиболее известные и широко применяемые иноязычные и русскоязычные корпусы, способы использования корпусов для различных целей (исследовательских и практических), методику создания корпусов, основные форматы и способы организации корпусов.
Уметь определять тип и способы применения незнакомых корпусов, осваивать новые компьютерные инструменты, в частности, (веб-)интерфейсы к корпусам на основе уже имеющихся знаний и навыков, интерпретировать данные, полученные из корпусов, сравнивать и оценивать функциональность корпусов и инструментов по результатам работы с ними.
Иметь навыки (приобрести опыт) работы с несколькими существующими иноязычными и русскоязычными корпусами и корпусными менеджерами, формулирования сложных лингвистических запросов с использованием специальных обозначений (тэгов) и регулярных выражений, разметки текстов и чтения разметки, выполнения корпусных мини-исследований, проектирования собственного корпуса, создания небольших специализированных корпусов.
В результате освоения дисциплины студент осваивает следующие компетенции:
Компетенция
|
Код по ОС НИУ ВШЭ
|
Дескрипторы – основные признаки освоения (показатели достижения результата)
|
Формы и методы обучения, способствующие формированию и развитию компетенции
|
Профессиональные компетенции:
Способен создавать и редактировать тексты профессионального назначения.
Способен свободно вести профессиональное письменное и устное общение на первом иностранном языке.
Владеет современными компьютерными инструментами лингвистического исследования.
Владеет принципами создания представительных текстовых массивов, корпусов текстов, корпусов звучащей речи, мультимодальных корпусов, лингвистических и социолингвистических баз данных и умением пользоваться этими ресурсами.
|
ПК-5
ПК-6
ПК-8
ПК-15
|
Успешно готовит и проводит презентации мини-исследований.
Формулирует и отвечает на вопросы по тематике дисциплины на английском языке.
Использует современное лингвистическое программное обеспечение.
Выполняет проекты, целью которых является создание собственных корпусов.
|
Семинары, самостоятельная работа, групповая работа, проектная деятельность
Лекции, семинары, групповые дискуссии
Семинары, самостоятельная работа, групповая работа, проектная деятельность
Проектная деятельность, самостоятельная работа.
|
Общекультурные компетенции:
Стремится к саморазвитию, повышению своей квалификации и мастерства.
Способен работать с информацией в глобальных компьютерных сетях.
|
ОК-6
ОК-13
|
Обосновывает для себя необходимость изучения и практики в области корпусной лингвистики для профессионального и личностного развития.
Получает информацию, необходимую для выполнения заданий и проектов, из сети Интернет.
|
Лекции, семинары, групповые дискуссии
Проекты, самостоятельная работа
|
4.Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к математическому и естественнонаучному циклу для направления 45.03.03 «Фундаментальная и прикладная лингвистика». Дисциплина изучается на третьем курсе, в 1 и 2 модулях.
Изучение данной дисциплины базируется на следующих дисциплинах: «Введение в лингвистику», «Теория языка». При практической работе на семинарах студенты используют навыки, полученные в рамках освоения дисциплины «Программирование для лингвистов».
Основные положения дисциплины должны быть использованы в дальнейшем при изучении дисциплин «Автоматическая обработка естественного языка (преподается на английском языке)», «Современные лингвистические теории (преподается на английском языке)», «Методика текстового анализа. Корпусные методы исследования», полученные практические навыки – при освоении дисциплин «Практикум по проектированию и разработке лингвистических систем и компонентов», «Язык профессиональных коммуникаций (преподается на английском языке)».
5.Тематический план учебной дисциплины
№
|
Название раздела
|
Всего часов
|
Аудиторные часы
|
Самостоятельная работа
|
Лекции
|
Семинары
|
Практические занятия
|
1
|
Введение в корпусную лингвистику
|
28
|
4
|
|
6
|
18
|
2
|
История создания и типология англоязычных корпусов
|
28
|
4
|
|
6
|
18
|
3
|
Создание корпусов
|
27
|
3
|
|
6
|
18
|
4
|
Корпусы русского языка
|
27
|
3
|
|
6
|
18
|
5
|
Обзор компьютерных инструментов. Использование корпусов
|
34
|
4
|
|
8
|
22
|
|
Всего
|
144
|
18
|
|
32
|
94
|
Количество зачетных единиц на дисциплину – 4.
6.Формы контроля знаний студентов
Тип контроля
|
Форма контроля
|
1 год
|
Параметры
|
1
|
2
|
Текущий
|
Домашнее задание
|
№
|
|
????
|
Итоговый
|
Экзамен
|
|
+
|
Устный, 2 вопроса на билет, 30 минут на подготовку, 10 минут на ответ. Дополнительные вопросы в случае спорной оценки (без времени на подготовку)
|
6.1Критерии оценки знаний, навыков
Студент должен продемонстрировать знание основных понятий и актуальных проблем корпусной лингвистики в объеме, достаточном для осуществления практической деятельности в области корпусных технологий и исследований. Студент должен обладать навыками эффективного использования компьютерных инструментов, изучаемых в рамках дисциплины.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
Несколько студентов освобождаются "автоматом" при условии 80% посещения лекций и отличной работы на семинарах. "Автомат" подразумевает оценку не ниже 8 баллов.
6.2Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на практических занятиях: результаты проверочных работ, активность в дискуссиях, ответы на вопросы преподавателя, выполнение мини-проектов и командных заданий. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале (среднее арифметическое) за работу на практических занятиях определяется перед итоговым контролем.
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт = 0,5 * Онакопл + 0,5 * Оэкз
Онакопл = 0,5 * Од/з + 0,5 * Оаудит
Способ округления – арифметический.
На пересдаче студенту не предоставляется возможность получить дополнительный балл для компенсации оценки за текущий контроль.
7.Содержание дисциплины
8.Раздел 1. Введение в корпусную лингвистику
(4 ч. лекций, 6 ч. практ. занятий)
Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст. Корпусная лингвистика как дисциплина. Виды и свойства корпусов. Web as a corpus. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика. Разметка. Конкорданс, конкордансер. Критика корпусной лингвистики.
9.Раздел 2. История создания и типология англоязычных корпусов
(4 ч. лекций, 6 ч. практ. занятий)
Создание англоязычных корпусов – периодизация. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский корпус. Синтаксически размеченные корпусы. The Penn Treebank. Британский национальный корпус. Международный корпус английского языка. Корпус «Банк английского». Корпус современного американского английского. Оксфордский корпус английского. Корпусы TenTen. Корпус Google Books Ngram. Корпусы с семантической разметкой. FrameNet. Groningen Meaning Bank.
10.Раздел 3. Создание корпусов
(3 ч. лекций, 6 ч. практ. занятий)
Проектирование корпусов. Техпроцесс создания корпусов. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг. Автоматическая разметка. Проблема авторских прав. Стандартизация. Техники бутстрэпинга.
11.Раздел 4. Корпусы русского языка
(3 ч. лекций, 6 ч. практ. занятий)
Уппсальский корпус русского языка. Тюбингенские корпусы русских текстов. Компьютерный корпус текстов русских газет конца XX века. Система Диктум-1. Большой Корпус русского языка. Машинный фонд русского языка. Корпус русского литературного языка. ХАНКО. НКРЯ. OpenCorpora.
12.Раздел 5. Обзор компьютерных инструментов. Использование корпусов
(4 ч. лекций, 8 ч. практ. занятий)
Закон Ципфа. Визуализация синтаксических деревьев с phpSyntaxTree. Web-интерфейсы к корпусам (COCA, НКРЯ). Регулярные выражения. NLTK – библиотека для Python. Конкордансер AntConc. Корпусные менеджеры. Xaira. CQP. DDC. Manatee/Bonito. GATE. Sketch Engine. Game with a purpose. BootCaT.
13.Образовательные технологии
Проектная деятельность, практическая работа с компьютерными инструментами, компьютерные симуляции, мастер-классы экспертов в корпусной лингвистике.
13.1Методические указания студентам
Самостоятельная работа студентов осуществляется в соответствии с «Методическими рекомендациями по организации самостоятельной работы студентов НИУ ВШЭ – Нижний Новгород», утвержденными УМС от 30.04.2014, протокол № 4.
14.Оценочные средства для текущего контроля и аттестации студента
14.1Тематика заданий текущего контроля
корпусная лингвистика
корпус
общий (общеязыковой) корпус
специализированный корпус
параллельный корпус
метаданные
аннотации
тэг
репрезентативность корпуса
"Googleology"
конкорданс
тип
токен
лексема
лемма
словоформа
ключевое слово
коллокация
коллигация
парсинг
время создания Брауновского корпуса
количество слов в Брауновском корпусе
состав Брауновского корпуса
основной недостаток Брауновского корпуса
суть закона Ципфа применительно к частотности слов
что общего между более чем половиной слов в Брауновском корпусе
какой корпус стал моделью для Ланкастерско-Осло-Бергенского корпуса
сколько компьютерных корпусов было разработано к 1990 г. (приблизительно)
treebank
NP (синтаксис)
VP (синтаксис)
время создания Penn Treebank
количество слов в Penn Treebank
состав Penn Treebank
как кодируется иерархическая структура в Penn Treebank
количество слов в British National Corpus
соотношение устной и письменной речи в BNC
время создания BNC
разметка в BNC
тэггер
корпусный менеджер / менеджер корпусов
Xaira
цель проекта International Corpus of English
количество слов в каждом подкорпусе ICE
соотношение устной и письменной речи в ICE
виды разметки в ICE
количество слов в COCA
количество жанров в COCA
wildcard
n-грамма
синхронический корпус
диахронический корпус
национальный корпус
мониторный (мониторинговый, динамический) корпус
сбалансированный корпус
Sketch Engine
как собираются большие корпуса (>2 млрд. слов)
недостатки корпусов, сформированных из "очищенных" веб-страниц
как происходит автоматическое создание специализированных корпусов
чем отличается термин от ключевого слова
какие тексты содержатся в Google Books Ngram Corpus
вид представления данных в GBNC
виды разметки в GBNC
аболютная частота
относительная частота
к какому виду корпусов относятся FrameNet и GMB
на какой теории основан проект FrameNet
семантический фрейм
"глубина" разметки FrameNet
количество семантических фреймов во FrameNet
количество аннотированных примеров во FrameNet
назовите не менее 4 видов разметки в Groningen Meaning Bank
количество токенов в последнем релизе GMB
бутстрэппинг - основная идея
game with a purpose
примеры экстралингв. разметки (не менее 3)
главное отличие стемминга от лемматизации
BootCaT
на основе чего BootCaT отбирает тексты
что использует BootCaT для получения web-страниц
Уппсальский корпус - объем
Уппсальский корпус - тексты
есть ли treebank на русском языке?
Машинный фонд русского языка - тексты
акцентуированный корпус
Хельсинкский аннотированный корпус русского языка - объем
Хельсинкский аннотированный корпус русского языка - виды разметки
НКРЯ - объем основного корпуса
НКРЯ - назовите не менее 4 подкорпусов
НКРЯ - хронологический диапазон текстов
OpenCorpora - объем
OpenCorpora - главное преимущество
как переводчики используют паралл. корпусы
как комп. лингвисты используют паралл. корпусы
выравнивание / стыковка
параллельный корпус в НКРЯ - структура
LF aligner
проект Татоэба
российск. проект по созд. устных корпусов на русском и др. языках
корпус устной речи в НКРЯ - состав
COCA: walk как глагол
COCA: все словоформы walk
COCA: синонимы к walk
COCA: все слова, начинающиеся на walk (walker, walking, ...)
COCA: биграммы walk + любое слово
COCA: биграммы walk + любое слово, кроме away
COCA: walk или stroll
COCA: walk в конце повествовательного предложения
AntConc
AntConc: что нужно для корректной работы с текстовыми файлами
AntConc: для чего кнопка Clone Results
AntConc: как экспортировать результаты во внешний файл
AntConc: Concordance Plot (для чего)
AntConc: File View (для чего)
AntConc: Clusters (для чего)
AntConc: N-Grams (для чего)
AntConc: Collocates (для чего)
AntConc: Word List (для чего)
AntConc: Keyword List (для чего)
откуда AntConc "знает", какие слова являются ключевыми
AntConc: "негативные" ключевые слова
может ли AntConc определять леммы слов
возможности TreeTagger для текстов на русском языке
рекомендуемый текстовый редактор
Python: открыть текстовый файл (без чтения)
Python: прочитать открытый текстовый файл
Python: сохранить строку в текстовый файл
Python: разбить текст на отдельные строки
Python: разбить текст на "слова"
Python: "собрать" текст из отдельных строк
Python: "собрать" текст из отдельных слов
Python: структура данных для слов/строк в определенном порядке
Python: структура данных для набора уникальных словоформ
Python: структура данных для лемм и соотв. словоформ
14.2Вопросы для оценки качества освоения дисциплины
Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст.
Корпусная лингвистика как дисциплина. Критика корпусной лингвистики.
Виды и свойства корпусов. Web as a corpus.
Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика.
Разметка и метаданные. Конкорданс, конкордансер.
Создание англоязычных корпусов – периодизация.
Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский корпус.
Синтаксически размеченные корпусы. The Penn Treebank.
Британский национальный корпус.
Международный корпус английского языка. Корпус «Банк английского».
Корпус современного американского английского.
Оксфордский корпус английского. Корпусы TenTen.
Корпус Google Books Ngram.
Корпусы с семантической разметкой. FrameNet. Groningen Meaning Bank.
Проектирование корпусов. Техпроцесс создания корпусов.
Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг.
Автоматическая разметка. Техники бутстрэпинга. Автоматическая семантическая разметка. USAS.
Проблема авторских прав. Стандартизация.
Уппсальский корпус русского языка. Машинный фонд русского языка. Хельсинкский аннотированный корпус (ХАНКО).
НКРЯ.
OpenCorpora.
Параллельные корпусы – возможности и применение. Параллельный подкорпус НКРЯ. Проект Татоэба.
Web-интерфейсы к корпусам (COCA, НКРЯ) – возможности, достоинства и недостатки.
Регулярные выражения. Обработка текста с помощью языка программирования Python (2 или 3).
Корпусные менеджеры. AntConc. Xaira. Sketch Engine.
Достоинства и недостатки корпусов, собранных автоматически из сети Интернет. BootCaT.
15.Учебно-методическое и информационное обеспечение дисциплины
15.1Основная литература
McEnery T., Hardie A., Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 2012.
15.2Дополнительная литература
Копотев М., Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага, Animedia Company, 2014.
15.3Литература для самостоятельного изучения студентами
Aston G., Burnard L. The BNC handbook: exploring the British National Corpus with SARA. – Capstone, 1998.
Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1. – Association for Computational Linguistics, 1998. – С. 86-90.
Basile V. et al. Developing a large semantically annotated corpus // LREC. – 2012. – Т. 12. – С. 3196-3200.
Baroni M., Bernardini S. BootCaT: Bootstrapping Corpora and Terms from the Web // LREC. –2004.
Cheng W. Exploring Corpus Linguistics – Language in Action. – Routledge, 2012.
Davies M. The 385+ million word Corpus of Contemporary American English (1990–2008+): Design, architecture, and linguistic insights //International Journal of Corpus Linguistics. – 2009. – Т. 14. – №. 2. – С. 159-190.
Greenbaum S. (ed.). Comparing English worldwide: The international corpus of English. – Clarendon Press, 1996.
Jarvinen T. Annotating 200 million words: the Bank of English project //Proceedings of the 15th conference on Computational linguistics-Volume 1. – Association for Computational Linguistics, 1994. – С. 565-568.
Johansson S. Some aspects of the development of corpus linguistics in the 1970s and 1980s // Ludeling A., Kyto M., eds. Corpus Linguistics. An International Handbook. Volume 1. – Berlin & New York: Walter de Gruyter, 2008. – С. 33-53.
Johansson S., Leech G. N., Goodluck H. Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computer. – Department of English, University of Oslo, 1978.
Kilgarriff A. et al. Itri-04-08 the sketch engine //Information Technology. – 2004. – Т. 105. – С. 116.
Kucera H., Francis W. N. Computational analysis of present-day American English // Brown, Providence, 1967.
Leech G., Rayson P., Wilson A. Word frequencies in written and spoken English: based on the British National Corpus. – Longman, 2001.
Lin Y. et al. Syntactic annotations for the google books ngram corpus //Proceedings of the ACL 2012 System Demonstrations. – Association for Computational Linguistics, 2012. – С. 169-174.
Marcus M. P., Marcinkiewicz M. A., Santorini B. Building a large annotated corpus of English: The Penn Treebank //Computational linguistics. – 1993. – Т. 19. – №. 2. – С. 313-330.
O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. – Routledge, 2010.
Sinclair J. M. Preliminary recommendations on text typology. 1996. EAGLES Document EAG-TCWG-TTYP/P.
Tognini-Bonelli E. Corpus linguistics at work. – John Benjamins Publishing, 2001.
Захаров В.П., Богданова С.Ю. Корпусная лингвистика. – Иркутск, ИГЛУ, 2011.
Грудева Е.В. Корпусная лингвистика. – М.: ФЛИНТА, 2012.
Национальный корпус русского языка: 2003—2005. Сборник статей. М.: Индрик, 2005.
Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009.
Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. 2005. № 2, 296—308.
Резникова Т. И. Корпуса славянских языков в интернете: Обзор ресурсов // Die Welt der Slaven LIII, 2008, 10—38.
Шмелёв А. Д. Языковые факты и корпусные данные // Русский язык в научном освещении, 2010, 19 (1), 236—265.
16.Материально-техническое обеспечение дисциплины
Для лекций и практических занятий используется компьютер/ноутбук, проектор, экран. Для практических занятий студентам необходимо иметь цифровые устройства (ноутбуки, планшеты) с доступом в Интернет. Возможно использование стационарных компьютеров, подключенных к Интернету, в компьютерном классе.
Разработчик Малафеев А.Ю.
|