Главная » Заготовка и хранение » Лингвист в сфере компьютерной лингвистики. Формальные модели языка и их применение

Лингвист в сфере компьютерной лингвистики. Формальные модели языка и их применение

План:

1. Что такое компьютерная лингвистика?

2. Объект и предмет компьютерной лингвистики

4. Задачи компьютерной лингвистики

5. Методы исследования компьютерной лингвистики

6. История и причины возникновения компьютерной лингвистики

7. Основные термины компьютерной лингвистики

8. Ученые занимавшиеся проблемой компьютерной лингвистики

9. Ассоциации и конференции по компьютерной лингвистике

10. Использованная литература.


Компьютерная лингвистика – самостоятельное направление в прикладной лингвистике, ориентированное на использование компьютеров для решения задач, связанных с использованием естественного языка. (Щилихина К.М.)


Компьютерная лингвистика – будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирование языка и мышления в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области: 1) оптимизации коммуникации на основе лингвистических знаний 2)создание естественно-языкового интерфейса и типологий понимания языка для общения человека с машиной 3) создание и моделирование информационных компьютерных систем (Соснина Е.П.)


Объект компьютерной лингвистики – анализ языка в его естественном состоянии в процессе использования людьми в различных ситуациях общения, а , как особенности языка могут быть сформулированы.


Задачи компьютерной лингвистики:


Методы исследования компьютерной лингвистики:

1. метод моделирования- специальный объект изучения, который недоступен в прямом наблюдении. По определению математика К. Шеннона модель является представлением объекта в некоторой форме, отличной от формы их реального существования.

2. метод теории представления знаний подразумевает способы представления знаний, ориентированные на автоматическую обработку современными компьютерами.

3. метод теории языка программирования (programming language theory) – это область информатики, связанная с проектированием, анализом, определением характеристик и классификацией языков программирования и изучением их индивидуальных особенностей.


Причины возникновения компьютерной лингвистики

1. Появление ЭВМ

2. Проблема общения с компьютерами неподготовленных пользователей


1.Система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948г.

2. Меморандум Уоррена Уивера

3.Начало внедрения первых вычислительных машин в сфере машинного перевода

4. Джорджтаунский проект в 1954


1. ALPAC(Automatic Language Processing Advisory Committee) / Консультативный Комитет по автоматической обработке языка 2. новый этап в развитии компьютерных технологий и их активное использование в лингвистических задачах 3. создание нового поколения компьютеров и языков программирования 4. возрастание интереса к машинному переводу 60

-70ые годы ХХ века


Конец 80х – начало 90х годов ХХ века

    Появление и активное развитие сети Интернет

  • Бурный рост объемов текстовой информации в электронном виде

  • Необходимость автоматической обработки текстов на естественном языке


1. Продукты компании PROMT и ABBY (Lingvo) 2. Технологии машинного перевода 3. Технологии Translation Memory

Современные коммерческие системы

  • Оживление текстов

  • Модели коммуникации

  • Компьютерная лексикография

  • Машинный перевод

  • Корпус текстов


Анализ текстов на естественном языке

3 уровня структуры текста:
  • Поверхностная синтаксическая структура

  • Глубинная синтаксическая структура

  • Семантический уровень


Задача синтеза обратная по отношению в анализу

Оживление текста

1. Обмен текстами посредством зрительных образов на экране дисплея

2. 2 модальности мышления человека: символьная и зрительная.


1.Имитация процесса общения 2. Создание эффективной модели диалога Модели коммуникации


Гипертекст -особый способ организации и представления текста, при котором несколько текстов или фрагментов текста могут быть связаны между собой по различным типам связей.


Отличия гипертекста от традиционного текста

Гипертекст

    1. обработка устной речи

  • 2. обработка письменного текста


Обработка устной речи

1. автоматический синтез речи

А) развитие синтезаторов типа «текст-речь». Включает 2 блока: блок лингвистической обработки текста и блок акустического синтеза.

2. автоматическое распознавание речи


1) распознавание текста

2) анализ текста

3) синтез текста


ИПС (информационно-поисковая система) – это программные системы для хранения, поиска и выдачи интересующей информации.

Захаров В.П. считает что, ИПС – это упорядоченная совокупность документов и информационных технологий , предназначенных для хранения и поиска информации – текстов или данных.


3 вида ИПС

3 вида ИПС

    Ручные – это поиск в библиотеке.

  • Механизированные ИПС представляют собой технические средства, которые обеспечивают отбор нужных документов

  • Автоматические - поиск информации с помощью компьютеров


Компьютерная лексикография

Компьютерная лексикография – одно из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей.

В лексикографии выделяют 2 направления:
  • Традиционная лексикография занимается составлением традиционных словарей

  • Машинная лексикография занимается автоматизацией подготовки словарей и решает задачи разработки электронных словарей


Задачи компьютерной лексикографии

  • Автоматическое получение из текста различных словарей

  • Создание словарей, которые являются электронными версиями традиционных словарей или комплексных электронных лингвистических словарей для традиционных словарных работ, например LINGVO

  • Разработка теоретических и практических аспектов составления специальных компьютерных словарей, например для информационного поиска, машинного перевода


Машинный перевод

Машинный перевод – преобразование текста на одном естественном языке на другой естественный язык при помощи компьютера.

Виды машинного перевода
  • FAMT (Fully Automated Machine Translation) – полностью автоматический перевод

  • HAMT (Human Aided machine Translation) – машинный перевод с участием человека

  • MAHT (Machine Aided Human Translation) – перевод, осуществляемый человеком с привлечением вспомогательных программных и лингвистических средств.


  • 2) профессиональный МП – более качественный перевод с последующим редактированием человеком

  • 3) интерактивный МП – считается переводом в специальных системах поддержки , проходит в режиме диалога с компьютерной системой. Качество МП зависит от возможностей настройки, ресурсов, типа текстов.

Корпус текстов

Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты.

Языковой корпус- большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.


Репрезентативность – важнейшее свойство корпуса


Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде



На основе корпуса можно получить данные:

1. о частоте грамматических категорий

2. об изменениях частот

3. об изменениях контекстов в различные периоды времени

5. о совместной встречаемости лексических единиц

6. об особенностях их сочетаемости


Брауновский корпус


Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Основные термины компьютерной лингвистики

    Языки программирования (ЯП) – это класс искусственных языков, предназначенных для обработки информации с помощью компьютера. Любой язык программирования – это строгая (формальная) знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от тысячи до десяти тысяч различных языков программирования.

  • Информатика (Computer Science) - наука о закономерностях записи, хранения, переработки, передачи и использования информации с помощью технических средств.



Поиск информации (Information Retrieval ) – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и

т. д.), которые соответствуют поступившему запросу.

«Информационно-поисковая система (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

Машинная лексикография (Сomputational Lexicography) занимается автоматизацией подготовки словарей и решает задачи разработки электронных

словарей.

Машинный перевод – это преобразование компьютером текста на одном

естественном языке в эквивалентный по содержанию текст на другом

естественном языке.

Гипертекст – это технология организации информации и особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.


    Фрейм - это структура для представления декларативного знания о типизированной тематически единой ситуации, т.е. структура данных о стереотипной ситуации.

  • Сценарий – это последовательность нескольких эпизодов во времени, это тоже представление стереотипной ситуации или стереотипном поведении, только элементами сценария являются шаги алгоритма или инструкции.
  • План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели.



Ученые в области компьютерной лингвистики:

  • Советские и российские ученые : Алексей Ляпунов, Игорь Мельчук, Ольга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемьянов, З.М. Шаляпина, Игорь Богуславский, А.С. Нариньяни, А.Е. Кибрик, Баранов А.Н.

  • Западные ученые : Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови.


Ассоциации и конференции по компьютерной лингвистике :
  • «Диало́г» - главная российская конференция по компьютерной лингвистике с международным участием.

Приоритетом Диалога является компьютерное моделирование русского языка. Рабочие языки конференции русский и английский. Для привлечения зарубежных рецензентов основная часть прикладных работ подается на английском языке.

Основные направления конференции :
  • Лингвистическая семантика и семантический анализ

  • Формальные модели языка и их применение

  • Теоретическая и компьютерная лексикография

  • Методы оценки (evaluation) систем анализа текстов и машинного перевода

  • Корпусная лингвистика . Создание, применение, оценка корпусов

  • Интернет как лингвистический ресурс. Лингвистические технологии в Интернете

  • Онтологии . Извлечение знаний из текстов

  • Компьютерный анализ документов: реферирование, классификация , поиск

  • Автоматический анализ тональности текстов

  • Машинный перевод

  • Модели общения. Коммуникация, диалог и речевой акт

  • Анализ и синтез речи



2. Ассоциация по Компьютерной лингвистике (ACL) является международным научным и профессиональным обществом людей, работающих над проблемами, включающими естественный язык и вычисление. Годовое собрание проводится каждое лето в местоположениях, где значительное исследование компьютерной лингвистики выполнено. Основана в 1962, первоначально назвали Ассоциацией для Машинного перевода и Компьютерной лингвистики (AMTCL) . В 1968 это стало ACL.
  • УACL есть европейская (EACL) и североамериканская (NAACL) ветви.

  • Журнал ACL, Компьютерная лингвистика , является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press .
  • Книжная серия ACL, Исследования в Обработке естественного языка , издана издательством Кембриджского университета .

  • Каждый год ACL и его главы организуют международные конференции в разных странах.

ACL 2014 проводился в Балтиморе, США.

  • Использованная литература :

  • 1. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие/Ю.Н. Марчук.- М.:АСТ: Восток –Запад, 2007ю- 317 с.

  • 2. Шилихина К.М. Основы прикладной лингвистики: учебное пособие по специальности 021800 (031301) – Теоретическая и прикладная лингвистика, Воронеж, 2006.

  • 3. Боярский К.К. Введение в компьютерную лингвистику. Учебное пособие.- СПб: НИУ ИТМО, 2013.- 72 с.

  • 4. Щипицина Л.Ю. Информационные технологии в лингвистике: учебное пособие/ Л.Ю. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие/ Е.П.Соснина.- 2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. -110 с.

  • 6. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие.- М.: Эдиториал УРСС, 2001.- 360 с.

  • 7. Прикладное языкознание: Учебник/ Л.В. Бондарко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. Редактор А.С. Герд. СПб.: изд-во С.-Петербург. Ун-та, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.

  • Под термином "компьютерная лингвистика" (computational linguistics) обычно понимается широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лингвистики. Тем не менее общая практика такова, что сфера компьютерной лингвистики охватывает практически все, что связано с использованием компьютеров в языкознании: "Термин "компьютерная лингвистика" задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, связанных с языком, никак не ограничивая способы решения этих задач".

    Институциональный аспект компьютерной лингвистики . Как особое научное направление компьютерная лингвистика оформилась в 60-е гг. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал "Компьютерная лингвистика". Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике - КОЛИНГ. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

    Когнитивный инструментарий компьютерной лингвистики

    Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту - то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки.

    Основной тезис теории знаний гласит, что мышление - это процесс обработки и порождения знаний. "Знания" или "знание" считается неопределяемой категорией. В качестве "процессора", обрабатывающего знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний - декларативные ("знание что") и процедурные ("знание как"2)). Декларативные знания представляются обычно в виде совокупности пропозиций, утверждений о чем-либо. Типичным примером декларативных знаний можно считать толкования слов в обычных толковых словарях. Например, чашка] - "небольшой сосуд для питья округлой формы, обычно с ручкой, из фарфора, фаянса и т.п. " . Декларативные знания поддаются процедуре верификации в терминах "истина-ложь". Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действиях в некоторой ситуации. Характерный пример процедурных знаний - инструкции по пользованию бытовыми приборами.

    В отличие от декларативных знаний, процедурные знания невозможно верифицировать как истинные или ложные. Их можно оценивать только по успешности-неуспешности алгоритма.

    Большинство понятий когнитивного инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтологически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как процедурные знания. Инструментально знание (как онтологически процедурное, так и декларативное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности "стол" можно представить процедурно как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типичного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором - описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

    Требует отдельного обсуждения, всякое ли онтологически декларативное знание представимо как процедурное, а всякое онтологически процедурное - как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедурное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. Попытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики известно, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследователь частично теряет способность к различению правильных и неправильных употреблений анализируемого слова. Можно привести и другие примеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников.

    В теории знаний для изучения и представления знания используются различные структуры знаний - фреймы, сценарии, планы. Согласно М. Минскому, "фрейм - это структура данных, предназначенная для представления стереотипной ситуации" [Минский 1978, с.254]. Более развернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определенными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (см. табл.1).

    Таблица 1

    Фрагмент фрейма "стол" в табличном представлении

    В зависимости от конкретной задачи структуризация фрейма может быть существенно более сложной; фрейм может включать вложенные подфреймы и отсылки к другим фреймам.

    Вместо таблицы часто используется предикатная форма представления. В этом случае фрейм имеет форму предиката или функции с аргументами. Существуют и другие способы представления фрейма. Например, он может представляться в виде кортежа следующего вида: { (имя фрейма) (имя слота)) (значение слота,),..., (имя слота п) (значение слота л) }.

    Обычно такой вид имеют фреймы в языках представлениях знаний.

    Как и другие когнитивные категории компьютерной лингвистики, понятие фрейма омонимично. Онтологически - это часть когнитивной системы человека, и в этом смысле фрейм можно сопоставить с такими понятиями как гештальт, прототип, стереотип, схема. В когнитивной психологии эти категории рассматриваются именно с онтологической точки зрения. Так, Д. Норман различает два основных способа бытования и организации знаний в когнитивной системе человека - семантические сети и схемы. "Схемы, - пишет он, - представляют собой организованные пакеты знания, собранные для репрезентации отдельных самостоятельных единиц знания. Моя схема для Сэма может содержать информацию, описывающую его физические особенности, его активность и индивидуальные черты. Эта схема соотносится с другими схемами, которые описывают иные его стороны" [Норман 1998, с.359]. Если же брать инструментальную сторону категории фрейма, то это структура для декларативного представления знаний. В имеющихся системах ИИ фреймы могут образовывать сложные структуры знаний; системы фреймов допускают иерархию - один фрейм может быть частью другого фрейма.

    По содержанию понятие фрейма очень близко категории толкования. Действительно, слот - аналог валентности, заполнение слота - аналог актанта. Основное отличие между ними заключается в том, что толкование содержит только лингвистически релевантную информацию о плане содержания слова, а фрейм, во-первых, не обязательно привязан к слову, и, во-вторых, включает всю релевантную для данной проблемной ситуации информацию, в том числе и экстралингвистическую (знания о мире) 3).

    Сценарий представляет собой концептуальную структуру для процедурного представления знаний о стереотипной ситуации или стереотипном поведении. Элементами сценария являются шаги алгоритма или инструкции. Обычно говорят о "сценарии посещения ресторана", "сценарии покупки" и т.п.

    Изначально фрейм также использовался для процедурного представления (ср. термин "процедурный фрейм"), однако сейчас в этом смысле чаще употребляется термин "сценарий". Сценарий можно представить не только в виде алгоритма, но и в виде сети, вершинам которой соответствуют некоторые ситуации, а дугам - связи между ситуациями. Наряду с понятием сценария, некоторые исследователи привлекают для компьютерного моделирования интеллекта категорию скрипта. По Р. Шенку, скрипт - это некоторая общепринятая, общеизвестная последовательность причинных связей . Например, понимание диалога

    На улице льет как из ведра.

    Все равно придется выходить в магазин: в доме есть нечего - вчера гости все подмели.

    основывается на неэксплицированных семантических связях типа "если идет дождь, на улицу выходить нежелательно, поскольку можно заболеть". Эти связи формируют скрипт, который и используется носителями языка для понимания речевого и неречевого поведения друг друга.

    В результате применения сценария к конкретной проблемной ситуации формируется план ). План используется для процедурного представления знаний о возможных действиях, ведущих к достижению определенной цели. План соотносит цель с последовательностью действий.

    В общем случае план включает последовательность процедур, переводящих начальное состояние системы в конечное и ведущих к достижению определенной подцели и цели. В системах ИИ план возникает в результате планирования или планирующей деятельности соответствующего модуля - модуля планирования. В основе процесса планирования может лежать адаптация данных одного или нескольких сценариев, активизированных тестирующими процедурами, для разрешения проблемной ситуации. Выполнение плана производится экзекутивным модулем, управляющим когнитивными процедурами и физическими действиями системы. В элементарном случае план в интеллектуальной системе представляет собой простую последовательность операций; в более сложных версиях план связывается с конкретным субъектом, его ресурсами, возможностями, целями, с подробной информацией о проблемной ситуации и т.д. Возникновение плана происходит в процессе коммуникации между моделью мира, часть которой образуют сценарии, планирующим модулем и экзекутивным модулем.

    В отличие от сценария, план связан с конкретной ситуацией, конкретным исполнителем и преследует достижение определенной цели. Выбор плана регулируется ресурсами исполнителя. Выполнимость плана - обязательное условие его порождения в когнитивной системе, а к сценарию характеристика выполнимости неприложима.

    Еще одно важное понятие - модель мира. Под моделью мира обычно понимается совокупность определенным образом организованных знаний о мире, свойственных когнитивной системе или ее компьютерной модели. В несколько более общем виде о модели мира говорят как о части когнитивной системы, хранящей знания об устройстве мира, его закономерностях и пр. В другом понимании модель мира связывается с результатами понимания текста или - более широко - дискурса. В процессе понимания дискурса строится его ментальная модель, которая является результатом взаимодействия плана содержания текста и знаний о мире, свойственных данному субъекту [Джонсон-Лэрд 1988, с.237 и далее]. Первое и второе понимание часто объединяются. Это типично для исследователей-лингвистов, работающих в рамках когнитивной лингвистики и когнитивной науки.

    Тесно связано с категорией фрейма понятие сцены. Категория сцены преимущественно используется в литературе как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр) ситуаций и их частей5). Будучи связана с языковыми формами, сцена часто актуализуется определенным словом или выражением. В грамматиках сюжетов (см. ниже) сцена предстает как часть эпизода или повествования. Характерные примеры сцен - совокупность кубиков, с которыми работает система ИИ, место действия в рассказе и участники действия и т.д. В искусственном интеллекте сцены используются в системах распознавания образов, а также в программах, ориентированных на исследование (анализ, описание) проблемных ситуаций. Понятие сцены получило широкое распространение в теоретической лингвистике, а также логике, в частности в ситуационной семантике, в которой значение лексической единицы непосредственно связывается со сценой.

    В Институте лингвистики РГГУ с 2012 года осуществляется подготовка магистров по программе магистратуры Компьютерная лингвистика (направление Фундаментальная и прикладная лингвистика ). Эта программа предназначена для подготовки профессиональных лингвистов , владеющих как основами языкознания, так и современными методами научно-исследовательской, экспертно-аналитической, инженерной работы и способных эффективно участвовать в разработке инновационных языковых компьютерных технологий.

    В образовательном процессе участвуют разработчики крупных исследовательских и коммерческих систем в области автоматической обработки текста, что обеспечивает связь обучения магистров с мейнстримом современной компьютерной лингвистики. Особое внимание уделяется участию магистров в российских и международных конференциях.

    Среди преподавателей авторы базовых учебников по лингвистическим специальностям, специалисты мирового уровня, руководители проектов крупных систем автоматической обработки языка: Я.Г. Тестелец, И.М. Богуславский, В.И. Беликов, В.И. Подлесская, В.П. Селегей, Л.Л. Иомдин, А.С. Старостин, С.А. Шаров, а также сотрудники компаний, являющихся мировыми лидерами в области компьютерной лингвистики: IBM (система Watson), Яндекс, ABBYY (системы Lingvo, FineReader, Compreno).

    Основой подготовки магистров по данной программе является проектный подход. Привлечение магистрантов к научно-исследовательской работе в области компьютерной лингвистики происходит на базе РГГУ и на базе компаний, занимающихся разработкой программ в области АОТ (ABBYY, IBM и др.), что, безусловно, является большим плюсом как для самих магистров, так и для их возможных работодателей. В частности, осуществляется приём в магистратуру целевых магистров, обучение которых обеспечивается будущими работодателями.

    Вступительные испытания : "Формальные модели и методы современной лингвистики". Точную информацию о времени экзамена можно получить на сайте отдела магистратуры РГГУ .

    Руководители магистратуры - зав. Учебно-научным центром компьютерной лингвистики, директор по лингвистическим исследованиям компании ABBYY Владимир Павлович Селегей и д.ф.н., профессор Вера Исааковна Подлесская .

    Программа вступительного экзамена и собеседования по дисциплине «Формальные модели и методы современной лингвистики».

    Комментарии к программе

    • Любой вопрос программы может сопровождаться задачами, связанными с описаниями конкретных языковых явлений, относящихся к разделу вопроса: построению структур, описанию ограничений, возможным алгоритмам построения и/или идентификации.
    • Вопросы, отмеченные звездочками, являются факультативными (в билетах стоят под №3). Владение соответствующим материалом является серьезным бонусом для кандидатов, но не обязательно.
    • Помимо теоретических вопросов в билетах на экзамене будет предложен небольшой фрагмент специального (лингвистического) текста на английском языке – для перевода и обсуждения. От поступающих требуется продемонстрировать удовлетворительный уровень владения англоязычной научной терминологией и навыками анализа научного текста. В качестве примера текста, который не должен вызвать у поступающего серьезных трудностей, ниже приводится фрагмент статьи https://en.wikipedia.org/wiki/Anaphora_(linguistics) :

    In linguistics, anaphora (/əˈnæfərə/) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.

    Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

    ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ

    ОБЩИЕ ВОПРОСЫ ЯЗЫКОЗНАНИЯ

    • Объект лингвистики. Язык и речь. Синхрония и диахрония.
    • Уровни языка. Формальные модели уровней языка.
    • Синтагматика и парадигматика. Понятие дистрибуции.
    • Основания межъязыковых сравнений: типологическая, генеалогическая и ареальная лингвистика.
    • *Математическая лингвистика: объект и методы исследований

    ФОНЕТИКА

    • Предмет фонетики. Артикуляционная и акустическая фонетика.
    • Сегментная и супрасегментная фонетика. Просодия и интонация.
    • Основные понятия фонологии. Типология фонологических систем и их фонетических реализаций.
    • *Компьютерные инструменты и методы фонетических исследований
    • *Анализ и синтез речи.

    МОРФОЛОГИЯ

    • Предмет морфологии. Морфы, морфемы, алломорфы.
    • Словоизменение и словообразование.
    • Грамматические значения и способы их реализации. Грамматические категории и граммемы. Морфологические и синтаксические грамматические значения.
    • Понятия словоформы, основы, леммы и парадигмы.
    • Части речи; основные подходы к выделению частей речи.
    • *Формальные модели описания словоизменения и словообразования.
    • *Морфология в задачах автоматической обработки языка: проверка орфографии, лемматизация, POS-tagging

    СИНТАКСИС

    • Предмет синтаксиса. Способы выражения синтаксических отношений.
    • Способы представления синтаксической структуры предложения. Достоинства и недостатки деревьев зависимостей и составляющих.
    • Способы описания линейного порядка. Непроективность и разрыв составляющих. Понятие трансформации; трансформации, связанные с линейным порядком.
    • Связь между синтаксисом и семантикой: валентности, модели управления, актанты и сирконстанты.
    • Диатеза и залог. Актантная деривация.
    • Коммуникативная организация высказывания. Тема и рема, данное и новое, контрастивность.
    • *Основные синтаксичеcкие теории: МСТ, генеративизм, функциональная грамматика, HPSG
    • *Математические модели синтаксиса: классификация формальных языков по Хомскому, алгоритмы распознавания и их сложность.

    СЕМАНТИКА

    • Предмет семантики. Наивная и научная языковые картины мира. Гипотеза Сепира – Уорфа.
    • Значение в языке и речи: смысл и референт. Тип референции (денотативный статус).
    • Лексическая семантика. Способы описания семантики слова.
    • Грамматическая семантика. Основные категории на примере русского языка.
    • Семантика предложения. Пропозициональный компонент. Дейксис и анафора. Кванторы и связки. Модальность.
    • Иерархия и системность лексических значений. Полисемия и омонимия. Семантическая структура многозначного слова. Понятия инварианта и прототипа.
    • Парадигматические и синтагматические отношения в лексике. Лексические функции.
    • Толкование. Язык толкований. Московская семантическая школа
    • Семантика и логика. Истинностное значение высказывания.
    • Теория речевых актов. Высказывание и его иллокутивная сила. Перформативы. Классификация речевых актов.
    • Фразеология: инвентарь и способы описания фразеологических единиц.
    • *Модели и методы формальной семантики.
    • *Модели семантики в современной компьютерной лингвистике.
    • *Дистрибутивная и операциональная семантики.
    • *Основные идеи грамматики конструкций.

    ТИПОЛОГИЯ

    • Традиционные типологические классификации языков.
    • Типология грамматических категорий имени и глагола.
    • Типология простого предложения. Основные типы конструкций: аккузативная, эргативная, активная.
    • Типология порядка слов и гринберговские корреляции. Лево- и правоветвящиеся языки.

    ЛЕКСИКОГРАФИЯ

    • Лексика как инвентарь культуры; социальное варьирование лексики, лексические узус, норма, кодификация.
    • Типология словарей (на русском материале). Отражение лексики в словарях различных типов.
    • Двуязычная лексикография с привлечением русского языка.
    • Дескриптивная и прескриптивная лексикография. Профессиональные лингвистические словари.
    • Специфика основных русских толковых словарей. Структура словарной статьи. Толкование и энциклопедическая информация.
    • Лексика и грамматика. Представление об интегральной модели языка в Московской семантической школе.
    • *Методика работы лексикографа.
    • *Корпусные методы в лексикографии.

    ЛИНГВИСТИКА ТЕКСТА И ДИСКУРС

    • Понятие текста и дискурса.
    • Механизмы межфразовой связи. Основные разновидности средств их языковой реализации.
    • Предложение как единица языка и как элемент текста.
    • Сверхфразовые единства, принципы их формирования и выделения, основные свойства.
    • Основные категории классификации текстов (жанр, стиль, регистр, предметная область и т.д)
    • *Методы автоматической жанровой классфикации.

    СОЦИОЛИНГВИСТИКА

    • Проблема предмета и границ социолингвистики, ее междисциплинарный характер. Основные понятия социологии и демографии. Уровни языковой структуры и социолингвистика. Основные понятия и направления социолингвистики.
    • Языковые контакты. Билингвизм и диглоссия. Дивергентные и конвергентные процессы в истории языка.
    • Социальная дифференциация языка. Формы существования языка. Литературный язык: узус-норма-кодификация. Функциональные сферы языка.
    • Языковая социализация. Иерархический характер социальной и языковой идентичности. Языковое поведение индивида и его коммуникативный репертуар.
    • Методы социолингвистических исследований.

    КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

    • Задачи и методы компьютерной лингвистики.
    • Корпусная лингвистика. Основные характеристики корпуса.
    • Представление знаний. Основные идеи теории фреймов М. Минского. Система FrameNet.
    • Тезаурусы и онтологии. WordNet.
    • Основы статистического анализа текстов. Частотные словари. Анализ коллокаций.
    • *Понятие машинного обучения.

    ЛИТЕРАТУРА

    Учебная (базовый уровень)

    Баранов А.Н. Введение в прикладную лингвистику. М.: Едиториал УРРС, 2001.

    Баранов А.Н., Добровольский Д.О. Основы фразеологии (краткий курс) Учебное пособие. 2-е издание. Москва: Флинта, 2014.

    Беликов В.А., Крысин Л.П. Социолингвистика. М., РГГУ, 2001.

    Бурлак С.А., Старостин С.А. Сравнительно-историческое языкознание. М.: Академия. 2005

    Вахтин Н.Б., Головко Е.В.. Социолингвистика и социология языка. СПб., 2004.

    Князев С. В., Пожарицкая С. К. Современный русский литературный язык: Фонетика, графика, орфография, орфоэпия. 2 изд. М., 2010

    Кобозева И.М. Лингвистическая семантика. М.: Едиториал УРСС. 2004.

    Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001.

    Кронгауз М.А. Семантика. М.: РГГУ. 2001.

    Кронгауз М.А. Семантика: Задачи, задания, тексты. М.: Академия. 2006..

    Маслов Ю.С. Ведение в языкознание. Изд. 6-е, стер. М.: Академия, фил. фак. СПбГУ,

    Плунгян В.А. Общая морфология: Введение в проблематику. Изд. 2-е. М.: Едиториал УРСС, 2003.

    Тестелец Я.Г. Введение в общий синтаксис. М., 2001.

    Шайкевич А.Я. Введение в лингвистику. М.: Академия. 2005.

    Научная и справочная

    Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., исп. и доп. М.: Школа "Языки русской культуры", 1995.

    Апресян Ю.Д. Избранные труды, том II. Интегральное описание языка и системная лексикография. М.: Школа "Языки русской культуры", 1995.

    Апресян Ю.Д. (ред.) Новый объяснительный словарь синонимов русского языка. Москва - Вена: "Языки русской культуры", Wiener Slavistischer Almanach, Sonderband 60, 2004.

    Апресян Ю.Д. (ред.) Языковая картина мира и системная лексикография (отв. ред. Ю. Д. Апресян). М.: "Языки славянских культур", 2006, Предисловие и гл. 1, с.26 -- 74.

    Булыгина Т.В., Шмелев А.Д. Языковая концептуализация мира (на материале русской грамматики). М.: Школа "Языки русской культуры", 1997.

    Вайнрайх У. Языковые контакты. Киев, 1983.

    Вежбицкая А. Семантические универсалии и описание языков. М.: Школа "Языки русской культуры". 1999.

    Гальперин И.Р. Текст как объект лингвистического исследования. 6-е изд. М.: ЛКИ, 2008 ("Лингвистическое наследие XX века")

    Зализняк А.А. “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. М.: Языки славянской культуры, 2002.

    Зализняк А.А., Падучева Е.В. К типологии относительного предложения. / Семиотика и информатика, вып. 35. М., 1997, с. 59-107.

    Иванов Вяч. Вс.. Лингвистика третьего тысячелетия. Вопросы к будущему. М., 2004. С. 89-100 (11. Языковая ситуация мира и прогноз на ближайшее будущее).

    Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: Изд-во МГУ, 1992.

    Кибрик А.Е. Константы и переменные языка. СПб: Алетейя, 2003.

    Лабов У. О механизме языковых изменений // Новое в лингвистике. Вып.7. М., 1975. С.320-335.

    Лайонз Дж. Лингвистическая семантика: Введение. М.: Языки славянской культуры. 2003.

    Лайонс Джон. Язык и лингвистика. Вводный курс. М: УРСС, 2004

    Лакофф Дж. Женщины, огонь и опасные вещи: Что категории языка говорят нам о мышлении. М.: Языки славянской культуры. 2004.

    Лакофф Дж., Джонсон М . Метафоры, которыми мы живем. Пер. с англ. Изд.2. М.: УРСС. 2008.

    Лингвистический энциклопедический словарь / Под ред. В.И. Ярцевой. М.: Научное изд-во «Большая российская энциклопедия», 2002.

    Мельчук И.А. Курс общей морфологии. Тт. I-IV. Москва-Вена: "Языки славянской культуры", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

    Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ↔ ТЕКСТ». М.: Школа "Языки русской культуры", 1999.

    Фёдорова Л.Л. Семиотика. М., 2004.

    Филиппов К. А. Лингвистика текста: Курс лекций - 2-е изд., исп. и доп. Изд. С.-Петерб. ун-та, 2007.

    Haspelmath, M., et al . (eds.). World Atlas of Language Structures. Oxford, 2005.

    Dryer, M.S. and Haspelmath, M. (eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)

    Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.) . Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007.

    В. И. Беликов. О словарях, «содержащих нормы современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

    Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 1-11. - М.: Изд-во Наука, из-во РГГУ, 2002-2012. (Статьи по компьютерной лингвистике, http://www.dialog-21.ru) .

    Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. / Отв. ред. В. А. Плунгян. - СПб.: Нестор-История, 2009.

    Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика / Сост. Б. Ю. Городецкий. М.: Прогресс, 1989.

    Шимчук Э. Г. Русская лексикография: Учебное пособие. М.: Академия, 2009.

    Национальный корпус русского языка: 2003-2005. Сборник статей. М.: Индрик, 2005.

    Для контактов:

    Учебно-научный центр компьютерной лингвистики Института лингвистики РГГУ


    1. Деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях. 2. Область знаний, решающая проблемы общения человека и компьютера на естественном языке. 3. Широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях.


    Искусственный интеллект – направление информатики, целью которого является разработка компьютерных систем, способных выполнять функции, традиционно считающиеся интеллектуальными, - понимание естественного языка, логический вывод, использование накопленных знаний, обучение, планирование действий и др.






    3. Построение алгоритмов лингвистического анализа – разработка алгоритмов анализа естественно - языковых текстов на всех языковых уровнях: фонемном, морфемном, морфологическом, синтаксическом, прагматическом. Построение синтаксического дерева зависимостей (проект Автоматическая Обработка Текста)


    4. Корпусная лингвистика – занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Главная страница сайта Национального корпуса русского языка


    5. Машинный перевод - направление научных исследований, связанных с построением автоматических систем перевода текстов с одного естественного языка на другой. Главная страница сайта Google- переводчик


    6. Автоматическое реферирование – создание программ сжатого представления естественно - языковых текстов. Сервис построения реферата на сайте Визуальный мир


    7. Полнотекстовый информационный поиск – разработка информационно - поисковых систем с лингвистическим анализом текстов информационного массива и запроса пользователя. Главная страница информационно - поисковой системы Яндекс











    Лингви́стика (от лат. lingua -
    язык), языкозна́ние, языкове́дение - наука,
    изучающая языки.
    Это наука о естественном человеческом языке вообще
    и обо всех языках мира как его
    индивидуализированных представителях.
    В широком смысле слова, лингвистика
    подразделяется на научную и практическую. Чаще
    всего под лингвистикой подразумевается именно
    научная лингвистика. Является частью семиотики как
    науки о знаках.
    Лингвистикой профессионально занимаются учёныелингвисты.

    Лингвистика и Информатика.
    В жизни современного общества важную роль играют автоматизированные
    информационные технологии. Но развитие информационных технологий происходит
    весьма неравномерно: если современный уровень вычислительной техники и
    средств связи поражает воображение, то в области смысловой обработки
    информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от
    достижений в изучении процессов человеческого мышления, процессов речевого
    общения между людьми и от умения моделировать эти процессы на ЭВМ. А это задача чрезвычайной сложности.Когда речь идет о создании перспективных
    информационных технологий, то проблемы автоматической обработки текстовой
    информации, представленной на естественных языках, выступают на передний план.
    Это определяется тем, что мышление человека тесно связано с его языком. Более
    того, естественный язык является инструментом мышления. Он является также
    универсальным средством общения между людьми – средством восприятия,
    накопления, хранения, обработки и передачи информации.
    Проблемами использования естественного языка в системах автоматической
    обработки информации занимается наука компьютерная лингвистика. Эта наука
    возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов
    прошлого столетия. Поначалу, в период своего становления, она имела различные
    названия: математическая лингвистика, вычислительная лингвистика, инженерная
    лингвистика. Но в начале восьмидесятых годов за ней закрепилось название
    компьютерная лингвистика.

    Компьютерная лингвистика - это область знаний, связанная с решением задач
    автоматической обработки информации, представленной на естественном языке.
    Центральными научными проблемами компьютерной лингвистики являются проблема
    моделирования процесса понимания смысла текстов (перехода от текста к
    формализованному представлению его смысла) и проблема синтеза речи (перехода от
    формализованного представления смысла к текстам на естественном языке). Эти проблемы
    возникают при решении ряда прикладных задач:
    1) автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ,
    2) автоматического анализа и синтеза устной речи,
    3) автоматического перевода текстов с одних языков на другие,
    4) общения с ЭВМ на естественном языке,
    5) автоматической классификации и индексирования текстовых документов, их
    автоматического реферирования, поиска документов в полнотекстовых базах данных.
    За прошедшие полвека в области компьютерной лингвистики были получены
    значительные научные и практические результаты: были созданы системы машинного
    перевода текстов с одних естественных языков на другие, системы автоматизированного
    поиска информации в текстах, системы автоматического анализа и синтеза устной речи и
    многие другие. Но были и разочарования. Например, проблема машинного перевода
    текстов с одних языков на другие оказалась значительно сложнее, чем это представляли
    себе пионеры машинного перевода и их последователи. То же самое можно сказать об
    автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной
    речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы
    достигнуть нужных результатов.

    Обработка естественного языка (англ. natural language processing; синтаксический,
    морфологический, семантический анализы текста). Сюда включают также:
    Корпусная лингвистика, создание и использование электронных корпусов текстов
    Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари
    используют, например, для автоматического перевода, проверки орфографии.
    Автоматический перевод текстов. Среди русских переводчиков популярным
    является Промт. Среди бесплатных известен переводчик Google Translate
    Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact
    extraction, text mining)
    Автореферирование (англ. automatic text summarization). Эта функция включена,
    например, в Microsoft Word.
    Построение систем управления знаниями. См. Экспертные системы
    Создание вопросно-ответных систем (англ. question answering systems).
    Оптическое распознавание символов (англ. OCR). Например, программа FineReader
    Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО
    Автоматический синтез речи

    Предыдущая статья: Следующая статья:


© 2015 .
О сайте | Контакты
| Карта сайта