28 марта 2024, четверг, 19:02
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

13 февраля 2014, 17:21

Новый инструмент лингвистических исследований

Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002
Фрагмент записи сказания «Кара-хан» на мрасском диалекте шорского языка, 2002

Сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН создан и пополняется электронный корпус текстов на четырех языках малочисленных народов Сибири — ненецком, телеутском, шорском и эвенкийском. Проект осуществляется в рамках программы Президиума РАН «Корпусная лингвистика» (2012-2014 гг.).

 
 

Лингвисты, антропологи и фольклористы, специализирующиеся на языках Сибири, получили доступ к еще одному инструменту, при помощи которого они могут создавать выборку важнейших сопряженностей для каждого слова, собирать статистику употребления лексем/словоформ, анализировать контекст словоупотребления в заданном тексте и во всем корпусе, сравнивать списки словоформ из всех представленных в корпусе текстов (по текстам, сказителям, или, на языке лингвистики, по говорам, диалектам и языкам). 

Языки описываемого Корпуса относятся к тюркской (шорский и телеутский) и тунгусо-манчжурской (эвенкийский) ветвям алтайской макросемьи, а также к самодийской ветви уральской семьи языков (ненецкий).

 
Дмитрий Функ

На сайте проекта хранятся как исходные (включая рукописи, аудио- и видеозаписи), так и нормализованные (т.е. приведенные к орфографической норме соответствующего языка или диалекта) варианты записи текстов. Самые ранние тексты на шорском языке были записаны В.В. Радловым в 1861 году. База постоянно пополняется, так в книжном подкорпусе ненецкого языка недавно появились переводы Евангелия от Луки и Евангелия от Марка. Кроме того, есть современные газетные тексты на ненецком и эвенкийском, записи 1930-х — 1950-х из книг Г.М. Василевич (эвенкийский), архивные записи Н.П. Дыренковой (шорский), нескольких сборников ненецкого фольклора разных лет

«Наш корпус — не единственный из числа тех, что имеют дело с языками малочисленных народов Сибири, но — самый открытый, самый большой и с массой опций, которых нет в корпусах у профессиональных лингвистов, в чем целиком и полностью заслуга нынешнего руководителя проекта — Кирилла Шаховцова», — рассказал ProScience идейный вдохновитель и первый руководитель проекта — Дмитрий Анатольевич Функ, профессор, д.и.н., заведующий кафедрой этнологии МГУ.

 
Кирилл Шаховцов. Фото: Александра Терехина

«Система позволяет идентифицировать пары похожих предложений в заданных текстах и искать предложения похожие на заданное по всему корпусу или набору текстов. Это очень нравится фольклористам, так как можно легко выявлять различные устойчивые выражения и прочие «формулы», они давно говорят о сотрудничестве», - уточняет Кирилл Шаховцов, к.и.н., научный сотрудник отдела Севера и Сибири ИЭА РАН, нынешний руководитель проекта.

Мысли о создании корпуса текстов на языках малочисленных народов Сибири появились у Дмитрия Анатольевича еще в 2007—2008 годах, когда он заведовал отделом Севера и Сибири Института этнологии и антропологии РАН. Оформить проектную заявку помог утренний звонок директора института: «В начале 2011 г. Валерий Александрович Тишков обратился ко мне с вопросом: «Мы что-нибудь знаем о корпусной лингвистике?». Разумеется, я ответил: «Да!». Через полчаса после звонка заявка на грант была отправлена директору. Так был получен первый грант на этот проект» (подробнее о корпусной лингвистике – см. лекцию Владимира Плунгяна «Почему современная лингвистика должна быть лингвистикой корпусов»).

Основой корпуса стали архивные материалы профессора Д.А. Функа по шорскому языку, пополняемые в ходе проекта новыми сборами в поле. «Наполнять корпус планировалось в основном шорскими материалами — это мои записи фольклора, которые я вел, начиная с 1983 г. Этих записей столько, что даже введенное сейчас в корпус — это в лучшем случае четверть имеющегося у меня. Эвенкийские тексты во многом являются результатом реализации данного проекта, позволившего совершать дополнительные полевые выезды для записи и расшифровки текстов», — поясняет профессор.

 
Надежда Мамонтова с эвенкийскими детьми. Фото: Кирилл Шаховцов

В прошлом году проект получил поддержку от двух фондов: РГНФ выделил грант на анализ эвенкийских и ненецких текстов, а Фонд фундаментальных лингвистических исследований — на расшифровку части записей Дмитрий Анатольевича 1983—85 гг.

Среди участников проекта – Александра Терехина, занимающаяся наполнением ненецкого корпуса, который был добавлен в 2012 году. Часть ненецкого материала записывалась в поле специально для проекта. Надежда Мамонтова, защитившая в прошлом году кандидатскую диссертацию по языку и идентичности эвенков, сейчас отвечает за наполнение эвенкийского корпуса и руководит проектом РГНФ. 

Что касается самих представителей малочисленных народов Сибири, то некоторые из них (в частности, шорцы) участвуют в этом проекте, другие же, воодушевившись реализацией идеи, лишь демонстрируют готовность принять в нем участие. «Это на мониторе картинка красивая и все легко и быстро находится, сравнивается и т. п., но чтобы этой картинки добиться, надо элементарно часами, сутками, месяцами сидеть не вылезая из-за компьютера и вбивать по определенной методе эти самые тексты, а если это звук, то сначала его расшифровывать и т.д. и т.п.», — сетует Дмитрий Анатольевич.

 
Александра Терехина. Интервью с носителем эвенкийского языка. Фото: Кирилл Шаховцов

Пока уровень финансирования не вполне соответствует затрачиваемым усилиям, что не позволяет ни быстро расширить круг охвата языков, ни интенсифицировать обработку имеющихся материалов, а архивных записей по всей России крайне много.

В тексте использованы фотографии из экспедиции к эвенкам «Информационно-прикладная миссия в Эвенкийском муниципальном районе Красноярского края по сбору информации для подготовки рекомендаций по поддержке языков, находящихся под угрозой исчезновения», организованной в июне 2011.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.