28 марта 2024, четверг, 13:38
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

16 июня 2004, 18:52

Россия заполучила новый корпус – русского языка

Вчера в Институте русского языка имени В. Виноградова состоялась презентация "Национального корпуса русского языка". Лингвисты, литературоведы, да и все гуманитарии наконец-то получили удобный инструмент для исследований, а русский язык получил по заслугам – корпусы большинства крупных литературных языков открыты уже давно.

Корпус – это коллекция специальным образом подобранных текстов на том или ином языке. В отличие от электронных библиотек, он предназначен не для чтения текстов, а для извлечения из них лингвистически важной информации. "Национальный корпус — это не собрание “интересных” или “полезных” текстов; это собрание текстов, интересных или полезных для изучения языка", - пишут создатели корпуса. Это, во-первых, определяет состав текстов: они должны быть статистически грамотно подобраны, с тем чтобы отражать языковую ситуацию эпохи. Во-вторых, они должны содержать разметку различных типов – каждому слову, словосочетанию, предложению и т.д., а также и каждому тексту в целом должен быть приписан ряд характеристик. Для слов – "начальная форма", род, число, падеж, лицо и т.д., для словосочетаний – их синтаксическая функция в предложении, для предложений же – их тип по некоторым известным классификациям. Исследователь может задать круг текстов по жанру, времени создания или, например, по автору и искать в них что-нибудь вроде неодушевленных существительных в родительном падеже. Каждый, кто пробовал делать это с текстами без разметки, поймет разницу.

Количество параметров, по которым может осуществляться поиск, в разных корпусах разное. Но принцип один: с помощью разметки можно найти то, что невозможно (или очень сложно) найти, пользуясь привычным неудобным “Ctrl+F”. О сравнении с популярным еще недавно выписыванием примеров из книжек, например, на карточки речь, конечно, и вовсе не идет.

Задачи, в решении которых может быть полезен национальный корпус: от литературоведческих исследований вроде "Местоимения у писателя N" до лингвистических вроде "Эволюции синтаксической конструкции NN в XIX-XX вв." С его помощью можно даже, скажем, учить иностранный язык. Вообще говоря, сложно представить себе ученого, так или иначе работающего с текстом, которому не облегчил бы работу хорошо организованный корпус.

Наличие корпуса стало едва ли не критерием культурной значимости языка, индикатором зрелости научной среды. Важный литературный язык, не зафиксированный в корпусе, – это немножко моветон. Теперь языку нужны не только грамматика и словарь, но еще и корпус – а грамматика и словарь создаются с немалым участием последнего. Разумеется, образцовый корпус создан на английском материале.

Представленный вчера Национальный корпус русского языка – не первая попытка осуществить нечто подобное в России. Разработки в этой области начались в 1980-х годах, но до завершающей стадии, за редким исключением, не доходили. Имеется всего один русский корпус с морфологической разметкой (и это несмотря на сложную русскую морфологию!), но и он по ряду причин не слишком пригоден для работы. Новый корпус, разработанный московскими и петербургскими лингвистами, включает более 20 млн. слов, тексты разных жанров с начала XIX по конец XX века, богатую разметку. Он предоставляет хорошие поисковые возможности. В процессе создания корпуса был выработан ряд оправдавших себя приемов, новых для корпусной лингвистики.

Теперь у российской науки есть шанс стать законодателем мод в этой области. Во всяком случае, иностранные коллеги очень интересуются.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.