19 марта 2024, вторник, 11:34
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Лекции
хронология темы лекторы

Почему современная лингвистика должна быть лингвистикой корпусов

Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».

Текст лекции

Владимир Плунгян <br> (фото Н. Четвериковой)
Владимир Плунгян (фото Н. Четвериковой)

То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.

В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.

Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.

Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.

Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.

Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.

Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.

Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.

В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.

Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.

Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.

Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.

Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.

Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.

Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.

Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.

Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.

Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.

Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.

Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.

Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.

Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.

Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.

Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры».

Владимир Плунгян <br> (фото Н. Четвериковой)
Владимир Плунгян (фото Н. Четвериковой)

Язык гораздо сложнее современных компьютеров, и вот примерно такая задача перед нами стоит. Вот тексты, сколько угодно их разбирайте, изучайте и напишите грамматику языка. Грамматика – это такая инструкция, как сочинять тексты. Хорошо ли лингвистика с этим справляется, вы можете судить сами по тем грамматикам, которые вам известны. Видимо, всё-таки нет ни одной грамматики, прочтя которую мы свободно заговорим на интересующем нас языке. Мы надеемся, что наши грамматики с каждым годом будут становиться немного лучше, но от конечной цели мы далеки. Далеки по разным причинам. Конечно, объект чудовищно сложен. Язык – сверхсложный объект, но, отчасти, потому что наши теории языка не во всём хороши. В частности, у структуралистских теорий языка было тоже много недостатков, как теперь ясно. Они слишком много запрещали, слишком многое объявляли вне интересов науки о языке.

И вот здесь такой парадоксальный факт. Располагаем мы текстами. Всё, что мы знаем, лингвисты получали из текстов, но лингвисты их не любили, считали, что лучше бы без них, если б язык был материальным, было бы лучше всего. Но раз уж так, поневоле будем заниматься текстами, но при первой возможности мы от них абстрагируемся. Идеология структурализма, очень упрощено, именно такая. Это конечно, не очень хорошо, неправильно. Такая была не только идеология структурализма, но и многих теорий, которые ему непосредственно следовали.

Главный идейный противник структурализма, генеративная лингвистика, лингвистика Хомского, одна из самых популярных сейчас лингвистических теорий, в этом отношении почти ничем от своего смертельного врага не отличается. Хомский не говорит «язык и тексты» или «язык и речь», как говорил Соссюр, он говорит «компетенция и употребление», разные другие употребляет слова, но суть не в этом, а в том, что главное у человека в голове, а тексты – такая же досадная помеха на пути к этой задаче – немедленно постичь устройство человеческих голов. При этом Хомский, в общем-то, так же, как и структуралисты, считает, что во всех головах язык один и тот же, что это такая абстрактная сущность, которая никогда не меняется, не подвержена никакой вариативности, готовые, чеканные правила грамматики, отлитые из бронзы – вот это и есть язык. Такого языка никто не видел, и вряд ли он, конечно, существует. Лингвисты стали слишком много думать о том, чего они наблюдать не могут, и о том, о чем судить они непосредственно не могут, и слишком мало внимания уделяли тому, что у них, так сказать, под ногами. Это привело к тому, что лингвисты мало знали о языке, мало и плохо описывали его свойства, если говорить самокритично.

Корпус в этом отношении произвел колоссальную революцию. Корпус вернул лингвистике ее, может быть, настоящий, полноправный объект. Что такое язык – неизвестно точно. Существует он или нет – неизвестно, может быть существует, но тексты – вот они, их надо изучать. И теперь, благодаря корпусу, это очень легко делать. Теперь уже нельзя сказать: «Конечно, тексты – это очень хорошо и правильно, но у меня вся жизнь уйдет на то, чтобы выписывать, как изменялись формы переходных глаголов в этом языке. Я столько карточек, сколько мне нужно, за всю жизнь не соберу, давайте, я лучше что-нибудь другое сделаю». Теперь так сказать нельзя. Корпус есть, только лень или косность человеческая может помешать им воспользоваться.

Поэтому корпусная лингвистика в узком смысле – это всего лишь наука о том, как создавать корпуса и как ими пользоваться, но она претендует на гораздо большее, на роль новой идеологии науки о языке. Корпус позволяет нам понять, каков язык на самом деле, а не каким мы хотим, чтоб он был. Мы говорим о более сложном и неудобном объекте изучения, но и гораздо более интересном.

Дело в том, что раньше лингвисты не очень любили рассуждать, что в языке бывает, они больше любили рассуждать о том, чего в языке не может быть. Это тоже наследие структурализма и, в особенности, лингвистики Хомского. Хомский особенно любил настаивать на том, что главное для лингвистики – это отрицательный языковой материал, это считалось большим шагом вперед в лингвистической науке. Кто читал лингвистические работы, наверняка помнит, что там есть примеры под звездочкой. Звездочка в начале предложения ставится, если так, с точки зрения автора, сказать нельзя. Положительный материал никто не ценит, его везде много, а вот если мы поймем, как нельзя сказать, то наши грамматические правила будут более точными и полными, потому что они будут объяснять эту невозможность.

Известная логика в этом есть, но логика опасная, даже лукавая. Что значит - так можно или так нельзя сказать? Можно сказать – это значит, так говорят, а нельзя сказать – так не говорят, но как это проверить? Может быть, так можно сказать, но никто так не говорит, или так сказать нельзя, а все говорят. Между возможным и действительным есть некоторая разница. Если начать про это думать, получаются довольно болезненные парадоксы, из которых очень непросто выбраться. Авторы теорий обычно не утруждали себя проникновением во все глубины, они решали вопрос очень просто – если мне кажется, что так сказать можно, значит, можно, а если нельзя – я смело ставлю звездочку. В эпоху господства звездочек такой обычный эпизод на конференции по лингвистике – выходит докладчик к доске, пишет предложение, ставит звездочку, а из зала моментально начинают раздаваться возмущенные голоса: «Нет, так можно сказать!» – и дальше много минут или часов обсуждений. А если я автор теории и мне очень хочется, чтоб так нельзя было сказать, или, наоборот, можно, то легко догадаться, что степень, так сказать, внутренней коррупции здесь очень велика.

Корпус позволяет немножко по-другому подойти к этой проблеме. Есть национальный корпус, мы согласились считать его авторитетным источником. Мы, конечно, можем сказать: «ваш национальный корпус никуда не годится, и русский язык в моем представлении – это другой русский язык», но тогда это будет язык без Пушкина, без Гоголя, без Достоевского, без Набокова, без газеты «Известия», без газеты «Завтра», без дневника школьницы Маши 1983-го года. Всё это есть в корпусе; если вас это не устраивает, значит, ваш русский язык какой-то другой. Если вы убедите человечество в том, что ваш язык лучше, что ж, хорошо, но всё-таки вряд ли это вам удастся. Если в таком огромном национальном корпусе это явление есть, значит, так говорят, а если его нет, что делать? Наш оппонент может сказать: «ну и что, что нет, я могу так сказать, просто ни Достоевскому, ни школьнице Маше почему-то не понадобилось это сказать, а вообще-то по-русски так сказать можно. И вообще, язык нам дан для того, чтобы выражать свои мысли, а мало ли, какие мысли нам придут в голову, количество мыслей бесконечно. Ну, не приходило никому еще в голову таких мыслей, что же, вы отказываетесь их изучать, из-за того, что в вашем корпусе нет такой конструкции?»

Тут какой-нибудь застенчивый лингвист сказал бы: «Ну, как же, не отказываемся», – а корпусная лингвистика говорит довольно твердо: «Да, отказываемся. Сейчас, на данном этапе, если в корпусе из сотен миллионов слов, насчитывающем два-три столетия существования языка, такого не возникло, мы этого изучать не будем. По крайней мере, пусть это явление встает в очередь и скромно дожидается, пока мы изучим то, что в корпусе встречается сотни миллионов раз, миллионы раз, сотни тысяч и тысячи раз. Потом займемся тем, что там встречается единицы раз, а уж потом дойдем до таких потенциальных явлений. И мы будем понимать язык не хуже, а лучше, чем те люди, которые хотят изучать только то, что, может быть, в языке есть, но ни разу не засвидетельствовано».

Это очень глубокое идеологическое разногласие между лингвистикой 60-х, 70-х, 80-х годов, в том числе лингвистикой Хомского, и современной корпусной лингвистикой, ориентированной на текст. Это совершенно разные представления о языке. Раннее, романтическое представление говорило о том, что язык – это такая сверхмощная машина, которая пригодна для всего, любую мысль может выразить и ей совершенно всё равно, какую. Нынешнее представление новой лингвистики немного скромнее оценивает язык. Новая лингвистика говорит, что язык, конечно, прекрасный инструмент, но не всемогущий, и у каждого языка есть свои ограничения.

Язык же обслуживает не отдельного человека, а говорящее на нем общество в целом, и всем в равной степени угодить нельзя. Язык обслуживает, в первую очередь, те потребности, которые в данном обществе наиболее массовые. Есть вещи, о которых мы говорим каждый день и по многу сотен раз, и вот для этого-то наш язык и пригоден лучше всего. Мы это делаем, не задумываясь, это клише, которые мы воспроизводим. Есть какие-то вещи, которые мы говорим реже, но всё равно говорим, и это в языке тоже есть.

На самом деле, язык – это не всемогущий инструмент, который по первому требованию говорящего выполняет его прихоти, а скорее – система клише, шаблонов, которые помогают нам делать то, что каждый из нас много раз делает и делал, это очень хорошо видно с помощью корпусов. Эта мысль не абсолютно новая, она возникала в науке о языке, но всегда была маргинальной. Людей, которые это говорили, не очень слушали. Изучение текстов, которое благодаря корпусам стало доступно, показывает, что слушать их было надо. Тексты разнообразны. Они постоянно нарушают нормы, которые нам бы хотелось считать нормами грамматики. Оказывается, что люди могут сказать и так, и эдак, и всё это прекрасно существует в языке, просто мы этого не видели или не хотели замечать. Жесткость правил очень сильно размывается.

А с другой стороны видно, что эти правила, даже размытые, существуют только для самых ярких областей, наряду с которыми есть и теневые зоны. Бывают вещи, которые сказать трудно, может быть, даже невозможно, но на то и существуют различия между человеческими языками, в противном случае, мы все бы говорили на одном, но мы всё-таки отличаемся друг от друга. Отличия эти в языках закреплены и каждый из опыта знает: что хорошо и легко сказать по-английски, бывает очень трудно сказать по-французски – и наоборот. Это вещь очень тривиальная, и переводчики и просто люди, имеющие опыт двуязычного существования, это прекрасно понимают. Это должно отражаться на нашем знании о языке, в грамматиках.

Язык может быть далеко не так совершенен, как хотелось бы думать, но зато это довольно разнообразный и гибкий инструмент, и теперь корпус дает нам возможность проверить, что в языке действительно есть, а чего в языке, или, по крайней мере, в корпусе нет. И именно поэтому мы ожидаем, что появление корпусов для теоретической лингвистики откроет новые горизонты. Новые теории языка, связанные с корпусом неразрывно, уже появляются, они называются «текстовые модели языка», модели, ориентированные на узус. Такого устоявшегося названия нет, но существенно, что акцент перемещен с языка на тексты, на реальность.

До сих пор я много говорил, чем корпус полезен теоретической лингвистике, отчасти отражая свой собственный интерес. Мне интересна теоретическая лингвистика; может быть, многие, кто занимается теорией языка, не очень хорошо осознают, что эта корпусная революция имеет отношение к теории языка. Но сказанное не значит, что для других областей корпус не нужен. Напротив, корпус очень активно используется, востребован даже скорее в прикладных областях, например в преподавании языка. В обучении языку – и как родному, и как иностранному.

Обучение языку с помощью корпуса – огромная область современной лингвистики, журналы выходят, конференции проводятся. Практики очень быстро оценили корпус как совершенно незаменимый инструмент. Все знают, что есть две вещи, нужные, чтобы овладеть языком, это словарь и грамматика, они нужны и теоретику, и практику. Так вот, если в результате моей лекции вы ничего не поймете и не запомните, это совершенно не страшно. Запомните единственное: теперь для овладения языком человеку нужны не две, а три вещи: словарь, грамматика и корпус текстов данного языка. Потому что и словарь, и грамматика, в общем-то, бесполезны вне этого живого пространства, где язык, собственно, и функционирует.

Более того, и словари и грамматики теперь нужны не традиционные, а нового поколения, то есть не просто словари и грамматики, а словари такого-то корпуса и грамматики такого-то корпуса, что сразу дает нам возможность их проверить – а как проверить было раньше, права эта грамматика, или нет?

Теперь можно проверить. По крайней мере, относительно данного корпуса грамматика или верна, или неверна. Теперь есть три главных результата деятельности науки о языке. Со словарями и грамматиками, я надеюсь, вы умеете обращаться, начните разбираться, как устроен национальный корпус русского языка, чешского, английского, японского, какого угодно, какой вам больше нравится, и привыкайте им пользоваться. В преподавании русского языка корпус довольно активно используется, надо кратко сказать, чем он полезен. Многие преподаватели русского языка за это сразу ухватились.

Дело в том, что преподавание русского языка устроено довольно консервативно. Отдельно существует теория языка, отдельно учебники, особенно школьные, иногда можно даже сказать, что они к науке о языке никакого отношения не имеют. Само обучение русскому языку воспринимается исключительно как обучение правильно писать. Обучения науке о языке в школе не происходит. Но даже в этом случае учащимся сообщают огромное количество сведений, многие из которых совершенно бесполезны, и заставляют иметь дело с какими-то примерами. Не знаю, давно ли вы открывали школьные учебники, но примеры, которые в них содержатся, весьма своеобразны. Конечно, там содержатся примеры из русской классики, и это хорошо, но нельзя забывать, что русский язык девятнадцатого века – это не современный язык. Это язык, который во многих отношениях отличается от языка, на котором мы с вами говорим. Хорошо это или плохо – вопрос отдельный, но это факт. Это происходит с любым языком, и отличия до такой степени сильны, что многие места из классики современный ребенок уже не понимает. Это опять-таки специалистам хорошо известно.

Почему нельзя поменять примеры в школьных учебниках? Это было, может быть, сложно сделать раньше, но с корпусом это сделать крайне просто. На любое слово, конструкцию, явление, тысячи примеров найдутся за пять минут. Преподаватели этим, конечно, пользуются, потому что нужны примеры из современных газет, современной литературы, из разговорного языка. Вы даже не можете себе представить, насколько меняет уроки русского языка простой факт, что школьнику предлагаются предложения на том языке, которым он сам мог бы пользоваться. Эффект потрясающий. От мертвого языка мы переходим к преподаванию живого.

Кроме того, есть известная проблема нормы, рекомендаций. Русский язык относится к тем языкам, где существует норма, она разработана, но норма – это не факт языка, это не явление природы, норма придумана людьми, которые руководствуются какими-то соображениями. Норма должна быть, это удобно для общества, но это не очень естественно для языка. Язык, сейчас никто уже с этим спорить не будет, принципиально вне нормы. В языке существует много всего одновременно, а норма предписывает выбрать что-то одно, всё остальное предписывает преследовать как неправильное, стыдное, неграмотное. Язык как явление природы не может иметь норму. Вы не можете сказать: «дуб – это правильно, а рябина – это неправильно». Или «дуб вот такой толщины – это правильно, а дуб другой толщины – это уже какой-то неграмотный дуб». Человек в принципе не может сказать того, чего в языке нет. Если кто-то уже что-то сказал, значит, так его язык устроен, так говорить «можно» и наше дело это изучить. Но дело общества что-то одно запретить, что-то другое – выбрать. Как это делается, на что опираются творцы нормы,- вопрос отдельный. Но они это делают, и хорошо бы, если б они смотрели в корпус, потому что при прочих равных условиях хорошо бы, чтобы норма приветствовала то, чего в языке много, то, как говорят большинство носителей. Если же мы обратимся ко многим нынешним рекомендациям, мы немедленно увидим, что часть из них нежизнеспособна. Корпус их не подтверждает и не поддерживает, от них вполне можно отказываться. Это немногие примеры, но я думаю, что вы легко дополните их другими.

Еще раз повторяю свою главную мысль: современная лингвистика – это лингвистика корпусов, корпуса существуют, они созданы, их будет еще больше. Национальный корпус русского языка существует, он открыт для использования, поэтому давайте помнить теперь, что это есть и, может быть, наша жизнь будет немножко лучше. Если мы – теоретики языка, наша жизнь будет гораздо лучше, если мы простые граждане – наша жизнь тоже немного улучшится. Ну вот, давайте закончим на этой мажорной ноте.

Обсуждение лекции

Владимир Плунгян <br> (фото Н. Четвериковой)
Владимир Плунгян (фото Н. Четвериковой)

Борис Долгин: Есть наука социология, которая тоже должна узнавать что-то по поводу довольно массовых явлений, и сталкивается с проблемой, что не всегда имеет возможность работать со всей совокупностью объектов, о которых она хочет сделать вывод. Там разработаны такие понятия, как репрезентативность выборки. Насколько корпусная лингвистика, с учетом того, что было сказано об изменчивости языка, о вариативности языка – диалектной, социолектной, – насколько при формировании корпусов всё-таки этот момент учитывается? Не возникает ли опасности, что, отметая какую-то часть явлений как не попавшую в корпус, можно не поймать те явления, которые не попали в него вполне закономерно, а не случайно?

Владимир Плунгян: Если не попадет в корпус речь каких-то групп – такого быть не должно. В принципе национальный корпус не стремится быть избирательным. Наш замысел, замысел составителей больших корпусов – включать в него всё, что попадается. Если мы не хотим изучать устную речь малограмотных носителей – это наше право, мы нажмем на кнопку и не будем это включать в наши примеры, но это, конечно, должно в корпусе присутствовать. Плох и неправилен тот корпус, где нет какого-то социально важного пласта, как плох и тот корпус, где нет текстов каких-то известных писателей. Это всё, конечно, должно быть. Другое дело, что с наступлением корпусной эры это кажется очевидным, как же иначе, но отношения лингвистики и социологии далеко не всегда были безоблачными. Структуралистское наследие предписывало не обращать на это внимания, абстрагироваться. Казалось, что язык единый. Это неизвестно кому принадлежащий абстрактный язык, мы его должны усреднить, упростить и только после этого изучать. То, что это неправильный подход, лингвисты поняли после бесчисленных мучительных проб и ошибок. Они очень хотели, чтобы был некий идеальный говорящий, и только его и изучать, но такого не получилось. Хомский до сих пор считает, что надо изучать идеального говорящего, но это невозможно.

Поэтому возникла социолингвистика, наука на стыке обеих дисциплин. Она начала бурно развиваться только в 60-70-е годы, долгое время лингвисты ее немного презирали, как будто это что-то не наше, не чистая теория. Корпусная лингвистика превращает социолингвистику не просто в малоинтересную, периферийную прикладную область, а говорит, что нормальная лингвистика не социолингвистикой быть не может. Вот ответ на ваш вопрос.

Григорий Глазков: Спасибо, очень интересное выступление. А всё-таки, что является предметом изучения? Ради чего лингвистика изучает то, что она изучает? Вы сказали, что норма не является предметом.

Владимир Плунгян: Она не является предметом изучения теории языка. То есть она может являться предметом как нечто, созданное людьми, но не как факт языка.

Григорий Глазков: Если я вас правильно понял, вопрос о том, как можно сказать и как нельзя сказать, с повестки дня снят или не снят?

Владимир Плунгян: Снят.

Григорий Глазков: Если вопрос снят, тогда вообще не очень понятно, что такое язык.

Владимир Плунгян: В языке, произвольно взятом, никакой нормы нет, и объектом теоретической лингвистики норма, безусловно, не является, но это совершенно не катастрофа. Что изучает теоретическая лингвистика? На мой взгляд, она изучает гораздо более интересную и глобальную вещь, то, каким образом человек пользуется языком. Что мы делаем – или что мы должны знать в тот момент, когда мы порождаем тексты. Ведь что такое язык? Мне пришла в голову некоторая мысль. Я вам хочу сейчас ее сообщить на русском языке. Я произвожу колебания воздуха с помощью своего речевого аппарата, а вы видите в них какой-то смысл и восстанавливаете то, что у меня было в голове. Почему у вас это получилось? Потому что мы с вами знаем один и тот же язык. Мы с вами знаем чудесный способ, как нематериальную мысль превратить в эти странные сотрясения воздуха или закорючки на бумаге, потому что есть еще письменность, но это вещь вторичная.  

Что мы знаем и как мы это умеем – вот вопрос теории языка. Вопрос необычайно сложный. Что надо? Знать много слов? Уметь их в правильном порядке ставить? Каких слов, когда, в каком порядке, а может быть, это не помогает? Вы понимаете, что это огромное количество вопросов, и лингвистика не очень хорошо умеет на эти вопросы отвечать. Вот это теория языка.

Григорий Глазков: До вас выступал один лингвист, не помню, как его звали, он говорил о русском языке на грани нервного срыва. Он как раз сказал вещь противоположную, которая мне не понравилась, о том, что главное – это норма, а все остальное – ерунда.

Я скажу, в каком это было контексте, мой вопрос как раз об этом. Я пытался его спрашивать, а сейчас спрошу у вас. Речь об эстетической стороне языка. Много говорится о функциональной стороне, но вообще-то законы, по которым язык развивается, к функциональности имеют только частичное отношение. По большей части это эстетические критерии, как живопись, архитектура, которая вполне функциональна. Можно построить любой дом, даже самый уродливый, но он в веках не проживет, его не будут изучать, ему не будут подражать, его не будут пытаться повторить, его попытаются забыть, как страшный сон. Язык, на мой взгляд, живет примерно по таким же законам.

Например, можно ли сказать "более лучше"? На мой взгляд, нет. На мой взгляд, это безвкусно. Когда-то пуристы, еще не очень давно, на моей памяти, выступали против выражения «ужасно смешно» и возмущались, как это может быть? Ужасно – это ужасно, а смешно – это смешно. Но лично мне уже тогда было понятно, что так можно сказать, сейчас с этим уже никто не спорит. Это, в общем-то, вопрос вкуса. И почему в учебниках в качестве примеров берут образцы литературных текстов, потому что писатели – это такие же образцы текстов в языке, как великие художники в живописи, элита делает язык. Конечно, среда творится всеми носителями языка, но, тем не менее, язык делается людьми с хорошим вкусом, вот тогда он жизнеспособен. Как вы относитесь к этому, и какое отношение это имеет к лингвистике?

Владимир Плунгян: Да, это действительно, очень интересный вопрос, очень характерное рассуждение и много чего можно сказать по этому поводу. Кратко, я с этим рассуждением, хотя оно мне очень симпатично и близко, как специалист по языку категорически не согласен. Буквально ни с одним вашим положением, хотя действительно, многие люди так думают, а люди, не занимающиеся языком профессионально, наверное, все так думают. Простой ответ – ботаник изучает растения. Точка зрения ботаника на растения не состоит в том, что бывают красивые и некрасивые растения, правильно? Ему это совершенно все равно, он, наверное, об этом не думает. Ботаника должна описать, систематизировать, уметь называть, может быть, историю растений знать. Это естественная наука, понятно, какой у нее набор задач. Лингвистика в этом смысле абсолютно естественная наука. Ваша точка зрения – не точка зрения ботаника, это точка зрения садовника. Ремесло садовника – почтенное, спросите любого человека с улицы, кто вам ближе, ботаник или садовник, кто делает вашу жизнь лучше – вам скажут, что, конечно, садовник. Должен ли садовник знать ботанику? Еще один интересный вопрос. Может быть, и должен. Вреда, по крайней мере, не будет. Но и садовник, мало сведущий в ботанике, – легко представимое явление. Аналогично – должен ли писатель изучать тонкости языка, если это его родной язык? Наверное, не обязательно, иногда даже считается, что это ему мешает.

Всё, что связано с эстетикой, имеет отношение к человеческому обществу, это делается людьми, создается. Это прекрасная область, но она не имеет отношения к тому, о чем мы сейчас говорим. Язык – явление природы. Разве вы можете создать язык? Вы можете им пользоваться, как мы можем собрать растения из разных стран: некоторые растения не растут в наших широтах, мы можем их найти и посадить у себя в саду.

Борис Долгин: То есть вы не воспринимаете язык как социальный продукт?

Владимир Плунгян: А кто сказал, что социальный и эстетический продукт - это одно и то же? Социум - тоже явление природы в каком-то смысле. И человек в очень малой степени может вмешиваться в процессы, управляющие жизнью социума. Мы даже не всегда осознаем это. Мы очень страдаем от этого, но если б мы умели управлять социальными процессами так же, как мы умеем управлять разведением садов, жизнь наша была бы гораздо лучше. Даже если вы самый великий писатель, вы не можете отменить в русском языке дательный падеж. Даже если вы самый кровожадный диктатор, вы не можете обязать сограждан перенести ударение в существительных женского рода с окончания на основу, даже если вы будете расстреливать всех, кто не повинуется. В лучшем случае, вы можете запретить употребление каких-то слов, и то этого почти никогда не удается, при том, что отдельные слова – это не язык, это далекий подступ к языку.

Люди очень хотели, мечтали вмешиваться в язык, но это никогда не удавалось. В языке есть социальная, эстетическая, культурная сторона. Поэтому в языке есть нормы. А представьте себе язык какого-нибудь племени Новой Гвинеи, у которого нет даже письменности, почему этому языку вы отказываете в праве на существование? Он ничем не хуже европейских языков, даже, может быть, богаче и интереснее. Это такой же интересный язык, но там нет ни писателей, ни литературы, ни нормы, и, тем не менее, эти языки прекрасно живут и функционируют. Про писателей я еще скажу, потому что это очень важно. Верно ли, что образцовый язык – это язык писателей? Вот тут вы затронули очень важную проблему. И очень спорную. Так действительно, всегда считали, и в нашей традиции тоже. Не случайно есть термин – «литературный язык». Русский литературный язык – это язык русской литературы. Этот термин, кстати, плохо переводим на другие европейские языки, по-английски обычно говорят standard language. То есть не литературный, а стандартный, нормированный язык, а это не одно и то же. Известная литературоцентричность вообще русской культуре свойственна. По отношению к культуре оценивать это сложно. Наверное, это хорошее свойство русской культуры. Русская литература – одна из великих литератур мира, но ставить знак равенства между языком вообще и языком писателей, какими бы они ни были, – глубокое заблуждение. Не писатели создают язык, а все мы с вами. И всё сказанное относится к очень ограниченному периоду существования литературы. Это так называемая классическая реалистическая литература, которая претендовала на то, что она отражает жизнь, как она есть. Это некая специальная эстетическая программа, одна из многих, вообще говоря, возможных, но в рамках такой программы и стало казаться, что язык писателей – это такой лучший мини-корпус языка в целом. То есть как бы писатели в ту эпоху создали нам такой национальный корпус, а мы могли считать, что их язык отражает действительность. Такова была эстетическая установка. Но возьмите современную литературу постмодернистскую, разве ее установка в том, чтоб отражать язык, как он есть? Все что угодно, но только не это. Современная литература в основном занимается экспериментами с языком, для нее чем дальше от обыденной речи, тем лучше. Если мы составим корпус из языка таких писателей, что с нами сделают наши же сограждане?

Таким образом, литературоцентричность из корпусной лингвистики всячески изгоняется. В любом корпусе литература занимает не больше тридцати процентов. У нас, в русском корпусе, более сорока – исключительно из уважения к литературоцентричности русской культуры. Это сверхвысокая норма.

Григорий Глазков: Не хочется занимать очень много времени, просто хочу заметить, что я ни в коем случае не сторонник главенства нормы, я абсолютно не имею в виду, что писатели могут делать с языком все что угодно. Единственное, о чем я пытался говорить, – что развитие языка подчиняется эстетическим критериям, и никаких других критериев совершенно не понимаю в этом смысле. Может быть, вы мне скажете, какие они. Я не случайно привел в пример архитектуру, потому что жизнь растений – это жизнь растений, человек не является растением. Вам тогда дуб надо назначить лингвистом среди растений. Ваша метафора, ваша аналогия не очень корректна. Но вообще, большое вам спасибо, вы на многое пролили свет для меня.

Владимир Плунгян: Если вы докажете, что жизнь деревьев в тропических джунглях управляется эстетикой, а не только жизнь растений в садах, тогда ничего не останется, как согласиться с вами. Но тогда надо будет объяснить, что такое эстетически правильная языковая форма, а что такое неправильная.

Вопрос из зала: Вы изучаете язык и то, что написано. А как насчет устного языка?

Владимир Плунгян: Тоже изучаем. Я как раз и пытался сказать, что мы изучаем далеко не только литературный язык, мы давно отказались от мысли о том, что язык писателей – это начало и конец языка. Мы и его изучаем, но он знает свое место. Мы изучаем далеко не то, что написано. Безусловно, устный язык – важнейшая часть любого корпуса, в том числе и нашего корпуса, более того, нужно исправлять существующий повсеместно перекос, примат письменного над устным. Язык существует в устной форме, письменная форма вторична, и изучать надо в первую очередь то, как люди говорят, а не то, как люди пишут. Корпусная лингвистика пытается эти приоритеты восстановить.

Лев Московкин: Объясните, пожалуйста, что такое корпус, как он строится, это эмпирические вещи, эвристические, или есть какие-то алгоритмы. И очень большая просьба, не портите мне, пожалуйста, как эволюционисту впечатление от вашей блестящей лекции рассуждениями о том, что вы не знаете. В эволюции огромную роль играет эстетизм. Спасибо.

Владимир Плунгян: Я не знаю, лично мне было бы приятно, чтобы эстетизм играл в эволюции огромную роль. Но я про это ничего не знаю. Про то, как строится корпус, я вроде бы уже долго рассказывал. В смысле – чем мы руководствуемся, отбирая для корпуса те или иные тексты? Корпус должен быть представительным. Он отражает по возможности все, что на данном временном отрезке в языке существует, и отражает в некоторых правильных пропорциях. Мне кажется, что не стоит здесь вдаваться в технические подробности, есть методики, корпусная лингвистика, собственно, и есть наука об этом. Обсуждение этих деталей не очень будет интересно аудитории, я думаю.

Григорий Чудновский: Я бы своего коллегу поддержал, для меня существеннее, как этот корпус создается, но я вижу, вы уклоняетесь. Тогда другой маленький вопрос. Все, что находится в мировой сети Интернет, это корпус? Все, что скажет Черномырдин своим известным языком, это корпус? Или Жванецкий? Поясните мне это, чтобы я заснул спокойно.

Владимир Плунгян <br> (фото Н. Четвериковой)
Владимир Плунгян (фото Н. Четвериковой)

Владимир Плунгян: Корпус создается по специальной методике, я думаю, что не стоит выходить за пределы этого таинственного ответа. А ваш вопрос про Интернет, действительно, очень интересный, мне самому бы следовало об этом сказать. Конечно, Интернет – это не столько корпус, сколько библиотека. Это такой огромный прото-корпус. Конечно, Интернет – это колоссальный подарок лингвистам. Доступ в Интернет имеет абсолютно любой человек. Каждый может напечатать что-то на клавиатуре и мировое пространство пополнить созданным им самим текстом. Где и когда в истории человечества такое было? Писало в большинстве культур очень ограниченное число людей. Те люди, которые умели писать, считали достойным быть письменным далеко не любой текст. Поэтому мы получали даже о письменных языках довольно искаженное представление. Лингвисты, конечно, стремились убрать примат письменного над устным, но что и сколько может изучить горстка лингвистов? Они будут ходить с магнитофонами за людьми, записывать, потом расшифровывать, издавать. Конечно, это капля в море. А теперь представьте себе: все человечество, практически все взрослые носители языка старше 12 лет сами себя ежедневно записывают в лавинообразных количествах, изучай - не хочу. Это замечательный подарок, мы очень любим и ценим эти Интернет-тексты. Если мы это разметим, это будет включено в корпус. Слова Черномырдина в корпусе – почему нет? Корпус к таким вещам относится очень просто, не «можно – нельзя», не «красиво – некрасиво», «правильно – неправильно», а один раз сказано или миллион. Сухая статистика.

Вопрос из зала: У меня тоже технический вопрос. Я занимаюсь нарративной традицией блоггеров. Там масса неологизмов, словосочетаний интересных, хотелось бы узнать, ведется ли мониторинг, и каков период обработки, разметки таких текстов?

Владимир Плунгян: Может быть такие тексты – не приоритетный для нас объект. Если бы кто-то ими занимался специально, было бы, конечно, лучше, потому что у нас много других проблем. Но текст, существующий в электронном виде, попадает в корпус очень быстро. Разметка выполняется, в основном, программным образом, автоматически. За несколько дней можно разметить текст, поместить его в корпус, это не проблема. В корпусе у нас, например, есть тексты Живого Журнала. Не все, может быть, стоило бы больше текстов включить, но этим можно заниматься дальше. Еще раз, если явление массовое, оно будет, независимо от того, какой выборкой вы пользовались, даже если вы случайно делали выборку.

Борис Долгин: Вот социолог точно скажет, что это не так. Что стихийная выборка совершенно не обязательно точно представит какое-то значимое явление. «Случайность» выборки надо формировать вполне искусственно.

Владимир Плунгян: Можем ли мы упустить что-то очень редкое, какие-то индивидуальные причуды? Безусловно, можем. Можем ли мы включить какого-то блоггера, рядом с которым даже Черномырдин – это классик русского языка? Не исключено, хотя мы стараемся, чтобы такого не было. Это может быть, но это будет единичным явлением. В корпусе это не страшно. Если то, что нам не очень нравится, туда попадет, мы не боимся, потому что в любом случае это не будет массовым. Если это массовое – значит, надо пересматривать свое отношение к этому явлению.

Борис Долгин: Вы сказали, как теперь удобно и замечательно живется теоретикам, ну, существенно лучше тем, которые хотят этим пользоваться. Не могли бы вы привести пример или примеры каких-либо теоретических концепций, которые таким образом были выявлены, или подтверждены, или опровергнуты, в общем, некоторый реальный выхлоп.

Владимир Плунгян: Я понимаю вопрос, мне не очень просто это сделать, не углубляясь в какие-то специальные вещи, но попробую ответить так: были вещи, которых в старых грамматиках, составленных в докорпусную эпоху, вообще не было, никак. Например, не было статистики. Всякая грамматика была плоской. Вот вы описываете склонение данного языка. Вы перечисляете падежи, приводите правила образования падежных форм, типы склонений, любая грамматика так устроена, больше ничего не сказано. А нам интересно знать, какие падежи употребляются чаще, какие реже. Какие типы форм употребляются чаще, какие реже, какой вариант преобладает при вариативности. Раньше это очень трудно было установить, не было достоверных способов.

Грамматик, в которых бы было такое статистическое зеркало, раньше просто не было. Сейчас они начали появляться. И как только эта информация систематически становится доступна, мы получаем очень интересный материал для рассуждения, в частности, мы оказываемся гораздо более готовы ответить на вечный вопрос теории языка, вопрос о причинах языковых изменений. Известно, что язык меняется, это его свойство, он не может не меняться, такова его природа, язык каждого следующего поколения будет другой. Как он меняется, почему и что движущая сила? Гипотезы о том, что изменчивость связана с частотностью, конечно, высказывались. Но это были только гипотезы. Сейчас их удается проверить, и возникает целая область такой диахронической лингвистики, целый ряд совершенно конкретных эволюционных механизмов.

Это удалось понять благодаря корпусу. Это и теория, и практика составления грамматик. Многие представления того же Хомского оказываются не адекватны тому, что мы находим. Он утверждает, что его теория объясняет лучше всего то, чего в языке не может быть. Но такую теорию очень трудно проверить. Объяснять то, что в языке есть, он считает не такой интересной задачей. Но раньше ничего нельзя было проверить, а сейчас одну теорию проверить можно, а другую нельзя. Хомский даже в свое время несколько раз сказал, что не понимает, зачем нужны корпуса, что это абсолютно бесполезное предприятие, что нет такой лингвистики, как корпусная лингвистика.

Любовь Борусяк: Во-первых, мне хочется поблагодарить сегодняшнего лектора, по-моему, это было безумно интересно, у меня только вот такая мысль возникла. Пока лингвистика занималась нормой, старая теория – это нормативный подход, она, в общем, дружила с обществом, потому что общество по отношению к языку страшно консервативно, наши нормы, которые созданы всё-таки какими-то группами, говорили, что красиво, некрасиво, правильно, неправильно. Сейчас дико консервативное по отношению к языку общество будет относиться к этим открытиям, новым подходам лингвистики, негативно. Хотя, с моей точки зрения, этот подход – самый живой в том смысле, что всё новое, что появляется, в частности, эксперименты с языком, выходят из подполья, получают право на существование. А у нас в русском языке и элитарной новой литературе сразу возникает его отторжение на уровне поползновений, потому что всё, что не классика, то не соответствует нашим нормам и не может существовать, а у вас получается, что может. Это так?

Владимир Плунгян: Нет, мне кажется, что обсуждение этих вопросов не должно принести вреда, скорее пользу. Никакой лингвист, в том числе и я, не предлагает отменить норму, норма нужна обществу, она должна существовать, но очень полезно объяснить людям, что норма создается людьми, и решения о норме принимаются на основе каких-то критериев. Это как, например, тип государственного устройства, мы хотим – у нас будет парламентская республика, хотим – у нас будет монархия. Так же и норма. Хотим, объявим это нормой. К изучению языка это, в данном смысле, не имеет отношения, но, конечно, обсуждать это нужно. И отменять норму не нужно. Мои слова – не призыв отменить норму. Нужно просто лучше представлять природу этого явления, вот и всё.

Виталий Найшуль: У меня технический вопрос. Я пользовался корпусом, там богатые средства отбора, но не очень богатые средства обработки. У меня вопрос к собирателям, есть ли какие-то движения, какая жизнь ожидается в этом направлении?

Владимир Плунгян: То есть вы получили много примеров и хотите иметь удобный инструмент и что-то с ним делать? Да, конечно, сейчас в существующей версии корпуса этого нет, и мы очень хорошо понимаем, что это нужно. Это одна из приоритетных задач. Но другие корпуса сделаны гораздо грубее, чем наш. Наш корпус – первый, сделанный лингвистами. Не программистами, не специалистами по статистике речи, а теоретическими лингвистами для себя. Наконец-то мы призвали именно теоретических лингвистов этим подарком воспользоваться. И он, конечно, немного другой, чем предыдущие корпуса, которые были в этом смысле попроще. Мы поставили корпус на службу науке о языке, что и должно быть его главной задачей. Но это во многом вопрос времени и человеческих ресурсов. Нас поддерживает компания «Яндекс», надеемся, она и в этом вопросе пойдет нам навстречу.

Борис Долгин: А пишутся ли новые истории языков на базе корпуса?

Владимир Плунгян: Да, движение в этом направлении идет, непросто написать историю языка в целом, но это одно из главных направлений, главных типов отдачи корпуса. Во многом ведь именно для истории языка используется корпус.

Борис Долгин: Какие вы видите перспективы кроме сугубо технических? Что дальше?

Владимир Плунгян: Я думаю всё-таки, что с массовым использованием корпуса лингвистика станет существенно другой наукой. Гораздо более естественной, гораздо более эмпирически-ориентированной, но в каком-то смысле еще дальше уйдет из этого филологического гнезда, из которого она уже двести лет как пытается выбраться. Будет больше нетривиальных утверждений и больше неожиданностей. Я хотел бы увидеть корпусно-ориентированную грамматику русского языка и многое другое, надеюсь, что мы скоро это увидим.

Борис Долгин: С какой еще стороны, кроме уже указанных вами, есть оппозиция корпусному движению?

Владимир Плунгян: Если не брать в расчет теоретиков старой школы, я особенно оппозиции и не вижу. Разве что это могут быть очень ленивые лингвисты, которым не хочется нажимать на кнопки, которые считают, что про свой родной язык уж они-то всё знают, а это глубокое заблуждение. Язык шире всякого отдельного человека, даже писателя, даже великого писателя, даже великого лингвиста. И очень опасно отождествлять свою компетенцию с языком. Это очень наглядный урок корпуса. Когда я начал пользоваться корпусом, мои представления о русском языке очень расширились. Мне казалось, я знаю, что можно встретить в языке, а что нельзя, но самые удивительные конструкции встречались мне в корпусе массовым образом. Корпус в этом смысле учит смирению, а не очень смиренные, гордые лингвисты, возможно, будут сопротивляться. Но, я думаю, это единичные случаи, а в основном все внутри нашей профессии только приветствуют появление корпуса.

Борис Долгин: Использование корпусной лингвистики в программировании поисковых машин, новой компьютерной лингвистике возможно?

Владимир Плунгян: Да, конечно, в прикладной области есть колоссальные возможности использования корпуса, мне бы следовало сказать об этом чуть более четко. Не случайно первыми оценившими возможности корпусов были именно программисты, специалисты по автоматической обработке текста. Корпус дает модель. Почему, собственно, нас поддержала компания Яндекс? Потому что именно компании Яндекс нужен был русский корпус, который им в одиночку было трудно создать. И когда они наконец-то узнали, что есть лингвисты, которые готовы этим заняться, они просто с распростертыми объятиями к нам пришли. Корпус – это полигон, это модель, на которой тестируются все такие программы, если он размечен. Ведь корпус дает возможность проверить не только теорию языка гораздо эффективнее, чем раньше, но и все прикладные разработки по данному языку. Поэтому он используется и для автоматического перевода, на который почти что уже махнули было рукой, а сейчас этим снова занимаются. Как теперь перевести предложение? Найти его в параллельном корпусе. Есть и такой подход.

Борис Долгин: То есть это принципиально новый подход к автоматическому переводу?

Владимир Плунгян: Конечно, вся эта корпусная революция и состоит в том, что язык в гораздо меньшей степени абстрактная конструкция, которую никто не видел, и в гораздо большей степени – живое море текстов. Корпус заставляет нас повернуться лицом к этой реальности. Это меняет и теорию, и практику, я уже много об этом говорил.

В циклах «Публичные лекции «Полит.ру» и «Публичные лекции «Полiт.ua» выступили:

Подпишитесь
— чтобы вовремя узнавать о новых публичных лекциях и других мероприятиях!

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.