Русский национальный корпус

Эссе из сборника «О чем речь» филолога Ирины Левонтиной, посвященного жизни и трансформации языка в наши дни: что такое Национальный корпус русского языка и зачем он нужен.
Русский национальный корпус

Вот уже более десяти лет существует Национальный корпус русского языка. НКРЯ — “это информационно-справочная система, основанная на собрании русских текстов в электронной форме”. Сейчас общий объем Корпуса — более 500 млн слов. Делает его блестящая команда лингвистов — специалистов по так называемой корпусной лингвистике, при участии разных организаций, прежде всего Яндекса и Института русского языка им. В. В. Виноградова РАН. Отметим, что в мире корпусная лингвистика вообще сейчас бурно развивается, ср., например, один из образцовых корпусов — Британский национальный корпус (BNC).

Корпус — не просто большое собрание текстов. Это собрание сбалансированное (тексты разного типа отобраны в определенной пропорции). К тому же для конкретной задачи можно выбрать тексты того или иного жанра, времени и т. п. Например, можно задать такой подкорпус: поэтические тексты с автором-женщиной до 1950 года рождения. Искать по массиву текстов можно определенную словоформу или сочетание слов, а также два или более слов, находящихся в тексте на указанном расстоянии друг от друга, а также можно задать не слово, а грамматическую форму (допустим, чтобы изучить модель управления глагола). И много еще чего можно делать. И разумеется, со всяческой статистикой.

Например, когда я пыталась выяснить, как за последние сто лет изменилось произношение слова артель (о нем есть рассказ в этой книжке), я воспользовалась, в частности, МУРКО — мультимедийным корпусом, входящим в НКРЯ. Как же было здорово, нажав кнопку, моментально получить одиннадцать отрывочков из фильмов, где это слово произносят! Замечательно, что Корпус все растет и растет, а его поисковые инструменты всё изощряются и изощряются.

С появлением НКРЯ жизнь лингвистов-русистов очень украсилась. То, на что у нас раньше уходили годы (выискивание примеров по текстам, сортировка пыльных карточек с выписанными контекстами), теперь достигается за несколько секунд и в гораздо большем объеме. А для лексикографов настала просто райская жизнь! Правда, замечу, что это привело и к появлению большого количества лингвистических работ, выполненных по принципу “наливай и пей”: прогоняешь какое-нибудь слово через Корпус — и готово дело. А там есть еще такая чудная кнопочка — “Показать распределение по годам”. Нажимаешь — и выскакивает красивый график. И пожалуйста — научная статья: вот, мол, такое-то слово, в такие-то годы столько-то, вот столько-то процентов во множественном числе, а в таком-то жанре столько-то. Хочется спросить: “И?” В молодом поколении лингвистов многие убеждены, что именно так выглядит настоящая наука, а, скажем, проводимый вручную тонкий семантический анализ — так, пережитки прошлого. Ну да ничего, будем надеяться, что это детская болезнь и она пройдет.

Помимо собственно научной работы, Корпус еще изумителен тем, что теперь можно получать какие-то предварительные ответы на возникающие в ходе жизни лингвистические вопросы. Дело в том, что наш индивидуальный языковой опыт очень ограничен и обычно слабо отрефлектирован. И Корпус позволяет нам выйти за его пределы. Приведу несколько примеров из последнего времени.

Комментарии
Комментарии