31 января 2018, Индикатор

Алгоритм показал эволюцию стиля писателей

Исследователи предложили новое подход к компьютерному изучению авторства и стиля текстов, основанный на моделировании динамического процесса письма. Авторы проанализировали произведения Джона Толкина, Айзека Азимова, Артура Кларка и многих других известных писателей, увидев, каким образом менялся их авторский стиль. Результаты работы сотрудников Санкт-Петербургского государственного университета и их коллег из Израиля опубликованы в журнале Pattern Recognition.
Для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию Джона Голсуорси «Сага о Форсайтах», все произведения Джона Толкина и другие книги. Интерес для исследователей представляет именно большой массив материалов, который автор создавал на протяжении долгого времени: математические алгоритмы позволяют увидеть, как менялись особенности стиля писателя.
В частности, метод достаточно точно определил, что «Хоббит» был написан тем же автором, что и «Властелин колец», а вот «Сильмариллион» заметно отличается по стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина — Кристофер, который несколько лет изучал черновики отца, созданные на протяжении нескольких десятилетий.
Исходными данными для представленного в статье метода моделирования динамического процесса написания текстов служат не только последовательности символов текста и слова, а еще и последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов «мама» компьютерная программа, в частности, выделит в тексте триграммы «ма», «мам», «ама», «ма». Далее исследуемый документ делится на поддокументы, из которых формируется упорядоченная последовательность появления N-грамм, где ищется зависимость между каждым из полученных таким образом поддокументов и его «соседями». Для этого используются методы, разработанные ранее в теории обработки сигналов, выделяющие частотные характеристики в последовательностях данных. Новый метод определяет своеобразные «частотные характеристики» авторского стиля по аналогии с частотами физических волн, регистрируемых специальными приборами.
«Заметны отличия стиля и в произведениях одного автора, — рассказывает соавтор Наталья Кижаева. — К примеру, четвертую часть из цикла "Основание" Айзек Азимов написал спустя почти 30 лет после того, как была создана третья часть, — на этом настояли его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982. За 30 лет изменился сам автор, его окружение, его видение жизни и, как следствие, — авторский стиль».
Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты или в различные колл-центры по работе с клиентами. Израильские ученые применяют разработку для того, чтобы определять искусственно сгенерированные тексты, написанные не человеком, а машиной.
Например, существуют программы, фабрикующие тесты, похожие на настоящие научные статьи, которые нередко принимают для опубликования в известных журналах. Метод позволяет с большей точностью отличать такие статьи от текстов, написанных человеком.
Айзек Азимов Вещи Наука Наука и техника Технологии
Оставить комментарий

Главное по темам

Boston Dynamics поиздевались над роботом

13:37

Энтузиаст собрал стол с таблицей Менделеева

13:13

В Англии с птицами борются при помощью шипов

14:44

Основатель Amazon строит часы на 10 000 лет

08:18

Дубай перейдет на 3D-печать новостроек

Вчера, 17:37

Видеоновости

Статьи

Как «доктор смерть» из НКВД изобретал идеальный яд

В Советском Союзе существовала специальная лаборатория, изучавшая влияние отравляющих веществ на человека. Один из ее сотрудников — Григорий Майрановский — не просто экспериментировал — он убивал людей.

«Они реально боятся ехать в Россию»

В рамках цикла об уехавших заграницу россиянах «Лента.ру» рассказывает историю Карины, обосновавшейся в городе неспящих — Сиэтле.

«Вся моя жизнь — отпуск»

В рамках цикла материалов о соотечественниках, перебравшихся за границу, «Лента.ру» публикует рассказ фотографа Кати Пешаковой о том, как устроить жизнь в сказочной Индии.

«Осторожно: на свободе гуляет бурый медведь с двумя пушками»

Пять лет назад отважная уроженка Новосибирска Светлана Скарбо втянулась в авантюру. Она решила заставить британцев читать о Сибири.

«Я слышал, что оценки можно купить за деньги»

Гражданин Германии, 47-летний Йорн Хезе полтора года учился в университете города Орла на факультете экономики.

Фоторепортажи