- Код статьи
- S013160950018902-6-1
- DOI
- 10.31860/0131-6095-2022-1-247-254
- Тип публикации
- Статья
- Статус публикации
- Опубликовано
- Авторы
- Том/ Выпуск
- Том / Номер 1
- Страницы
- 247-254
- Аннотация
В 2019 году Н. П. Великанова и Б. В. Орехов опубликовали стилеметрическое исследование, в котором с помощью метода Delta Барроуза проверили гипотезы об авторстве романа «Тихий Дон». Цель настоящей статьи — внести небольшую, но существенную корректировку в их выводы, основанную на повторном анализе опубликованных Ореховым исходных данных исследования. Результаты применения Delta в расширенной серии экспериментов указывают на то, что «Донские рассказы» и первые три тома «Тихого Дона» написал один автор (Шолохов). При этом стилеметрические данные не поддерживают гипотезы об авторстве Крюкова, Севского и Серафимовича. Однако, вопреки заключению Великановой и Орехова, возможности метода Delta и использованного в исследовании корпуса текстов не позволяют с уверенностью приписать тому же автору четвертый том «Тихого Дона».
- Ключевые слова
- М. А. Шолохов, «Тихий Дон», стилометрия, Delta Барроуза, воспроизводимые исследования.
- Дата публикации
- 01.03.2022
- Год выхода
- 2022
- Всего подписок
- 11
- Всего просмотров
- 136
DOI: 10.31860/0131-6095-2022-1-247-254
© К. А. Маслинский
УТОЧНЕННАЯ ЦИФРОВАЯ ТЕКСТОЛОГИЯ: ЕЩЕ РАЗ К ВОПРОСУ ОБ АВТОРСТВЕ РОМАНА «ТИХИЙ ДОН»
В 2019 году в журнале «Мир Шолохова» была опубликована статья Н. П. Великановой и Б. В. Орехова, в которой для решения давнего дискуссионного вопроса об авторстве романа «Тихий Дон» применены современные методы количественной стилеметрии.1 Без преувеличений можно сказать, что эта работа перевела обсуждение спорного вопроса об авторстве М. А. Шолохова на совершенно новый уровень доказательности.
Не ограничиваясь этим достижением, Б. В. Орехов недавно опубликовал исходные данные исследования в Репозитории открытых данных по русской литературе и фольклору ИРЛИ РАН.2 Эти материалы позволяют воспроизвести и подробно рассмотреть все этапы количественного стилеметрического анализа. Цель настоящей заметки — внести небольшую, но существенную корректировку в выводы Великановой и Орехова, основанную на повторном анализе открытых данных.
Метод Delta и проблема «Тихого Дона»
Смысл стилеметрической аргументации — в поиске устойчивых признаков авторского идиостиля, проявляющихся в распределении тех или иных языковых элементов на уровне целого текста произведения. Как справедливо указывают авторы статьи, в дискуссии, где даже наличие рукописей служит разным исследователям свидетельством как в пользу, так и против авторства Шолохова, аргументы стилеметрического характера выступают важнейшим основанием для неангажированных суждений.
При том что исследование Великановой и Орехова является не первой стилеметрической трактовкой проблемы авторства «Тихого Дона», оно оказывается самым обстоятельным в двух отношениях. Во-первых, это одно из двух исследований в рамках дискуссии, где применен общепризнанный метод современной количественной стилометрии — предложенная в начале 2000-х годов Delta Барроуза.3 В эмпирических исследованиях Delta многократно показала свою эффективность в определении авторства поэтических и прозаических произведений на многих языках с чрезвычайно высоким уровнем достоверности. Во-вторых, в отличие от опубликованной параллельно статьи Иосифян и Власова,4 в которой также применена Delta, в работе Великановой и Орехова стилеметрический анализ выполнен на материале более широкого корпуса современных «Тихому Дону» прозаических текстов. В качестве сравнительного материала для определения авторства привлечены художественные произведения самого Шолохова, писателей, обсуждавшихся исследователями в качестве потенциальных авторов «Тихого Дона» (Ф. Д. Крюков, Виктор Севский, А. Серафимович), а также некоторых писателей-современников Шолохова, никогда не претендовавших на авторство, — для оценки достоверности метода (М. А. Булгаков, Вс. Вяч. Иванов, Л. М. Леонов, Н. А. Островский, А. Платонов, А. А. Фадеев, Д. А. Фурманов).
4. Iosifyan M., Vlasov I. And Quiet Flows the Don: the Sholokhov-Kryukov authorship debate // Digital Scholarship in the Humanities. 2020. Т. 35. № 2. P. 307–318.
В основе метода Delta лежит идея количественной оценки лексических предпочтений авторов в области самой частотной лексики. В любом языке пласт самой частотной лексики составляют грамматические слова с наиболее абстрактной семантикой, в наименьшей степени связанные с тематикой конкретного текста, — союзы, предлоги, местоимения и т. п. Для Delta предметом измерения являются не абсолютные частоты отдельных слов, а частотный профиль — относительно больший или меньший уровень частотности каждого слова по сравнению с его частотностью в среднем по всему рассматриваемому корпусу текстов. Степень сходства профилей можно представить как расстояние между ними в некотором пространстве: чем ближе друг к другу точки профилей, тем больше они похожи. Собственно Delta — это мера расстояния между частотными профилями двух текстов (или достаточно объемных фрагментов текстов). Чем ближе друг к другу профили, тем меньше величина Delta и, следовательно, выше вероятность, что они принадлежат одному автору.5
По причинам, пока не получившим полного теоретического объяснения, профиль предпочтений в области частотных слов является устойчивой характеристикой авторского идиостиля.6 Общий постулат стилеметрии заключается в том, что в подобном частотном профиле аккумулируются индивидуальные и в основном бессознательные привычки языкового употребления. Выбор в качестве индикаторов относительно небольшого количества самых частотных слов корпуса (от сотен до нескольких тысяч) — удобный эвристический прием, позволяющий быстро получить список потенциально информативных и наименее подверженных влиянию тематики (и следовательно, сознательного контроля) лексических единиц.
Структура индивидуального частотного профиля такова, что не существует сколько-нибудь простого способа для пишущего или редактирующего сознательно его отследить и сымитировать. Этот факт выступает методологическим основанием для построения аргументации при решении стилеметрических задач в области определения авторства анонимных текстов и решения вопросов об ошибочной атрибуции авторства или сознательном плагиате.
Воспроизведение исследования и дополнительные эксперименты
Задача нашего эксперимента состояла в том, чтобы воспроизвести стилеметрический анализ по корпусу произведений Шолохова и современной ему прозы на основании опубликованных Б. Ореховым данных.7 Для всех расчетов использовался пакет для стилеметрического анализа stylo,8 как и в оригинальном исследовании Великановой и Орехова.
8. Eder M., Rybicki J., Kestemont M. Stylometry with R: a package for computational text analysis // R Journal. 2016. Т. 8. № 1. P. 107–121.
Главные результаты стилеметрического анализа представлены в статье Великановой и Орехова в виде кластерной дендрограммы (см. рис. 1). Расположение произведений на ветвях дендрограммы отражает группировку текстов на основании расстояния, вычисленного с помощью Delta таким образом, что более сходные тексты объединяются в рамках одной ветви. О надежности метода можно судить по тому, что тексты, в авторстве которых нет сомнений (Булгаков, Серафимович, Платонов и т. п.), корректно сгруппированы на дендрограмме. Результаты, представленные на дендрограмме в статье Великановой и Орехова, позволяют сделать вывод, что тексты всех проверенных потенциальных авторов (Крюков, Севский, Серафимович) в стилеметрическом отношении на «Тихий Дон» не похожи. Напротив, можно заключить, что автором «Донских рассказов» и всех томов «Тихого Дона» было одно и то же лицо.
Важно отметить, что результат (расположение произведений на дендрограмме), на основании которого сделан вывод об авторстве «Тихого Дона», зависит от ряда условий. Важнейшие из них — это размер и состав списка слов, которые принимаются в расчет при вычислении Delta. От них в наибольшей степени зависят значения в таблице расстояний между всеми включенными в корпус произведениями. Во вторую очередь на результат может повлиять выбор конкретного способа расчета расстояний
Тихий Дон Cluster Analysis 200 MFW Culled @ 0 % Classic Delta distance Булгаков_Мастер и Маргарита Булгаков_Белая гвардия Островский_Как закалялась сталь 2 Островский_Как закалялась сталь 1 Леонов_Вор Леонов_Барсуки Фадеев_Разгром Фурманов_Чапаев Крюков_Шквал Крюков_Зыбь Крюков_Группа Б Крюков_Мать Крюков_К источнику исцелений Шолохов_Поднятая целина 2 Шолохов_Поднятая целина 1 Шолохов_Они сражались за Родину Шолохов_Судьба человека Платонов_Чевенгур Платонов_Котлован Платонов_Ювенильное море Серафимович_Железный поток 2 Серафимович_Железный поток 1 Севский_Дон на костылях Dubia_Тихий Дон 3 Dubia_Тихий Дон 2 Dubia_Тихий Дон 4 Dubia_Тихий Дон 1 Шолохов_Донские рассказы Иванов_Голубые пески Иванов_Бронепоезд 1469 3,0 2,5 2,0 1,5 1,0 0,5 0,0
Рис. 1. Дендрограмма расстояний для текстов претендентов на авторство «Тихого Дона» (воспроизведена на основании анализа, аналогичного выполненному в статье Великановой и Орехова)
между частотными профилями.9 В статье Великановой и Орехова приведены результаты, основанные на списке в 200 самых частотных слов, классическом способе вычисления Delta, предложенном Барроузом, и методе кластеризации, используемом по умолчанию в stylo. При всей надежности метода Delta известно, что иногда ее результаты могут приводить к ошибочным выводам.10 Поэтому, чтобы быть уверенными в надежности заключения об авторстве «Тихого Дона», следует удостовериться, что этот вывод содержательно не изменяется при варьировании названных выше условий.
10. Hoover D. L. Testing Burrows’s delta // Literary and linguistic computing. 2004. Т. 19. № 4. P. 453–475.
Наиболее простой и значимый параметр — количество самых частотных слов,11 по которым рассчитывается Delta. Барроуз, предложивший метод Delta, в своих экспе
Тихий ДонCluster Analysis [[[image1]]]Леонов_Вор Леонов_Барсуки | Булгаков_Мастер и Маргарита ~ Булгаков_Белая гвардия | Фурманов_Чапаев _ I Фадеев_Разгром I Островский_Как закалялась сталь 2 I Островский_Как закалялась сталь 1 | Крюков_Шквал .—I 1 Крюков_Зыбь I— I Крюков_Группа Б Крюков_Мать ' Крюков_К источнику исцелений Шолохов_Поднятая целина 2 .-|1 Шолохов_Поднятая целина 1 II Шолохов_Они сражались за Родину —Dubia_Тихий Дон 4 I Шолохов_Судьба человека Платонов_ЧевенгурПлатонов_Котлован I Платонов_Ювенильное море | Серафимович_Железный поток 2 Серафимович_Железный поток 1 Севский_Дон на костылях [[[image2]]] Dubia_Тихий Дон 1 Шолохов_Донские рассказы I Dubia_Тихий Дон 3 Dubia_Тихий Дон 2 Иванов_Голубые пески Иванов_Бронепоезд 1469 [[[]]][[[]]] 200 MFW Culled @ 0 % Classic Delta distance
Рис. 2. Расчет Dubia при исключении из списка учитываемых словимен главных героев романов — Григорий и Давыдов
риментах по атрибуции авторства в поэзии использовал 150 самых частотных слов. В экспериментах по атрибуции прозаических текстов учитывалось до 5000 самых частотных слов.12 В опубликованных Ореховым данных представлены результаты тестирования в диапазоне 100-500 самых частотных слов. Повторный анализ данных показал, что диапазон выбран вполне удачно: на списках длиной от 100 до 1500 частотных слов в этом корпусе Delta почти всегда безупречно распределяет произведения с бесспорным авторством.13 При этом первые три тома «Тихого Дона» при любой длине списка объединены на дендрограмме с «Донскими рассказами», но четвертый том в диапазоне 100-1000 слов в половине случаев оказывается размещен на значительно удаленной ветви дендрограммы в группе поздних произведений Шолохова. Поскольку этот эффект появляется и исчезает нерегулярно по мере увеличения длины списка учтенных слов, следует рассмотреть более внимательно, какие из вошедших в список слов могли повлиять на этот результат.
13. За исключением отдельных случаев неверно расположенных на дендрограмме произведений Крюкова при 300 и 700 словах.
В списке 200 самых частотных слов корпуса, послуживших основанием для сделанного в статье вывода об авторстве, помимо вполне ожидаемых служебных частей речи и очень частотных в художественной прозе слов (глаза, сказал и т. п.) обнаружились два имени собственных: Григорий (67 позиция в списке) и Давыдов (87). Причина их столь высокого частотного положения вполне объяснима: оба имени отсылают к центральным персонажам двух очень объемных романов Шолохова, включенных в корпус, Григория Мелехова из «Тихого Дона» и Семена Давыдова из «Поднятой целины». Поскольку это два самых объемных произведения в рассматриваемом корпусе, неудивительно, что имена главных героев упоминаются в сумме достаточное количество раз, чтобы сравняться по частотности со словами теперь, надо, ли, человек и др. С точки зрения задачи атрибуции авторства появление имен персонажей в списке для Delta может представлять собой методологическую проблему. Употребительность имени главного героя плохо согласуется с постулатом стилеметрии о сознательно не контролируемых индивидуальных языковых привычках: какой бы автор ни взялся писать очередной том романа такого объема, он бы, вероятно, с сопоставимой частотой упоминал имя главного героя. Значит, частотность имени главного героя вряд ли может выступать надежным признаком авторского стиля.
Метод Delta, как обсуждалось выше, по-видимому, чувствителен к целому частотному профилю, а не к частотности отдельных слов. Поэтому попадание в список некоторых имен может и не влиять на положение текстов на дендрограмме и, следовательно, на выводы об авторстве. С целью проверки этого предположения нами был проведен дополнительный эксперимент: расчет Delta по 200 частотным словам за вычетом слов Григорий и Давыдов. В результате форма дендрограммы практически не изменяется, за одним исключением: четвертый том «Тихого Дона» перемещается в группу поздних произведений Шолохова (рис. 2). Это происходит в трех случаях: при удалении только Григория, только Давыдова, либо удалении обоих имен.
Можно сделать вывод, что для Delta появление имени Григорий (отсутствующего либо гораздо более редкого в большинстве других текстов корпуса) служит важным фактором, приводящим к группировке всех четырех томов романа на одной ветви дендрограммы. В то же время подобное основание для группировки нельзя считать убедительным для аргументов об авторстве, скорее его следует признать ошибкой анализа.
Помимо названных имен персонажей, и другие слова в списке частотных в большей или меньшей степени связаны с тематикой отдельных произведений. Например, в списке 500 частотных слов рассматриваемого корпуса мы обнаруживаем также слово казаки в различных падежных формах. В количественной стилеметрии для минимизации риска влияния тематики на результат анализа применяется метод отсечения (сиШпд). Смысл метода в том, чтобы использовать для расчета расстояний ПеИа только слова, которые встречаются в значительной части текстов корпуса. Если установить порог для включения слова в расчет Delta в 90% текстов корпуса (иными словами, учитывать только слова, которые встречаются как минимум в 27 разных текстах из 30 текстов корпуса), останется в общей сложности около 700 удовлетворяющих этому условию слов. Это условие исключает из списка в том числе и оба названных имени персонажей.
Для проверки влияния тематической лексики мы провели серию расчетов с порогом отсечения 90% текстов корпуса для списка длиной от 100 до 700 слов. В результате тексты с бесспорным авторством распределяются так же безупречно, а тексты проверенных претендентов на авторство остаются столь же далекими от стиля «Тихого Дона». Первые три тома «Тихого Дона» неизменно относятся к той же группе, что и «Донские рассказы». Однако четвертый том стабильно связан с группой поздних произведений Шолохова, которая, в свою очередь, достаточно далеко отстоит на дендрограмме от группы «Донских рассказов» и первых трех томов. Таким образом можно подтвердить, что сближение «Тихого Дона» и «Донских рассказов» не зависит от тематики и, вероятнее, все же объясняется сходством авторского идиостиля.
Перемещение четвертого тома «Тихого Дона» в группу поздних произведений Шолохова актуализирует вопрос, почему ранние и поздние произведения Шолохова так сильно различаются в терминах Delta и так далеко отстоят друг от друга на дендрограмме? Великанова и Орехов отмечают это обстоятельство как «некоторую странность»14 и предлагают в качестве возможного объяснения аргумент об эволюции авторского стиля. При экспериментальной проверке обнаружилось, что при учете большего количества частотных слов (от 800 до 1500) ранние и поздние произведения Шолохова объединяются на дендрограмме. Впрочем, это объединение может в какой-то мере объясняться сходством содержания произведений. Косвенное свидетельство в пользу влияния тематического фактора заключается в том, что при дальнейшем увеличении длины списка слов (от 2000 до 5000) рассказ «Судьба человека», а затем и «Они сражались за родину» отделяются от остальных произведений Шолохова и перемещаются в кластер военной прозы вместе с Фадеевым и Фурмановым. Можно отметить, что группировка ранних и поздних произведений Шолохова на дендрограмме не полностью отражает известную нам хронологию написания произведений: писавшиеся примерно одновременно третий том «Тихого Дона» и первый «Поднятой целины» всегда разделяются на дендрограмме в разные группы.
Наша финальная серия экспериментов ставит целью проверить, влияет ли на выводы выбор способа расчета расстояний между частотными профилями. Наиболее эмпирически обоснованный подход состоит в замене использовавшегося Барроузом манхеттенского расстояния на косинусную меру близости.15 Результаты применения этого метода к рассматриваемому корпусу показывают, что этот выбор принципиально не изменяет ни одного из сделанных содержательных выводов. Частное отличие состоит в том, что для успешной группировки текстов с известным авторством косинусная мера требует несколько более широких списков частотных слов (800-2000). Однако в остальном группировка произведений Шолохова, отнесение четвертого тома «Тихого Дона» к группе поздних произведений и изменения в группировке текстов по мере увеличения длины списка слов сохраняются неизменными по сравнению с классической дельтой.
Наконец, в исследовании Великановой и Орехова отдельно был проверен вопрос о том, сказывается ли на стилеметрических выводах об авторстве использование недавно вышедшего текстологически выверенного издания «Тихого Дона».16 Ни в исследовании Великановой и Орехова, ни в наших экспериментах выбор научной редакции текста или текста из обычного массового издания никак не повлиял на стилеметрические результаты и итоговые выводы.
По итогам своего анализа Великанова и Орехов делают вывод о том, что «если признавать „Донские рассказы“ за Шолоховым, то именно он написал и все части „Тихого Дона“. Другие претенденты, включенные в наше рассмотрение, не имеют шансов быть названными авторами романа».17 Результаты описанных в этой заметке экспериментов позволяют с еще большей уверенностью подтвердить, что стилеметрические данные не поддерживают гипотезы об авторстве Крюкова, Севского и Серафимовича. Однако в первой части вывод следует уточнить: результаты применения Delta указывают на то, что «Донские рассказы» и первые три тома «Тихого Дона» написал один автор. На основании этого анализа четвертый том нельзя с уверенностью приписать тому же автору.
Применимость метода Delta для оценки эволюции авторского стиля со временем остается относительно мало изученной.18 Для убедительных интерпретаций наблюдаемого в данных разделения произведений Шолохова на две стилистические группы необходим надежный сравнительный материал произведений, написанных с не меньшим временным интервалом. Поэтому вопрос о том, дают ли стилеметрические методы основания считать все произведения Шолохова принадлежащими перу одного автора, следует признать пока не поддающимся решению на материале рассмотренного корпуса.
Скорректированный вывод о сходстве первых трех томов «Тихого Дона» с «Донскими рассказами», а четвертого — с поздними произведениями Шолохова согласуется с выводом, сделанным в исследовании Иосифян и Власова, также применивших метод Delta к решению этого вопроса.1919 Однако следует отметить, что их результат имеет гораздо более ограниченную достоверность. Он был получен на значительно более узком корпусе, включающем только тексты Крюкова и Шолохова, и только при использовании 100 самых частотных слов. Так что совпадение выводов Иосифян и Власова с выводами на более широком корпусе Великановой и Орехова можно считать отчасти удачной случайностью.
В заключение важно подчеркнуть, что вопрос о стилеметрических свидетельствах в пользу авторства спорного текста является по своей природе не качественным (да, автор / нет, не автор), а количественным, характеризующим нашу меру уверенности на пути постепенного движения к консенсусу. Подготовленная Б. В. Ореховым публикация данных стилеметрического исследования по Шолохову позволила автору настоящей заметки не только воспроизвести результаты, но и провести расширенную серию экспериментов на этом корпусе текстов и уточнить выводы. Хочется надеяться, что этот пока еще очень редкий для нашей дисциплины пример воспроизводимого исследования станет шагом на пути к консенсусу относительно авторства «Тихого Дона».
Библиография
- 1. Великанова Н. П., Орехов Б. В. Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова "Тихий Дон" // Мир Шолохова. 2019. № 1.
- 2. Орехов Б. Стилеметрические данные "Тихого Дона" и современной ему прозы // Репозиторий открытых данных по русской литературе и фольклору [Электронный ресурс]. https://doi.org/10.31860/openlit-2020.05-R001; дата обращения: 25.10.2021.
- 3. Шолохов М. А. Тихий Дон: В 2 т. М., 2017.
- 4. Burrows J. "Delta": a measure of stylistic difference and a guide to likely authorship // Literary and linguistic computing. 2002. Т. 17. № 3.
- 5. Eder M., Rybicki J., Kestemont M. Stylometry with R: a package for computational text analysis // R Journal. 2016. Т. 8. № 1.
- 6. Evert S., Proisl T., Jannidis F., Reger I., Pielstrom S., Schoch Ch., Vitt T. Understanding and explaining Delta measures for authorship attribution // Digital Scholarship in the Humanities. 2017. Т. 32. Supplement 2.
- 7. Hoover D. L. Testing Burrows's delta // Literary and linguistic computing. 2004. Т. 19. № 4.
- 8. Iosifyan M., Vlasov I. And Quiet Flows the Don: the Sholokhov-Kryukov authorship debate // Digital Scholarship in the Humanities. 2020. Т. 35. № 2.
- 9. Neal T., Sundararajan K., Fatima A., Yan Y., Xiang Y., Woodard D. Surveying stylometry techniques and applications // ACM Computing Surveys (CSUR). 2017. Т. 50. № 6.
- 10. Tello J. C. What does Delta see inside the Author? Evaluating Stylometric Clusters with Literary Metadata // III Congreso de la Sociedad Internacional Humanidades Digitales Hispanicas Sociedades, politicas, sabers: Libro de resumenes. Malaga, 2017.