Отец неизвестен
Нам известны имена более 50 древнегреческих трагиков и названия сотен пьес, но от большинства из них сохранились только названия или малые фрагменты, не позволяющие как-то охарактеризовать авторский стиль. Все аттические трагедии, что мы можем атрибутировать, принадлежат Эсхилу (семь), Софоклу (семь) или Еврипиду (18). Однако уже не первый век филологи сомневаются в двух из них: «Ресе» и «Прометее прикованном». Почему? И как выяснить, не пробрался ли в триумвират великих классиков кто-то четвертый, если оригинальных рукописей у нас нет, а новых свидетельских показаний, скорее всего, у нас никогда уже не будет? N+1 рассказывает об истории этого филологического детектива и показывает, что говорит нам о «деле трагиков» метод, взятый учеными на вооружение в начале XXI века.
Как и большинство произведений древнегреческой литературы, «Рес» и «Прометей прикованный» дошли до нас в благодаря тому, что их копии сохранили византийцы. В копиях указаны имена авторов, но скептиков это не убеждает: возможно, в атрибуции этих текстов ошибались еще александрийские филологи, комментарии которых также до нас дошли. Более того, александрийские комментаторы отмечали, что уже некоторые их современники сомневались в авторстве «Реса». Прямо вопрос об авторстве «Реса» поднял в XVI веке гуманист Жозеф Скалигер. В одном из своих трудов он вскользь заметил, что автор «Реса» — poeta grandiloquentior, «поэт более велеречивый», чем Еврипид, язык персонажей которого довольно близок к разговорному. Многие исследователи подхватили эту мысль, она часто встречается у скептиков до сих пор, и, видимо, оказалась достаточно убедительна для авторов русскоязычной «Википедии» — на соответствующей странице эту трагедию приписывают не Еврипиду, но анонимному драматургу.
В авторстве «Прометея прикованного» впервые усомнились в XIX веке немецкие филологи. Аргументы скептиков сводились к тому, что в остальных пьесах Эсхил демонстрирует почтение к Зевсу, а в «Прометее» тот выступает как жестокий тиран и самодур. Сейчас очевидно, в споре об авторстве подобные аргументы следует принимать во внимание в последнюю очередь — почему бы не предположить, что Эсхил со временем просто изменил свое отношение к Зевсу? И вообще, как можно говорить об авторском отношении к персонажу, если драма на то и драма, что вся речь в ней принадлежит не автору, а действующим лицам? И, наконец, правильно ли мы, современные читатели, интерпретируем характеры персонажей 2500-летней давности: что странного в том, что верховный бог сегодня справедлив и милосерден, а завтра жесток и своеволен?
Поделиться
Подсчитать велеречивость
Надо заметить, что каким бы абстрактным ни казалось понятие «велеречивость», его оказалось возможно точно измерить. Это два параметра: количество разных слов в тексте («богатство словаря») и средняя частотность каждого слова (то есть количество употреблений каждого из слов в тексте, деленное на количество его употреблений в рассматриваемом корпусе текстов).
Что мы имеем в виду под «словами»
Под «словами» можно понимать очень разные объекты. Чтобы не погружаться в лингвистическую терминологию, под «словом» мы подразумеваем последовательность символов между знаками препинания (включая пробелы). То есть «кушал» и «кушаю» — это два разных слова, «будем кушать» — два других слова. Более того, «лён» и «лен» таким образом — тоже два разных слова, так что при анализе необходимо стандартизировать орфографию текста.
Поделиться
Но сам по себе «критерий велеречивости», хотя и позволяет наконец-то взять и что-то посчитать, не так хорош, как кажется на первый взгляд. Богатство словаря и изысканность слов сильно зависят от авторской воли. Автор может одно произведение (или его отрывок) наполнить высокопарной лексикой, а другое произведение, наоборот, сделать более разговорным. В те времена, когда еще не было модно подсчитывать частотности слов, сторонники авторства Еврипида вполне соглашались с тем, что в «Ресе» драматург «более велеречив», но давали этому другое объяснение, нежели скептики: «Рес», по их мнению, относится к раннему творчеству Еврипида, когда он еще подражал своим учителям, Софоклу и Эсхилу — а в более зрелые годы он выработал свой стиль, менее возвышенный, чем у старших современников. Правда, до нас не дошли сведения ни об одной постановке «Реса», и потому в пользу ранней датировки говорят только косвенные аргументы.
Казалось бы, настоящий простор для статистического исследования должно предоставлять стиховедение. Сотни строк, написанные разными вариациями одного и того же размера (для трагедии это в первую очередь ямбический триметр и анапестический диметр, аналоги русского шестистопного ямба и четырехстопного анапеста), должны отличать одного автора от другого, ведь разные авторы должны предпочитать разные ритмические вариации.Например, в «Прометее» из 773 ямбических триметров 12 начинаются с двух кратких и одного долгого слога (1,55 процента), тогда как в остальных трагедиях Эсхила этот показатель колеблется от 0,2 процента (в «Просительницах», где всего 1 такая строка) до 0,8 процентов (в «Агамемноне, где их 7). Но, во-первых, само это явление очень редкое. А во-вторых, у другого трагика, Софокла, в «Филоктете» из 1078 ямбических строк 17 обладают этим свойством (1,58 процента), а в «Электре» — всего 1 из 1126 (0,09 процента). И это не заставляет никого сомневаться в том, что «Электра» и «Филоктет» написаны одним автором.
Примерно так обстоит дело с большинством стиховедческих аргументов. Те же черты стиха, которые резко выделяют «Прометея» на фоне трагедий Эсхила — например, большая доля каталектических (укороченных) анапестов в репликах актеров — в действительности объясняются небольшим общим количеством анапестов, и, как следствие, искаженной статистикой. Наконец, утверждение о том, что стиховые особенности произведения, отличающие одного автора от другого, появляются помимо воли автора, крайне сомнительно. Почти на любой аргумент стиховедов за или против той или иной атрибуции можно возразить, что в этом конкретном произведении автор решил поэкспериментировать со стихотворным размером.
Авторский след
Поэтому в вопросах атрибуции текста лучше всего использовать количественные параметры текста, которые отражают разницу между авторами, но о которых сами авторы не задумываются, когда пишут. Американский физик Томас Менденхолл предложил в качестве такого параметра среднюю длину слов, но в дальнейшем оказалось, что этот параметр не работает (по крайней мере на материале тех текстов, в атрибуции которых никто не сомневается). Достаточно взять, например такой набор текстов и привести среднюю длину слова в каждом из них.
- Достоевский: «Бесы» — 5,180, «Униженные и оскорблённые» — 4,878;
- Толстой: «Анна Каренина» — 4,998, «Воскресение» — 5,309.
Очевидно, никакой связи средней длины слова с авторством не существует.
Поиск «следов», которые автор оставляет в тексте, довольно безуспешно продолжался на протяжении всего XX века. Перелом случился в 2002 году, когда Джон Берроуз опубликовал статью «‘Delta’: a Measure of Stylistic Difference and a Guide to Likely Authorship».
Из всех слов человек меньше всего задумывается над употреблением самых частотных: союзов, предлогов, частиц, артиклей (в тех языках, где они есть), глаголов-связок и т. д. Берроуз установил, что если взять достаточно длинные тексты одного автора, то частотность этих слов в разных текстах будет довольно похожа, а у разных авторов — различаться. На этом основании можно посчитать стилометрическое расстояние между двумя текстами (оно же дельта).
Специально для этого была разработана библиотека Stylo для языка R, которая позволяет не только считать дельты, но и представлять результаты подсчета в наглядных картинках.
Общий принцип подсчета состоит в следующем. В каждом тексте корпуса, который мы изучаем, подсчитывается частотность каждого слова. Далее составляется рейтинг частотности слов во всем взятом корпусе. Из этого рейтинга берутся n так называемых MFW (most frequent words), срез верхушки этого рейтингового списка (величина n определяется исследователем). Например, для английских текстов в топ-10 MFW обычно попадают слова the, and, of, a, to, in, his, with, is, but.
Также из MFW можно отбраковывать те слова, которые встречаются в одном тексте корпуса, но не встречаются в других. С очевидностью, слово «Рес» употребляется в одноименной трагедии достаточно часто, чтобы забраться в общем рейтинге корпуса довольно высоко. Но трагедия о защитнике Трои, убитом Одиссеем, в корпусе аттических трагиков только одна — поэтому из подсчетов «Реса», сверхчастнотного для этой трагедии, можно убрать. Тут есть некоторая проблема: только 177 слов в корпусе присутствуют более чем в 90 процентах текстов, а этого слишком мало — для достоверности лучше проверять стилометрическую дистанцию и на массиве и 100, и 200, и 500, а иногда и больше слов.
Также можно брать не все тексты целиком, а только одинаковые по величине их части. Эта опция бывает полезна при исследовании корпуса, в который попадают тексты самой разной длины. Однако в нашем случае это совершенно необязательно, поскольку трагедии по этому параметру вполне сопоставимы.
Формулы, по которым определяется дельта, различны. Из всего их многообразия мы опишем две: классическую дельту Берроуза и дельту Эдера.
- В тексте A частотность словоформы с номером ni в списке MFW назовём Ai.
- В тексте B частотность словоформы с номером ni в списке MFW назовём Bi.
- σi — стандартное отклонение частотности этой словоформы по текстам корпуса.
Дельта Берроуза вычисляется по следующей формуле:
Поделиться
Дельта Эдера:
Поделиться
Когда в 2013 году вышел роман «Зов Кукушки» под псевдонимом «Роберт Гэлбрейт», в авторстве заподозрили Джоан Роулинг (ее предыдущая книга «Случайная вакансия» вышла в филиале того же издательского дома, что и «Зов Кукушки»). Журналисты The Sunday Times, проверяя эту гипотезу, использовали программу JGAAP (Java Graphical Authorship Attribution Program), разработанную Патриком Джуолой, профессором Университета Дюкейна. JGAAP — это аналог R Stylo, написанный на языке Java. Программа показала, что «Зов кукушки» больше похож на тексты Роулинг, чем на чьи-либо другие. На следующий день знаменитая писательница призналась в мистификации.
Поделиться
- если тексты слишком короткие (предельно допустимую длину указать сложно, в пограничных ситуациях один набор параметров даёт одну картину, другой — другую; условно считается, что тексты должны быть длиннее 5000 слов, но это зависит от языка и набора авторов);
- если в корпус включены тексты очень разных жанров (например, научная монография учёного и его же художественные мемуары)..
В случае корпуса древнегреческой трагедии эти условия не выполняются, так что оснований не доверять результатам работы программы у нас нет.
Дельты трагиков
Итак, мы знаем, что дельта (стилометрическое расстояние) между текстами больше, если тексты не похожи друг на друга по частотностям MFW, и меньше, если они похожи. После попарного подсчета дельт между текстами следует этап графического представления данных. Здесь мы ограничимся кластерным анализом.
Этот метод позволяет нам «упаковать» все тексты нашего корпуса в «родственные» группы максимально плотно. В пару объединяются сначала тексты А и В, расстояния между которыми наименьшие. Затем считается среднее расстояние между третьим текстом, С и каждым текстом кластера АВ, а также расстояние от С до каждого из остальных текстов. Если С ближе к кластеру, то он присоединяется к нему «сверху». Если же С ближе к какому-то D из еще не выбранных текстов, то образуется кластер CD. И так продолжается до тех пор, пока самый удаленный от всех текст не займет свое место в каком-либо кластере. Вот как выглядит «филогенетическое древо» 32 аттических трагедий, посчитанное по дельте Эдера.
Поделиться
Давайте пойдем дальше. Добавим в наш корпус полностью сохранившиеся и достаточно длинные тексты того же периода в наиболее близком к ней жанре — это комедии Аристофана. Комедиограф также писал для театра и был современником «отцов трагедии». Кроме того, логичнее сравнивать корпус древнегреческих трагедий с другими драматическими текстами, а не философскими трактатами. Также добавим в корпус Еврипида еще один текст, сатировскую драму «Циклоп» (единственная в своем жанре — сочетает элементы трагедии и комедии), которая к трагедиям не относится, но в авторстве которой мы уверены.
Поделиться
Что касается «Реса», то практически при любой формуле дельты, размере MFW (даже при MFW = 50) и проценте отбраковки, включении или невключении в корпус комедий Аристофана, трагедия остается вместе с другими текстами Еврипида, причем всегда встает ближе к ранним работам, чем к поздним. Тот факт, что он оказывается сгруппирован с «Циклопом», заведомо принадлежащим Еврипиду, а не занимает отдельную ветвь дерева, говорит также в пользу авторства Еврипида.
А вот с «Прометеем», который возбудил подозрения намного позже, чем «Рес», все намного интереснее.
Поделиться
Теперь мы можем вернуться к спору об авторстве двух аттических трагедий с нашим решением. Сомнения в том, что «Рес» принадлежит перу Еврипида, стилометрический анализ не подтверждает. А вот из библиографии Эсхила «Прометея прикованного» стоит, по-видимому, вычеркивать. Несомненно, аргументация «от статистики» остается все еще косвенной — находка V века до нашей эры, прямо свидетельствующая о том, кто был автором «Прометея», моментально поставит жирную точку в этом вопросе. Но пока таковой нет, аргумент от стилометрии остается самым сильным.
Дмитрий Крылов