«Филология и компьютер. Digital Humanities в Школе хартий»: репортаж о мастер-классе Венсана Жоливе

4 февраля на первом в этом году заседании семинара «Символическое Средневековье» выступил Венсан Жоливе, руководитель направления digital humanities в Национальной школе хартий. Публикуем репортаж Светланы Яцык

Венсан Жоливе посвятил выступление относительно новому исследовательскому направлению — компьютерной филологии (computational philology) — и рассказал о его состоянии в Национальной школе Хартий. Эта дисциплина объединяет традиционные филологические методы (кодикологию, палеографию, текстологию и стилистику) и цифровые инструменты (количественные и статистические методы, машинное обучение, моделирование и симуляцию).

Отцом-основателем этого направления был Роберто Буза (1913-2011), итальянский теолог, убедивший IBM поддержать его инициативу по разработке инструментов полнотекстового поиска по наследию Фомы Аквинского. В 1960-е годы компьютерная филология сделала значительный рывок в развитии, и продолжает двигаться вперед. В последние годы компьютерные методы анализа стали более доступными: так, курс компьютерной филологии был включен в несколько образовательных и исследовательских программ в Школе хартий; возникло международное сообщество специалистов по digital humanities; оборудование, необходимое для вычислений, стало компактнее и доступнее.
Методы компьютерной филологии используются как для издания исторических источников, так и для их анализа. Примечательно, что электронное издание позволяет сохранить вариативность рукописных текстов.

Большинство специалистов, занимающихся электронной публикацией средневековых текстов (находящихся, конечно, в общественном достоянии) придерживается принципа Open Access, и неизменно выкладывает опубликованные материалы в открытый доступ. Ключевые проблемы, с которыми сталкиваются издатели средневековых текстов — необходимость работать с рукописными текстами, написанными на языках, допускающих большое количество вариаций.

Процедура распознавания текста включает 4 шага:

1. Обработка изображения
Для печатных текстов на этом этапе применяется технология оптического распознавания символов (Optical Character Recognition, OCR), трансформирующая изображение в текст. Наиболее удобными инстурментами по распознанию текста остаются ABBYY Finereader и Tesseract. При этом если для печатного текста процент неправильно распознанных символов на этом этапе очень низок (около 2), то с рукописями дела обстоят хуже.
Для рукописей создано несколько нейросетей, занимающихся распознанием именно рукописного текста (Handwritten text recognition, HTR), а на их основе есть программное обеспечение, построенное на движке долгой краткосрочной памяти (long-short term memory).
Распознавание рукописного текста начинается с редактирования изображения: необходимо удалить «шумы», затрудняющие распознавание символов (например, с помощью Scantailor).

2. Анализ макета и структуры документа
На втором этапе необходимо понять, как организован текст: сколько на листе колонок, как расположены строки. Для этого можно использовать DHSegment или Transkribus.

3. Распознавание рукописного текста
Для эффективного распознавания рукописного текста необходимо использовать обучающиеся нейросети. Несмотря на то, что некоторые скрипты, позволяющие распознавать латинские и старо-французские тексты, опубликованы (они включены, например, в OСRopy), для каждого текста необходимо тренировать индивидуальную модель. При этом в зависимости от специфики обучения нейросети результат может варьироваться (поскольку прочтение, как и переписывание тексты — процесс вариативный. Финальная транскрипция может быть просто графической, графетической (учитывающей начертание букв), графемической (передающей оригинальную орфографию) и, наконец, приведенной в соответствие с современными нормами языка. В результате в разных редакциях будут варьироваться как содержание текста, так и пунктуация, перенос слов и деление текста на части. Таким образом, публикация текста нивелирует заложенную в него вариативность, сводя его к единственному прочтению. С точки зрения Жоливе, здесь таится опасность создания узкоспециальных моделей, демонстрирующих одну из множества возможных редакций текста.
Жоливе предлагает решать эту проблему на этапе постобработки расшифрованных текстов.

4. Постобработка

Постобработка включает в себя сегментацию текста (разделение на отдельные слова; для этого разработана программа Boudams), нормализацию (Pie) и лемматизацию (Pyrrha). На этом этапе вариативность прочтения повышается; «натренировав» эти программы по-разному, можно создать множество критических изданий одного текста, отвечающих требованиям и задачам конкретного исследования. Таким образом, целью филолога больше не является создание одного окончательного критического издания, его задача — получение текстовых данных, которые можно обрабатывать разными способами для получения разных результатов.

Светлана Яцык

Дата

25 февраля 2020

Рубрики

Наука В лаборатории

Темы

взгляд ученого экспертиза мастер-классы репортаж о событии

В статье упомянуты

Рабочая группа «Средневековый мир и Древняя Русь»

Контакты

Рабочая группа «Средневековый мир и Древняя Русь»

Контакты

«Филология и компьютер. Digital Humanities в Школе хартий»: репортаж о мастер-классе Венсана Жоливе