Зачем Российская государственная библиотека учит машину читать газеты?
Встреча в одном проекте Российской государственной библиотеки (РГБ) и «Школы 21», где идет подготовка ИТ-специалистов по инновационной образовательной методике, стала поистине счастливой: задачи из сферы работы с библиотечными фондами, которые являются необычайно актуальными для РГБ, идеально подходят для оттачивания мастерства студентов «Школы 21». Эта встреча произошла во время хакатона, организованного РГБ на площадке «Школы 21» 28-29 ноября 2020 г.
Оцифрованные фонды РГБ – это обширное поле для применения передовых технологий компьютерной лингвистики для решения задач различного уровня сложности в самых разных аспектах. Первый аспект – современное информационное обеспечение библиографической деятельности: разработка продвинутых цифровых каталогов, вплоть до уточнения параметров литературных источников. Второй – поддержка научной работы специалистов: историков, литературоведов и проч., работающих с литературными произведениями. Третий аспект - научная деятельность сотрудников РГБ, которые активно участвуют в большом федеральном проекте создании представительного корпуса русского языка.
Зачем библиотеке передовые ИТ
Библиотечные и архивные фонды – настоящее богатство, память и история нашей страны,- подчеркивает Вадим Дуда, генеральный директор РГБ. Бывшая «Ленинка» хранит сегодня около 47 млн. документов, которые активно переводятся в цифровой формат. Вызов современного информационного общества – встроить наши документы, информацию, знания в цифровое пространство. Необходимо предоставить читателям удобную и современную навигацию по всему фонду. Для этого нужны не только «метаполя» библиографических описаний, а возможность работы с полными текстами, их динамическая «разметка» и тегирование в современном контексте, в современном информационном поле, в современном облаке научной систематизации. |
Корпусная лингвистика – это новое явление в языкознании, непосредственно связанное с информационными технологиями. Фактически корпус – это собрание текстов на том или ином языке в электронной форме, которое специальным образом размечено. Разметки могут быть разных видов, например, грамматическая разметка, которая сопоставляет каждому слову его грамматические параметры. Конечная задача российского проекта – создание, так называемого, полного электронного корпуса русского языка, который включает большое число (представительную выборку) максимально разнообразных текстов (проза и поэзия, официальные документы и письма и т.д.), которые снабжены специальной разметкой.
Как полагает выдающийся российский ученый в области семантических исследований естественного языка Юрий Апресян, в информационную эпоху национальный корпус становится таким же необходимым элементом строгого научного описания языка, наряду со словарем и грамматикой. Действительно, появление языкового корпуса можно сравнить с революцией в лингвистике – появляется возможность буквально в реальном времени проводить анализ текстов в самых разных разрезах, причем, на реальных «живых» текстах. Однако предварительно необходимо провести серьезную работу по подготовке текстов произведений.TAdviser выпустил Гид по российским операционным системам
Так, библиотека запустила проект по оцифровке газетных источников. В качестве пилотного образца выбрана газета «Красная звезда» времен Великой Отечественной войны 1941 – 1045 гг.
Для газеты «Красная звезда» нужны достаточно сложные алгоритмы, которые позволят скан полосы превратить в структуру связанных элементов из текстов, заголовков, иллюстраций – XML-структуру,- рассказал об актуальном направлении работы с газетным фондом РГБ Вадим Дуда. |
Вторая задача состоит в том, чтобы выделить из этого массива данных географические названия, награды, имена собственные, даты, другую информацию.
В результате мы получаем из скана газетной полосы невероятно ценный информационный массив для работы. Фактически, мы создаем основу совершенно нового библиотечного направления – цифровой библиографии!- подчеркнул Вадим Дуда. |
Илья Кутуков, руководитель лаборатории исследований и разработки РГБ, рассказал, что работа с этими документами представляет особую сложность, ведь газету печатали в военное время, качество бумаги и самой полиграфии было далеко не лучшим.
Сверхплотная верстка – нужно было вместить на полосу газеты как можно больше информации, нестабильный шрифт. Вдобавок газетный архив перенес затопление. Все это существенно ухудшает качество работы программ автоматического распознавания текста,- поясняет Илья Кутуков. |
Однако уже первые опыты с анализом лексики текстов газеты, по словам специалиста, дали очень интересные результаты:
Непривычный современному слуху язык, тезаурус политинформа с большим количеством сокращений, неологизмов, специфичной лексики того времени. Работая с оцифрованными текстами с помощью компьютерных программ, умеющих выделять сущности, мы увидели, как менялась лексика языка по мере того, как развивалось течение Великой Отечественной войны. |
Собственно, проблематике дальнейшей работы с оцифрованной подшивкой «Красной звезды» военных лет был посвящен хакатон с участием студентов «Школы 21».
Хакатон РГБ и «Школы 21»
Среди разнообразных параметров, которые тем или иным образом характеризуют любое литературное произведение, важное место занимает датировка. Это важно, с одной стороны, для библиографии – когда жил и творил автор? Этот вопрос имеет, в том числе, прагматическое значение для РГБ: исследование авторских прав на произведение, которое размещается в открытом доступе, требует больших затрат времени и усилий. С другой стороны, параметр времени – один из базовых для анализа содержания произведения, а также для исследований на базе газетных источников – он помогает устанавливать причинно-следственные связи между людьми, объектами, событиями. Иными словами, отвечать на базовые вопросы: кто? Где? Когда?
Мы не сможем продвигаться дальше в своей работе в цифровом пространстве, ни в сфере каталогизации, ни в исследованиях, если не сможем работать с датами,- пояснил Илья Кутуков. |
В то же время выявление дат и определение их точного места на временной шкале – задача очень непростая. Нынешние коммерческие системы текстовой аналитики в целом неплохо справляются с выявлением в электронных документах дат, написание которых принято в современных документах. Однако указание на бумажной газете полосе века с помощью римских цифр оказывается серьезным испытанием даже для «распознавалки». Классический пример: римская цифра XVIII распознается как аббревиатура ХУШ. Коммерческие системы текстовой аналитики также не «обучены» выявлять архаичные способы указания времени, например, «Р.Х.» или «н.в.». И уж совсем неподъемными для них станут относительные ссылки типа «первый месяц весны», «через две недели после Рождества…», не говоря уж о референсных датировках типа «незадолго до…».
Нужно найти в документе упоминание времени и привести его к унифицированному представлению на единой временной шкале, чтобы потом отдельные тексты можно было соотносить друг с другом,- пояснил задачу Илья Кутуков. |
В силу высокой сложности поставленной задачи, разработчики никак не ограничивались в своих возможностях использовать любые доступные инструментальные средства и готовые библиотеки. Для тестирования своих ИТ-решений команды получили доступ к открытой части текущей версии языкового корпуса, который создают специалисты РГБ.
К концу второго дня разработки на этап питчинга – презентации своих решений - вышли 12 команд. Интересно, что участники творчески перерабатывали общую постановку задачи в ТЗ для собственной разработки. Например, одна команда не стала тратить время на поиск подходящей открытой библиотеки и последующей ее адаптации к конкретной задаче, а сразу стала создавать собственную библиотеку для распознавания паттернов дат. Кто-то сфокусировался на задаче очистки входных данных. Илья Кутуков оценил эти результаты:
Фактически вы решали задачу автоматической проверки датасета. Это очень нужная задача. |
Действительно, результаты оцифровки бумажных произведений обязательно нужно проверять, но таких ресурсов у библиотеки, конечно, нет. В этой связи актуальна задача выявления ошибок, имеющихся в оцифрованных текстах.
Еще одна команда решила сконцентрировать внимание на ценности разработки для конечных потребителей – исследователей и создала программу парсинга, формирующую базу данных, на основе которой можно создать сервис. Еще один участник пошел еще дальше – он поставил перед собой задачу осмысления содержания текста через даты. Ему Илья Кутуков предложил рассмотреть предложение о работе:
Сделано не то, что требовалось в задании, но это то, что нам требуется для нашей работы. |
В целом, по его оценкам, многие команды неожиданно основательно подошли к решению поставленной задачи и получили хорошие результаты. По итогам хакатона организаторы от РГБ создадут специальный открытый репозиторий, где будет выложен код участников, а также наборы данных, подготовленные РГБ.
Наша конечная цель – максимально открытый доступ к структурированной информации РГБ,- пояснил он и добавил, что команды – участницы хакатона с полным правом могут называться контрибьюторами национального корпуса русского языка. Машиночитаемость русского языка - это наша с вами совместная работа, которая очень важна для изучения того, как функционирует наш язык,- подчеркнул Илья Кутуков. |