До недавнего времени расшифровка этих посланий из прошлого нередко представляла невообразимую сложность. Некоторые тексты дошли до нас в виде множества разрозненных фрагментов, которые нелегко сложить воедино даже истинным профессионалам своего дела. Все это приводит к тому, что ученые чаще занимались реконструкцией текстов, чем пытались углубиться в анализ их смысла. Однако в последнее время на помощь пришел искусственный интеллект, и это уже приносит ощутимые плоды.
Восстанавливать текст документов по разрозненным фрагментам очень непросто, поэтому историки хотят поручить эту утомительную работу машинам. Компьютеры могут с помощью алгоритмов и искусственного интеллекта обрабатывать изображения и извлекать из них цифровой текст, который затем будет изучаться людьми. Самыми практичными методами распознавания требующейся составляющей являются, безусловно, те, что основаны на так называемом «глубоком обучении». Под данным термином обычно понимается уникальный алгоритм нейронной сети, состоящей из взаимосвязанных узлов. «Нейроны» представляют собой простые математические функции. Они образуют последовательность слоев, и данные, поступая в систему, обрабатываются поочередно в каждом из них.
Как на то намекает их название, нейронные сети имитируют структуру человеческого мозга, пусть и в чрезвычайно упрощенном виде. Современные их разновидности имеют несколько слоев, которые весьма эффективно работают, например, при анализе данных. Термин «глубокое обучение» родился благодаря тому, что алгоритм ИИ приобретает некий опыт на основании обработки информации множества образцов. Нейронная сеть требует значительного объема входных и выходных данных. К первой категории в интересующем нас случае относятся цифровые изображения текстовых фрагментов, а ко второй – желаемый результат или предполагаемый смысл текста.
Так, например, ученые могут продемонстрировать ИИ изображение буквы «R», после чего позволить ему найти все таковые внутри текста. Программа может выполнить задание корректно, но способна и ошибиться, включив в выборку похожие символы. Обучение происходит в последнем случае, то есть при неверной классификации. Разница между желаемым результатом и предположением алгоритма используется для настройки параметров сети. Это позволяет сделать более точным следующий прогноз. Повторяя эту процедуру тысячи раз на все новых примерах, можно добиться практически идеального «понимания» программой текста. При достаточном количестве исходных данных нейронная сеть может идентифицировать буквы и слова, которые никогда раньше не видела, и именно так проверяется, насколько точно она работает.
Нейронные сети – это универсальный инструмент, поэтому они способны не только считывать изображения. Их можно обучить находить текст, заполнять пробелы в словах и даже оцифровывать слишком хрупкие для физических манипуляций документы. В настоящее время большая часть имеющихся программ предполагает обучение посредством значительного объема исходных данных в виде размеченных изображений и предварительно заданных выходных параметров. Однако последние обычно определяются людьми, поэтому при таком обучении ИИ обречен копировать предоставленные образцы. При этом все мы прекрасно знаем, что людям свойственно ошибаться – это значит, что нейронные сети легко наследуют человеческие огрехи и предубеждения.
К счастью, в случае с чтением текста желаемый результат, как правило, не отличается особой сложностью. На начальном этапе людям приходится потрудиться, чтобы обеспечить своего союзника достаточным количеством примеров для запуска аналитических алгоритмов. Однако как только эта стадия оказывается позади, ИИ быстро обучается и начинает успешно работать с древними документами. До недавних пор нейронные сети распознавали лишь печатные латинские буквы, однако в последние годы технология распространилась на множество древних языков и стилей письма. Исследователи научили их работать, в частности, со старонемецким, тамильским, деванагари, языком геэз, использовавшимся в древней Эфиопии, корейским и японским.
В 2021 году были опубликованы результаты исследования, в ходе которого ученые с помощью нейронной сети успешно воссоздали текст разорванного на множество мелких кусочков манускрипта. Документ, кстати, принадлежал к числу знаменитых свитков Мертвого моря. В том же самом году ИИ позволил считать текст древних рукописей с сильно выцветшими страницами, а в 2019-ом другая программа на основании похожих образцов восстановила недостающие древнегреческие слова, начертанные на поврежденных каменных табличках.
Подобные алгоритмы способны помочь и с фактической составляющей человеческой истории. В 2021 году исследователи с помощью нейронной сети попытались определить, сколько писцов работали над одним из древнееврейских свитков Мертвого моря. Проанализировав особенности почерка, ИИ вынес заключение, что это труд не одного, а нескольких человек, которые, тем не менее, стремились сделать так, чтобы записываемые ими символы ничем не отличались друг от друга! Описанная технология находится в самом начале своей эволюции, однако уже сегодня очень многое намекает на то, что будущее археологии, условно говоря, за «Тони Старком», а не за «Индианой Джонсом».