Первый этап: "Простой" алгоритмНа начальном этапе задействуется простой алгоритм, задача которого — исключить заведомо неподходящие варианты. Он анализирует загруженные пользователями данные (в первую очередь GEDCOM-файлы) и отсекает:
- Персоны с минимумом известных данных (например те, про кого известны только имя или пол);
- Сравнения между мужчинами и женщинами (предполагается, что пол даже в исторических источниках указан достаточно точно);
- Персоны с явно не соответствующими датами рождения или смерти (разница более 5 лет);
- и т.д.
Этот этап позволяет значительно сократить объём данных для анализа, чтобы более сложный алгоритм не тратил вычислительные ресурсы на заведомо непроходные варианты.
Второй этап: "Продвинутый" алгоритмЕсли простой алгоритм определяет двух персон из разных древ как потенциально совпадающих, их данные передаются на обработку продвинутым алгоритмом. Здесь используются нейронные сети, а именно тот их подвид, который называется "Большие лингвистические модели" (LLM).
Нейронные сети — это мощный инструмент для анализа любых текстовых данных. Исторические данные часто бывают неточными, искаженными и слабоструктурированными.
Например:
- Одно и то же имя или фамилия могут быть записаны в разных документах с опечатками, видоизменены по форме или даже указаны на разных языках;
- Даты могут быть указаны в разных стилях или содержать ошибки.
- Географические данные могут быть представлены в различных формулировках (например, "родился в Королёве" и "родился в Московской области").
- И т.д.
Большие лингвистические модели (LLM), обучаются на огромных наборах текстов и поэтому потенциально способны учитывать подобные нюансы. Они понимают язык (множество языков), распознают различные варианты написания имён и фамилий (попробуйте спросить любую модель может ли она дать 50 вариантов написания какого-либо имени), а также могут установить взаимосвязь/близость географических наименований.
Однако, у нейронных сетей есть и свои недостатки. Как минимум это:
- Высокая требовательность к вычислительным ресурсам (нужны мощные серверы с GPU/TPU);
- Возможность ошибок ("галлюцинаций"), поэтому результаты, сгенерированные нейронными сетями всегда требуют проверки.
Раскроем также следующие важные моменты:
ВГД использует только локально развернутые инстансы нейронных сетей со свободной лицензией (MIT или Apache 2.0), работающие на вычислительных средствах ВГД. Это гарантирует защиту данных пользователей и независимость от сторонних сервисов.
Кроме того, поиск ведется только по публичным данным, которые в любом случае открыты для свободного доступа в сети Интернет. Если вы загрузили GEDCOM-файл и сделали его доступным только для себя или по прямой ссылке - он не будет участвовать в поиске.