Канадские научные библиотеки и исследователи объединяют усилия для расширения доступа к канадским первоисточникам путем преобразования системы управления информацией, лежащей в основе ресурса Canadiana — национальной цифровой коллекции, поддерживаемой Канадской сетью исследовательских знаний (CRKN).
Проект под руководством профессора Констанс Кромптон из Оттавского университета нацелен на превращение огромного архива Canadiana в полноценный инструмент для исследований. Коллекция включает около 69 миллионов страниц документов с XVI века до наших дней, отражающих социальное, экономическое и культурное развитие Канады.
Одним из ключевых участников проекта выступил профессор Дэн Браун из Школы информатики имени Черитона Университета Ватерлоо. Его задача — изучить, как языковые модели, обученные исключительно на канадских исторических данных, будут отличаться от универсальных аналогов.
«Я хочу понять, как изменится результат работы модели, если её обучать на исторических материалах Канады, — пояснил профессор Браун. — Например, сможет ли она точнее сгенерировать речь исторического лидера коренных народов по сравнению с Google Gemini или Claude? Проект открывает новые возможности для включения исторического контекста в вычислительные инструменты и наоборот. Особенно интересно наблюдать, как стереотипы и предвзятость, содержащиеся в исходных материалах, отразятся на результатах работы таких языковых моделей».
В настоящее время большая часть архива Canadiana не аннотирована, содержит документы в разных форматах, а многие рукописи не прошли оптического распознавания символов. В рамках инициативы будут разработаны инструменты искусственного интеллекта для организации, аннотирования и анализа этих данных в масштабе, включая обработку рукописных текстов и интеграцию генеративных ИИ-моделей.
Проект координируется Канадской сетью исследовательских знаний, объединяющей 88 университетов и библиотек страны. Полученное финансирование также пойдёт на модернизацию инфраструктуры, увеличение скорости поиска и добавление новых первичных источников.
По словам Бет Сандор Намачивайи, главного библиотекаря Университета Ватерлоо, новая инфраструктура будет полезна не только историкам, но и специалистам по литературе, языкам, географии и политологии, открывая широкие возможности для междисциплинарных исследований.
Источник: University of Waterloo.