Действительно ли больше — значит лучше? Парадокс 200 миллионов записей в открытом доступе

Открытая наука, трансформирующая информационный ландшафт, предлагает видение демократизированного знания и повышенной прозрачности. В этой быстро меняющейся среде такие платформы, как The Lens, OpenAlex и OpenAIRE, становятся альтернативами традиционным базам данных, например Scopus, и могут похвастаться коллекциями, превышающими 200 миллионов записей.

Однако компания SCImago провела анализ под названием «Сравнительный анализ открытых и коммерческих библиографических инфраструктур» («A Comparative Analysis of Open and Commercial Bibliographic Infrastructures»), и его выводы приглашают к более глубокому размышлению: масштаб не всегда синонимичен качеству.

Исследование сравнило Scopus (примерно 74 миллиона записей) с открытыми платформами, которые преодолели отметку в 200 миллионов записей. Экспоненциальный рост последних опирается на агрессивную автоматизацию, предназначенную для захвата препринтов, репозиториев и «серой» литературы.

Два мира в одной базе данных

Исследование показывает, что открытые платформы не являются однородными. Более детальный анализ выявляет две очень разные операционные реальности:

  • «Тщательно отобранное ядро»: стабильный набор из 60–63 миллионов записей, которые пересекаются с базами данных вроде Scopus. Благодаря строгим процессам фильтрации это ядро поддерживает надежные метаданные, достоверные идентификаторы и согласованную структуру.
  • «Расширенная литература»: примерно 150 миллионов дополнительных записей, собранных с помощью крупномасштабной автоматизации для захвата препринтов, «серой» литературы и репозиториев. Здесь качество метаданных резко падает.

В то время как более 93% записей в «отобранном ядре» содержат DOI, в «расширенной литературе» этот показатель падает до 46% в The Lens и до 53% в OpenAlex. Аналогичным образом наличие ISSN опускается ниже 32%, оставляя миллионы документов без какой-либо четкой издательской идентификации.

Вызовы для институциональной стратегии

Для институциональной стратегии наиболее насущной проблемой является отсутствие данных об аффилиации. В «расширенной литературе» почти 74% записей невозможно связать с каким-либо учреждением. Это создает прямую проблему для видимости и позиционирования университетов и исследовательских центров.

Дисбаланс влияния

Ситуацию усугубляет глубокая структурная проблема. Миллионы дополнительных записей на открытых платформах предоставляют ссылки, которые повышают импакт-факторы уже существующих журналов, но при этом редко получают цитирование в ответ.

Этот дисбаланс поразителен: в то время как записи в «отобранном ядре» получают в среднем от 25 до 27 цитирований, документы, найденные исключительно на открытых платформах, получают в среднем от 1,3 до 2 цитирований. На практике это подкрепляет хорошо известную в науке динамику, где видимость просто привлекает еще большую видимость, оставляя большую часть периферийной литературы в тени.

К стратегическому и гибридному подходу

Открытая инфраструктура представляет собой фундаментальное достижение, создающее новые возможности для научных открытий. Однако доступность не является синонимом надежности.

Для руководителей учреждений и специалистов по оценке научных исследований вывод очевиден: большее количество данных автоматически не означает их лучшее качество. Для строгого библиометрического анализа гибридный подход остается самым безопасным путем. Использование широких возможностей открытой науки требует одновременного поддержания строгих стандартов контроля качества, обеспечивающих принятие обоснованных и стратегических решений.

Для более глубокого изучения представленных выводов, вы можете прочитать полный отчет на английском языке по ссылке.

Источник: SCImago.