Модуль 1. Введение в открытую науку. Теория

Что такое открытая наука?

Открытая наука — рамочная концепция, которая объединяет различные движения и формы деятельности, направленные на то, чтобы сделать научные знания на различных языках открытыми, общедоступными и пригодными для всеобщего многократного использования, расширить научное сотрудничество и обмен информацией на благо науки и общества и открыть процессы создания, оценки и распространения научных знаний для социальных субъектов, не входящих в традиционное научное сообщество. Она охватывает все научные дисциплины и аспекты научной практики, в том числе в сфере фундаментальных, прикладных, естественных, социальных и гуманитарных наук, и основывается на следующих ключевых принципах: открытые научные знания, открытая научная инфраструктура, научная коммуникация, открытое участие социальных субъектов и открытый диалог с другими системами знаний. Рекомендации ЮНЕСКО по открытой науке

Открытая наука в картинках — материалы, простым и понятным языком рассказывающие об открытой науке и ее значении для всех.

Принципы FAIR
  • Findable (Находимость): Данные и метаданные должны иметь уникальные, постоянные идентификаторы (например, DOI), быть описаны подробными метаданными и индексироваться в поисковых системах.
  • Accessible (Доступность): Пользователи и автоматизированные системы должны знать, как получить доступ к данным, используя открытые, свободные и универсальные протоколы связи (например, HTTP, FTP). Метаданные должны оставаться доступными, даже если сами данные удалены.
  • Interoperable (Совместимость): Данные должны быть представлены в общепринятых форматах и использовать форматы обмена, понятные для различных приложений, а также соответствовать стандартам.
  • Reusable (Повторное использование): Данные должны быть хорошо задокументированы, иметь понятную лицензию на использование, чтобы их можно было объединять с другими данными и использовать повторно в различных условиях.

Принципы FAIR — материалы GO FAIR, инициатива, направленная на внедрение принципов FAIR

Open with care: Best practice for sharing research data responsibly (Открывайте с осторожностью: лучшие практики ответственного обмена исследовательскими данными — статья J. Vigilanti)

Половина результатов в социальных науках не воспроизводится: итоги проекта SCOREинтервью с Брайаном Ношеком, соучредителем некоммерческого Центра открытой науки (COS), в рамках которого были обсуждены итоги деятельности международного проекта SCORE (Systematizing Confidence in Open Research and Evidence).

📖 Посмотреть примеры реализации принципов FAIR в различных научных дисциплинах

1. Биология / Геномика (Пример: данные секвенирования ДНК)

Принцип FAIRПример
FindableПоследовательность гена получает устойчивый идентификатор в базе GenBank (Accession Number, например, MN123456). Этот ID индексируется в поисковых системах (NCBI, ENA).
AccessibleДанные доступны через протокол FTP/HTTPS без аутентификации. Метаданные (вид, дата, метод секвенирования) извлекаются через API баз данных.
InteroperableФайлы представлены в стандартных форматах: FASTA, FASTQ, SAM/BAM, GFF3. Используются контролируемые словари (онтология Gene Ontology, таксономические ID NCBI).
ReusableОпубликована лицензия (например, CC0 или Open Data Commons). Подробно описан протокол выделения ДНК, качество сборки генома (N50), версия референсного генома.

2. Физика высоких энергий (Пример: данные с коллайдера LHC)

Принцип FAIRПример
FindableКаждый датасет (например, запись событий протон-протонных столкновений) имеет DOI в репозитории CERN Open Data Portal.
AccessibleДанные разделены на уровни: «сырые» доступны только коллаборации, а производные (гистограммы, файлы ROOT с имитацией фона) – публично через веб-интерфейс с авторизацией для больших файлов.
InteroperableДанные хранятся в формате ROOT (CERN), но есть конвертеры в HDF5, CSV, Avro. Используются общие физические величины (эВ, радианы, время) и стандартные идентификаторы частиц (PDG ID).
ReusableВ пакете к данным включены сертифицированные симуляции Монте-Карло, JSON-схема событий, Jupyter-ноутбуки для проверки. Указано, как была проведена калибровка детекторов.

3. Химия / Кристаллография (Пример: структура белка или кристалла)

Принцип FAIRПример
FindableСтруктура зарегистрирована в PDB (Protein Data Bank) с кодом типа 6XYZ. Можно найти по формуле, пространственной группе, эксперименте (X-ray, Cryo-EM).
AccessibleКоординаты атомов доступны в виде PDB-файла или CIF напрямую по ссылке. Результаты рефайнмента (R-фактор, карты электронной плотности) – тоже.
InteroperableИспользуется машинно-читаемый формат mmCIF с едиными словарями (IUPAC, химические элементы). Интегрируется с инструментами визуализации (PyMOL, ChimeraX) без конвертации.
ReusableПодробно указаны условия кристаллизации, температура сбора данных, длина волны, программное обеспечение для решения фаз. Лицензия позволяет использовать структуру для докинга лигандов.

4. Социальные науки / Экономика (Пример: Национальное исследование благополучия молодежи, 2010 год)

Принцип FAIRПример
FindableДатасет «Национальное исследование благополучия молодежи, 2010 год» имеет постоянный DOI и запись в реестре CESSDA.
AccessibleДанные требуют регистрации (согласие о неразглашении), но предоставляются через контролируемый доступ (например, лаборатория удаленного доступа). Агрегированные статистики – открыты.
InteroperableПеременные названы по стандарту DDI (Data Documentation Initiative). Формат – SPSS, Stata, Tab. Скачать метаданные можно в формате Schema.org JSON-LD, DCAT.
ReusableК данным прилагаются опросники, охват и методология. Указано, какие вопросы менялись от года к году, чтобы не смешивать несовместимые данные.

5. Науки о Земле / Климатология (Пример: моделирование температуры океана)

Принцип FAIRПример
FindableВыходные данные климатической модели CMIP6 зарегистрированы в репозитории ESGF с глобальным идентификатором (например, CMIP6.CMIP.INM.INM-CM5-0.historical.r1i1p1f1.Omon.tos.gn.v20201216).
AccessibleДанные можно скачать через OpenDAP или по ссылке HTTPS. Доступны в двух уровнях: быстрый просмотр (NetCDF подвыборка) и полный объем (десятки ГБ).
InteroperableИспользуется NetCDF с соглашением CF (Climate and Forecast). Координаты – широта/долгота по стандарту WGS84, время – в днях с фиксированной эпохи. Единицы измерения (°C, Па, кг/м²/с) строго из словаря UDUNITS.
ReusableПриложен журнал версий модели, описание параметров форсинга (парниковые газы, орбита Земли). Дана оценка неопределенности (ансамбль из 5 реализаций). Лицензия CC BY 4.0.
Как открытость влияет на цитирование?

Открытый доступ дает статьям преимущество в видимости и цитировании как в рамках научного сообщества, так и за его пределами. Аудитория у открытых публикаций почти в четыре раза больше, но цитируют их выше примерно на 30 %. Хотя такую разницу нельзя назвать значительной, она все же может быть аргументом для многих исследователей при выборе журнала для публикации. Трищенко Н. Д., Макеенко М. И. Влияние открытого доступа на показатели цитируемости и альтернативных метрик статей в ведущих международных научных журналах по медиа и коммуникации. Журн. Сиб. федер. ун-та. Гуманитарные науки, 2024, 17(8), 1602–1611.

Этические границы открытости

Открытая наука предполагает обмен огромными объемами данных, некоторые из которых могут содержать конфиденциальную или личную информацию. Крайне важно найти баланс между открытостью и конфиденциальностью данных. Исследователи должны придерживаться этических принципов и правовых норм для защиты конфиденциальности людей при обмене данными. Сокольчик В. Н. Иерархия этических принципов научной деятельности в эпоху открытой науки (на примере биомедицинских исследований) // Этическая мысль. 2025. №1.

Что такое открытые лицензии? | Запись вебинара «Открыть нельзя закрыть: Creative Commons в открытой науке»

Соблюдение какого принципа FAIR кажется сложнее всего?