Управление данными исследований (англ. Research Data Management, RDM), рассматриваемое как самый низкий уровень абстракции, из которого получают знания, является неотъемлемой частью эффективной научной практики. Данные исследований в разных формах (от простых числовых списков до аннотированных аудиовидеоматериалов и больших данных) генерируются либо собираются для анализа и последующего получения / подтверждения оригинальных научных результатов. Разные дисциплины используют специфические для каждой предметной области наборы данных (индивидуальные ответы на вопросы, ежечасные измерения температуры, скорости и направления ветра, цены на акции и т. д.).
Ученые прикладывают значительные физические и интеллектуальные усилия для сбора, сопоставления и анализа данных, управления ими перед публикацией результатов; данные остаются ценным ресурсом даже после окончания проекта, так как будущим исследователям не требуется собирать их заново. Мировым научным сообществом одобрены принципы FAIR (Findable, Accessible, Interoperable and Re-usable)[1], разработанные группой FORCE11. Для того чтобы данные соответствовали принципам FAIR, они должны быть доступны для поиска с помощью метаданных, идентифицируемыми и локализуемыми с помощью стандартного механизма идентификации, такого как постоянные и уникальные «цифровые идентификаторы объектов» (DOI – Digital Object Identifiers) и др.
Все больше научных журналов предлагают модели для улучшения видимости данных, совместного и открытого доступа к ним, что повышает прозрачность и достоверность исследований, а также позволяет критически оценивать полученные результаты. Журналы, требующие наличия данных в качестве предварительного условия для публикации, – это Nature, PLOS, Science и др. Главная задача политики этих журналов – облегчить читателям доступ к данным для лучшего понимания научных результатов, оценки преимуществ и определения достоверности исследования. Учитывая разнообразие типов данных и способов их представления, журналы рекомендуют хранить данные в открытых хранилищах или приводить основные данные в тексте статьи, а дополнительную информацию предоставлять по запросу. Так, издательство Elsevier предлагает связывать данные со статьей, загружая соответствующий компьютерный код и данные в репозиторий (например, Chemical Data Collections).
Управление исследовательскими данными является неотъемлемой частью жизненного цикла научного проекта, включает в себя сбор, документирование, хранение, создание резервных копий, совместное использование, обеспечение целостности, безопасности, управление версиями, надежное планирование и стратегическое управление данными. Выбор корректных форматов данных (структурированных и неструктурированных), онтологий и программных средств, необходимых для проведения экспериментов или создания набора данных, является важным этапом исследовательского цикла. Соответствующие стандартам форматы и имена файлов гарантируют, что данные могут быть идентифицированы и доступны в будущем. Данные нередко требуют пояснений, поэтому они должны сопровождаться метаданными (информацией, которая описывает данные). Использование соответствующих методов хранения и резервного копирования помогает защитить данные исследований от возможных потерь, а также обеспечивает доступ к ним в долгосрочной перспективе.
«Руководство по управлению данными исследований» знакомит:
- с основными понятиями по управлению данными исследований и этапами жизненного цикла данных,
- преимуществами подготовки плана управления данными,
- идентификаторами и требованиями к цитированию данных,
- требованиями к совместному использованию данных,
- возможными рисками по долговременному сохранению цифровых данных,
- преимуществами и проблемами, связанными с обменом исследовательскими данными,
- различными типами открытых лицензий и возможностями лицензирования данных,
- надежными репозиториями данных и др.
- FAIR (Findable, Accessible, Interoperable and Re-usable): Findable – легкий поиск определенных наборов данных, Accessible – удобный доступ (по условиям доступа и возможностям хранения в течение длительного времени, Interoperable – совместимость с другими наборами данных или программным обеспечением, Re-usable – многоразовое использование в последующих исследованиях и дальнейшей обработке.