Хранение данных

При размещении исследовательских данных имеется ряд решений для их хранения. Наиболее подходящее решение будет зависеть от таких факторов, как тип данных, размер, темпы роста, сохранение, производительность, доступ и т. д. Некоторые решения настроены для обмена данными (с предоставлением другим пользователям возможности читать, редактировать и др.), а другие – нет (индивидуальное хранилище). Выполнив классификацию данных, можно выбрать правильный вариант их хранения. Важно знать, какие данные будут генерироваться во время исследования, и указать это в плане управления данными. Не рекомендуется сохранять все данные, полученные в ходе исследовательской деятельности: необходимо определить, что должно быть сохранено и что может быть удалено (например, ненужные промежуточные результаты).

Прежде чем определиться с местом размещения данных, необходимо ответить на вопросы, планируется ли:

  • хранить данные с автоматическим резервным копированием,
  • хранить и делиться с другими без автоматического резервного копирования,
  • хранить и делиться с другими с автоматическим резервным копированием,
  • хранить данные долгосрочно.

Выбор места хранения данных – это важный этап в жизненном цикле данных.
1) Портативные устройства подходят для краткосрочного хранения копий файлов данных, но данный способ хранения уязвим к потере данных, так как автоматическая резервная копия данных не поддерживается. При использовании портативных устройств необходима регулярная проверка носителей и дополнительное сохранение данных на иных носителях.
2) Облачные сервисы хранения (Amazon S3, Google Диск и др.) целесообразны при сотрудничестве с партнерами из других организаций. Дополнительное преимущество в том, что они не зависят от устройства, поставщик обеспечивает сохранность, создавая регулярные резервные копии.
3) Хранение данных на сетевых ресурсах (серверах, облачных сервисах, дисках, репозиториях) организации удобно для совместного использования внутри учреждения. Институциональный репозиторий, то есть созданный в учреждении, которое его поддерживает (например, в Калифорнийском университете https://dash.ucop.edu/stash), обеспечивает надежное хранение и в случае создания резервных копий (автоматически и регулярно). В дисциплинарных хранилищах сосредоточены данные, связанные с определенной академической дисциплиной или конкретными типами данных, а многодисциплинарные репозитории предоставляют общую платформу публикации данных. Выбор репозитория или архива данных осуществляется с учетом долгосрочной безопасности, простоты открытия и доступа коллегами в той или иной области знаний.

Для поиска доступных репозиториев можно воспользоваться следующими ресурсами:
1. re3data.org (реестр репозиториев данных https://www.re3data.org/ предлагает систему рейтинга).
2. Список репозиториев, размещенных в Simmons College (http://oad.simmons.edu/oadwiki/Data_repositories).
3. Список рекомендуемых репозиториев данных в журнале Scientific Data http://www.nature.com/sdata/policies/repositories.

Известные хранилища данных:
1. B2Share – для европейских ученых и исследователей для хранения и обмена маломасштабными данными исследований.
2. Zenodo – хранилище, которое позволяет исследователям, ученым, проектам и учреждениям ЕС делиться и демонстрировать многодисциплинарные результаты исследований (данные и публикации), не являющиеся частью существующих институциональных или тематических хранилищ исследовательских сообществ. Оно предлагает множество различных лицензий и уровней доступа, интегрируется с GitHub с объемом хранения до 50 ГБ на каждый набор данных.
3. Open Science Framework (OSF) – система, позволяющая связать весь цикл исследований, в том числе в части исследовательских материалов, системы контроля версий и программного обеспечения для совместной работы.
4. Figshare – хранилище, которое позволяет исследователям публиковать все результаты.
Независимо от того, какой публичный репозиторий будет выбран, необходимо убедиться, что он имеет сертификат качества и данные получают идентификатор, обеспечивающий постоянный доступ. Чтобы разрешить повторное использование исследовательских данных, необходимо лицензировать данные, учитывая права на исходные существующие и вновь собранные данные.

Для разных организаций и областей знания могут быть установлены сроки хранения данных. Так, Netherlands Code of Conduct for Research Integrity (VSNU, 2018) указывает, что данные исследований должны храниться как минимум 10 лет. Для медицинских записей этот период составляет 15 лет или дольше, а данные по исследованию пациентов с наркотической зависимостью должны храниться в течение 20 лет. При этом персональные данные не могут храниться дольше, чем это необходимо для целей, с которыми они были собраны или с которыми они используются. Анонимные данные могут сохраняться для исторических, статистических или научных целей.
Следует учитывать, позволяет ли поставщик данных хранить их за рубежом, ведь для этого нужны соответствующие формы согласия. Исследовательские учреждения разных стран предоставляют своим сотрудникам простой и безопасный способ совместной работы и обмена данными исследований через облачные хранилища. Например, для организаций Нидерландов и стран Европы безопасное средство хранения данных и совместной работы – EUR Document Vault: данные хранятся в Европейском союзе и никогда не предоставляются третьей стороне, предоставляется доступ к широкому спектру защитных мер, таких как:

  • отслеживание действий с файлами, что позволяет видеть, кто и где просматривает, переадресовывает, редактирует или печатает файлы;
  • зашифрованное хранилище по умолчанию;
  • оперативное изменение прав пользователей;
  • установление даты истечения срока действия или отзыва документа;
  • аннулирование доступа к любому файлу даже после его загрузки.