Метаданные (данные о данных) необходимы, чтобы сделать исследовательские данные идентифицируемыми, открываемыми и доступными для других ученых. Существует три категории метаданных: 1) описательные – общие сведения о данных, такие как название, автор, реферат, ключевые слова, которые помогают пользователям находить источники в интернете через поиск; 2) административные – данные о способах сохранения, дате создания, управления правами, программном обеспечении, форматах файлов, проверках целостности файлов; 3) структурные – сведения о связи данных друг с другом для облегчения навигации, например схема, описывающая отношения между таблицами в базе данных.
Поиск информации через метаданные будет более эффективным, если использовать стандартизированные термины и фразы при помощи контролируемых словарей, файлов полномочий, классификаций, тезаурусов, онтологий и таксономий (например, BARTOC, Базельский реестр тезаурусов, онтологий и классификаций).
Стандарты метаданных варьируются в зависимости от дисциплины, поэтому рекомендуется выбрать стандарт метаданных, соответствующий дисциплинарным требованиям или типу данных, которые будут генерироваться / собираться. Ниже приведены примеры стандартов метаданных, как общих, так и доменных:
Dublin Core – словарь (семантическая сеть) основных понятий английского языка, предназначенный для унификации метаданных для описания широчайшего диапазона ресурсов.
DDI (Data Documentation Initiative – международный стандарт для описания исследований, опросов, статистических файлов данных и информации в области социальных наук.
EML (Ecological Metadata Language) – стандарт специально для экологических дисциплин.
ISO 19115 и FGDC-CSDGM – стандарты, используемые для описания географической информации (карт, файлов географических информационных систем (ГИС), изображений и других ресурсов данных на основе местоположения). Содержат информацию об идентификации, объеме, качестве, пространственных и временных аспектах, содержании, пространственной привязке, изображении, распределении и других свойствах цифровых географических данных и услуг.
MINSEQE (MINimal information about high throughput SEQeuencing Experiments) – стандарт по геномам.
FITS (Flexible Image Transport System) – цифровой стандарт для описания файлов по астрономии.
MIBBI – это набор руководящих принципов для представления данных, полученных соответствующими методами в биологических и биомедицинских исследованиях (например, https://fairsharing.org/collection/MIBBI).
Можно воспользоваться стандартами из нижеследующих списков:
Данные описываются в соответствии с различными стандартами метаданных, которые предназначены для документирования содержимого файлов, раскрытия технических характеристик файлов, выражения отношений между файлами в наборе данных и др. Важным стандартом по подготовке метаданных является DataCite Metadata Schema (https://schema.datacite.org/), используемый для публикации и цитирования исследовательских данных[1].
Метаданные могут не потребоваться, если работа ведется самостоятельно на своем собственном компьютере, но они становятся необходимыми при совместном использовании данных в интернете. В Плане управления данными должно быть определено, будут ли применяться дескрипторы метаданных или теги.
Наличие таблицы (например, в Excel) метаданных, содержащей информацию о файлах данных, поможет интерпретировать содержание файлов и осуществлять лучшую навигацию. Верхняя строка с полями метаданных может быть защищена от записи, а значения могут содержать контролируемый словарь в раскрывающихся списках или контролируемый формат, например формат даты. Чтобы данные были еще более совместимы с другими экспериментами, необходимо использовать для их описания соответствующий стандарт метаданных. Эти стандарты хорошо документированы, поэтому можно ссылаться на определения стандарта, вместо того, чтобы самостоятельно описывать поля метаданных в словаре данных (или кодовой книге). Кроме того, использование контролируемого словаря для значений будет способствовать интероперабельности, то есть значения, которые будут помещены в поле метаданных, будут принимать значения только из определенного стандарта. Пример:
Автор(ы) | Дата | Предмет. Возраст | Предмет. Пол | Файл данных | |
---|---|---|---|---|---|
Пример 1 | Иванов | 14.10.2017 | 14–29 | 1Ж | Proect_int_subj1.txt |
Пример 2 | Иванов | 14.10.2018 | 14–29 | М | Proect_int_subj2.txt |
Пример 3 | Иванов, Петров | 25.01.2017 | 40–55 | Ж, М | Proect_int_subj3.txt |
Пример 4 | Иванов | 05.10.2018 | 30–40 | Ж, М | Proect_int_subj4.txt |
Общие элементы метаданных, независимо от дисциплины, будут включать такие поля, как:
Название набора данных: название набора данных или исследовательского проекта.
Создатель: имена и адреса организаций или лиц, которые создали данные; предпочтительным форматом для личных имен является первая фамилия полное имя автора («Иванов Иван Иванович»).
Метод: информация о способе генерации данных, включая сведения об оборудовании и программном обеспечении (в том числе. номера моделей и версий), формулах, алгоритмах, экспериментальных протоколах и др.
Дата: ключевые даты, связанные с данными, в том числе: дата начала и окончания проекта; дата выхода; период времени, охватываемый данными, и другие даты, связанные с продолжительностью данных, такие как график обновления; предпочтительный формат – yyyy-mm-dd или yyyy.mm.dd-yyyy.mm.dd для диапазона.
Предмет: ключевые слова или фразы, описывающие предмет или содержание данных.
Место: физическое местоположение.
Аннотация: информация из заявки на грант или отчета по проекту для формулировки потребностей в наборе данных.
Участник(и): информация о других участниках проекта, занятых сбором / генерацией данных.
Форматы файлов: форматы данных, например, FITS, SPSS, HTML, JPEG и т. д.
Права: права на интеллектуальную собственность, установленные законом, лицензии или ограничения на использование данных.
- DataCite Metadata Working Group. (2017). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.1. DataCite e.V. 10.5438/0014. https://schema.datacite.org/meta/kernel-4.1/doc/DataCite-MetadataKernel_v4.1.pdf