Метаданные

Метаданные (данные о данных) необходимы, чтобы сделать исследовательские данные идентифицируемыми, открываемыми и доступными для других ученых. Существует три категории метаданных: 1) описательные – общие сведения о данных, такие как название, автор, реферат, ключевые слова, которые помогают пользователям находить источники в интернете через поиск; 2) административные – данные о способах сохранения, дате создания, управления правами, программном обеспечении, форматах файлов, проверках целостности файлов; 3) структурные – сведения о связи данных друг с другом для облегчения навигации, например схема, описывающая отношения между таблицами в базе данных.

Поиск информации через метаданные будет более эффективным, если использовать стандартизированные термины и фразы при помощи контролируемых словарей, файлов полномочий, классификаций, тезаурусов, онтологий и таксономий (например, BARTOC, Базельский реестр тезаурусов, онтологий и классификаций).

Стандарты метаданных варьируются в зависимости от дисциплины, поэтому рекомендуется выбрать стандарт метаданных, соответствующий дисциплинарным требованиям или типу данных, которые будут генерироваться / собираться. Ниже приведены примеры стандартов метаданных, как общих, так и доменных:

Dublin Core – словарь (семантическая сеть) основных понятий английского языка, предназначенный для унификации метаданных для описания широчайшего диапазона ресурсов.

DDI (Data Documentation Initiative – международный стандарт для описания исследований, опросов, статистических файлов данных и информации в области социальных наук.

EML (Ecological Metadata Language) – стандарт специально для экологических дисциплин.

ISO 19115 и FGDC-CSDGM – стандарты, используемые для описания географической информации (карт, файлов географических информационных систем (ГИС), изображений и других ресурсов данных на основе местоположения). Содержат информацию об идентификации, объеме, качестве, пространственных и временных аспектах, содержании, пространственной привязке, изображении, распределении и других свойствах цифровых географических данных и услуг.

MINSEQE (MINimal information about high throughput SEQeuencing Experiments) – стандарт по геномам.

FITS (Flexible Image Transport System) – цифровой стандарт для описания файлов по астрономии.

MIBBI – это набор руководящих принципов для представления данных, полученных соответствующими методами в биологических и биомедицинских исследованиях (например, https://fairsharing.org/collection/MIBBI).

Можно воспользоваться стандартами из нижеследующих списков:

Данные описываются в соответствии с различными стандартами метаданных, которые предназначены для документирования содержимого файлов, раскрытия технических характеристик файлов, выражения отношений между файлами в наборе данных и др. Важным стандартом по подготовке метаданных является DataCite Metadata Schema (https://schema.datacite.org/), используемый для публикации и цитирования исследовательских данных[1].

Метаданные могут не потребоваться, если работа ведется самостоятельно на своем собственном компьютере, но они становятся необходимыми при совместном использовании данных в интернете. В Плане управления данными должно быть определено, будут ли применяться дескрипторы метаданных или теги.

Наличие таблицы (например, в Excel) метаданных, содержащей информацию о файлах данных, поможет интерпретировать содержание файлов и осуществлять лучшую навигацию. Верхняя строка с полями метаданных может быть защищена от записи, а значения могут содержать контролируемый словарь в раскрывающихся списках или контролируемый формат, например формат даты. Чтобы данные были еще более совместимы с другими экспериментами, необходимо использовать для их описания соответствующий стандарт метаданных. Эти стандарты хорошо документированы, поэтому можно ссылаться на определения стандарта, вместо того, чтобы самостоятельно описывать поля метаданных в словаре данных (или кодовой книге). Кроме того, использование контролируемого словаря для значений будет способствовать интероперабельности, то есть значения, которые будут помещены в поле метаданных, будут принимать значения только из определенного стандарта. Пример:

Автор(ы)ДатаПредмет. ВозрастПредмет. ПолФайл данных
Пример 1Иванов14.10.201714–29Proect_int_subj1.txt
Пример 2Иванов14.10.201814–29МProect_int_subj2.txt
Пример 3Иванов, Петров25.01.201740–55Ж, МProect_int_subj3.txt
Пример 4Иванов05.10.201830–40Ж, МProect_int_subj4.txt

Общие элементы метаданных, независимо от дисциплины, будут включать такие поля, как:
Название набора данных: название набора данных или исследовательского проекта.
Создатель: имена и адреса организаций или лиц, которые создали данные; предпочтительным форматом для личных имен является первая фамилия полное имя автора («Иванов Иван Иванович»).
Метод: информация о способе генерации данных, включая сведения об оборудовании и программном обеспечении (в том числе. номера моделей и версий), формулах, алгоритмах, экспериментальных протоколах и др.
Дата: ключевые даты, связанные с данными, в том числе: дата начала и окончания проекта; дата выхода; период времени, охватываемый данными, и другие даты, связанные с продолжительностью данных, такие как график обновления; предпочтительный формат – yyyy-mm-dd или yyyy.mm.dd-yyyy.mm.dd для диапазона.
Предмет: ключевые слова или фразы, описывающие предмет или содержание данных.
Место: физическое местоположение.
Аннотация: информация из заявки на грант или отчета по проекту для формулировки потребностей в наборе данных.
Участник(и): информация о других участниках проекта, занятых сбором / генерацией данных.
Форматы файлов: форматы данных, например, FITS, SPSS, HTML, JPEG и т. д.
Права: права на интеллектуальную собственность, установленные законом, лицензии или ограничения на использование данных.

  1. DataCite Metadata Working Group. (2017). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.1. DataCite e.V. 10.5438/0014. https://schema.datacite.org/meta/kernel-4.1/doc/DataCite-MetadataKernel_v4.1.pdf