Данные – это факты, наблюдения или опыт, на которых строится или тестируется доказательство / теория, осуществляется исследовательский процесс. В научных проектах генерируются и собираются многочисленные разновидности данных. Данные включают лабораторные записи, данные полевых и первичных исследований (в том числе данные исследований в печатном виде или в электронной форме); вопросники; аудиозаписи (устных интервью и т. п.); видеозаписи; модели; фотографии; фильмы; ответы тестов и др.
Классификация данных по источникам получения
- данные наблюдений – данные, полученные в реальном времени, обычно уникальные и незаменимые, например изображения мозга, данные обследования (показания датчиков, телеметрия, результаты опросов, изображения);
- экспериментальные данные, генерируемые в лабораториях или в контролируемых условиях (последовательности генов, хроматограммы, показания магнитных полей);
- данные моделирований (климатические модели, экономические модели);
- производные / скомпилированные данные (интеллектуальный анализ текста и данных, скомпилированная база данных, 3D-модели);
- ссылочные данные – конгломерация или сбор меньших (рецензируемых) наборов данных, например базы данных генов, кристаллографические базы данных.
Классификация данных по форматам данных
- текстовые (полевые или лабораторные заметки, результаты опросов);
- числовые (таблицы, подсчеты, измерения);
- аудиовизуальные (изображения, звукозаписи, видео);
- модели, компьютерные коды;
- специальные дисциплинарные (FITS в астрономии, CIF в химии);
- специальные для прибора, конкретного оборудования.
Классификация данных по стабильности представления
- неизменные наборы данных (не меняются после сбора или генерирования);
- растущие наборы данных (новые данные добавляются, старые не изменяются и не удаляются);
- обновляемые наборы данных (новые данные добавляются, а старые данные могут быть изменены или удалены).
Большие данные (Big Data) – это термин, используемый для описания огромного количества цифровой информации, генерируемой или собранной из постоянно расширяющегося диапазона источников. Он выходит за рамки традиционных структурированных данных, часто включает неструктурированный или полуструктурированный контент, такой как данные клиента, транзакционные данные (например, файлы журналов), данные социальных сетей, данные датчиков или инструмента, аудио- и видеоданные.
В процессе исследования можно создать несколько различных типов данных в зависимости от вида исследований или анализа. Данные исследований могут быть представлены в различных форматах файлов. Эти сведения должны войти в DMP.