Организация файлов

Данные исследовательского проекта состоят из множества файлов, часто в различных форматах и нескольких версиях. Необходимы хорошие методы управления файлами, чтобы эффективно их идентифицировать, находить и использовать, а также делиться ими с другими пользователями в общем файловом пространстве. Более того, правильная структурированность и аннотирование позволит качественно организовать хранение данных и эффективно их использовать. Логическая структура организации файлов и папок, когда папки и подпапки являются иерархическими (~ три уровня, от общего к конкретному) и логически следуют друг за другом, неоценима для быстрой навигации и поиска данных.

Существует три основных критерия для маркировки файлов исследовательских данных:

  • организация – важна для будущего доступа и поиска и должна учитывать ограничения именования файлов системы, в которой находится файл;
  • контекст – может включать информацию, специфичную для контента или описательную информацию, независимо от того, где хранятся данные;
  • согласованность – выбор соглашения об именах файлов и соблюдение правил на протяжении всего исследовательского цикла (например, дата и время в определенном порядке – YYYYMMDD).

Также существует ряд общих элементов, которые следует учитывать при разработке стратегии именования файлов, в том числе:

  • номер версии,
  • дата создания,
  • имя создателя,
  • описание содержимого,
  • название исследовательской группы / отдела, связанного с данными,
  • дата публикации,
  • номер проекта.

 
Приблизительные рекомендации по управлению файлами данных:
1) Имена файлов должны быть короткими (не более 25 символов).
2) Создайте таблицу / журнал файлов, в котором документируются файлы.
3) Используйте только символы из наборов AZ, az, 0-9, дефис, подчеркивание и точку. Не используйте специальные символы, такие как &% $ #), поскольку разные операционные системы могут назначать разные значения этим символам. Примером имени файла может быть «NTC_wp5_MA_exp1.csv» (проект, рабочий пакет в проекте, тип измерения, идентификатор эксперимента измерения) или MicroArray_NTC023_20141031.xls (описание контента, номер проекта, дата: международный стандарт).
4) Файлы и папки данных исследований должны быть систематически организованы, чтобы они были идентифицируемыми и доступными для текущих и будущих пользователей.
5) Убедитесь, что имена файлов не зависят от местоположения, и, если работа осуществляется на нескольких компьютерах, убедитесь, что файлы синхронизированы.
6) По возможности используйте расширения файлов (часто по умолчанию), чтобы точно отражать программную среду, в которой был создан файл, и физический формат файла. Например, используйте .por для портативных файлов SPSS, .xls или .xlsx для файлов Excel, .ssd или .sas7bdat, в зависимости от файлов SAS, .txt для текстовых файлов и т. д.
7) Инструменты, которые помогут переименовать файлы:

 
В различных операционных системах есть встроенные инструменты для управления файлами, есть программные средства, которые могут организовывать файлы и папки данных исследований последовательно и автоматически путем пакетного переименования (также известного как массовое переименование файлов, массовое переименование).