База реакций открытого доступа Open Reaction Database

ORD (Open Reaction Database) — открытая база данных, состоящая из более 500 наборов данных и сотен тысяч реакций, описанных в структурированной форме. У проекта открытый исходный код и открытые данные, размещенные на Github.

Данные публикуются в форматах Parquet и сжатом Protobuf (.pb.gz). Основным источником является база патентов США, а кроме того, там используется некоторое число открытых датасетов, к которым привязаны реакции. Внутри используется язык разметки для химических реакций CML (Chemical Markup Language).

Практическое применение возможно, например, в автоматизации моделирования создания новых веществ, поиска новых реакций и т. д.

Источник: Ivan Begtin.