Открытая база больших данных HTTP Archive - Библиотека для открытой науки

HTTP Archive — крупная открытая база по веб-технологиям, собираемая из данных миллионов сайтов. Она включает почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров, которые ежегодно актуализируют базу данных и подготавливают веб-альманах с рассказом о том, как технологии меняются и развиваются. Альманах за 2022 год был выпущен в сентябре 2022 г. и обновлен в октябре. Он включает несколько любопытных разделов, например, про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и т. д. Интересен тот факт, что структурированных данных становится всё больше и самыми популярными форматами являются RDF и Open Graph.

В HTTP Archive есть масса информации по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера можно назвать несколько интересных фактов:
— русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским);
— самые популярные «фабрики шрифтов» (font foundries) — это Google и Font Awesome;
— кириллические шрифты вторые по распространённости после латинского письма.

Все эти данные доступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство. Эти данные впоследствии можно использовать в собственных исследованиях.

Источник: https://t.me/begtin

Изображение для превью новости предоставлено: https://goo.su/C40LJ