Исследование, опубликованное 9 июля на сервере препринтов medRxiv, позволило определить, что данные из пяти крупных открытых медицинских баз используются для создания тысяч шаблонных и зачастую низкокачественных научных работ. Авторы предполагают, что такой всплеск может быть связан с массовым использованием генеративного ИИ или деятельностью «фабрик статей» – компаний, которые производят научные работы на заказ.
Тревожная статистика
С 2021 по 2024 год количество публикаций, основанных на данных таких баз, как UK Biobank, FDA Adverse Event Reporting System (FAERS) и NHANES, выросло с 4 000 до 11 500 – на 5 000 больше, чем прогнозировалось. Многие из этих статей имеют однотипные названия и сомнительные выводы.
Например, в одной работе изучалось, защищает ли обезжиренное молоко от депрессии, а в другой – влияет ли уровень образования на риск послеоперационной грыжи.
Почему это проблема?
- Низкое качество. Шаблонные работы часто содержат упрощённые или некорректные выводы.
- Подрыв доверия к науке. Открытые данные и так вызывают вопросы, а их некорректное использование усугубляет ситуацию.
- Перегрузка научных журналов. Редакторы тратят время на проверку сомнительных статей.
Как реагируют научные издания?
Журнал Journal of Global Health уже ввёл новые правила для авторов, использующих открытые данные:
- Указывать, сколько статей они опубликовали за последние 3 года.
- Раскрывать использование ИИ при подготовке текстов.
- Объяснять, как исключали ложные выводы.
Авторы исследования призывают научное сообщество активнее выявлять подобные публикации и ужесточать контроль за использованием открытых данных. Иначе поток низкокачественных работ может нанести серьёзный ущерб репутации науки.
Источник: Nature.
Изображение для превью новости предоставлено Freepik.