Детектив
Из базы данных о геноме коронавируса пропала часть ранних записей
Часть ранних данных о геноме SARS-CoV-2 была удалена из общей базы, с которой работают ученые со всего мира, выяснил американский специалист Джесс Блум. Ему удалось восстановить записи о генетических последовательностях ранних образцов коронавируса, полученных в Ухане — и эти образцы, как оказалось, отличаются от вариантов, распространившихся после.
Сами последовательности ничего не говорят о происхождении вируса, отмечает исследователь — появился ли он естественным путем или в лаборатории. Но получается, что до сих пор, изучая происхождение вируса, ученые работали с неполным набором данных, и это могло повлиять на результаты.
Изучая данные, опубликованные различными исследовательскими группами, доктор Джесс Блум из Онкологического центра Фреда Хатчинсона наткнулся на опубликованное в марте 2020 года исследование, в котором упоминался 241 образец SARS-CoV-2, полученный учеными из Уханя. В исследовании говорилось, что генетические последовательности образцов были загружены в онлайн-базу Sequence Read Archive, управляемую Национальной медицинской библиотекой США.
Однако когда Блум захотел взглянуть на эти последовательности, ни одну из них он в базе не нашел.
Заинтересовавшись их исчезновением, он нашел еще одну работу, в которой упоминались недостающие последовательности. Выяснив, что многие последовательности находились в облачном хранилище Google Cloud, и файлы с ними имели одинаковый формат, Блум смог восстановить 13 из пропавших записей. Подробнее свой опыт он описал в статье, опубликованной на сервисе препринтов bioRxiv.
Кажется вероятным, что последовательности удалили, чтобы скрыть их существование.
Объединив эти 13 записей с уже известными, Блум выяснил, что эти образцы старше полученных в 2019 году на рынке Уханя — в них отсутствовали мутации, характерные для той линии. Подобные последовательности попадались и раньше. Это указывает на существование другой, более ранней линии коронавируса.
Национальные институты здравоохранения США подтвердили, что данные были удалены в июне 2020 года по просьбе исследователя, первоначально их предоставившего.