Carder.life - Цифровые двойники: как 'Animate Anyone' угрожает вашей идентичности

Новая технология Alibaba может использоваться для создания обманчивых видео.
Исследователи из Института Интеллектуальных Вычислений Alibaba Group разработали новую технологию генерации видео под названием " Animate Anyone ". Этот прорыв значительно превосходит предыдущие системы преобразования изображений в видео, такие как DisCo и DreamPose, которые были актуальны ещё летом, но теперь устарели.
"Animate Anyone" позволяет создавать убедительные видео из статичных изображений, переходя от "несовершенных академических экспериментов" к качеству, достаточному для обмана взгляда. Такое качество уже достигнуто в области статичных изображений и текстовых диалогов, вызывая сбои в нашем восприятии реальности.
Модель начинает с извлечения деталей, таких как черты лица, узоры и позы, из исходного изображения, например, фотографии модели в платье. Затем создаются серии изображений, где эти детали накладываются на слегка изменённые позы, которые могут быть захвачены в движении или извлечены из другого видео.
Ранние модели демонстрировали возможность такого подхода, но существовали проблемы, такие как "галлюцинации" - необходимость модели изобретать правдоподобные детали, например, как движется рукав или волосы при повороте человека. Это приводило к созданию странных изображений, делая видео неперекончительным. Однако "Animate Anyone" значительно улучшил этот процесс, хотя и не достиг совершенства.
https://www.securitylab.ru/upload/me...xl6uopoyb2.gif
Технические детали новой модели сложны для понимания, но важно отметить новый промежуточный этап, который "позволяет модели всесторонне изучать связь с исходным изображением в едином пространстве характеристик, что значительно улучшает сохранение деталей внешности". Улучшение сохранения базовых и тонких деталей позволяет создавать более качественные изображения.
Результаты демонстрируются в различных контекстах: модели в модной одежде принимают произвольные позы без деформации; 2D-аниме-персонажи оживают и убедительно танцуют; Лионель Месси выполняет несколько общих движений. Однако модель все еще испытывает трудности, особенно с глазами и руками, а также с позами, сильно отличающимися от оригинала.
Эта технология вызывает беспокойство, так как с её помощью злоумышленники могут заставить человека делать что угодно на видео, используя всего лишь одно качественное изображение. На данный момент технология слишком сложна и нестабильна для широкого использования, но в мире ИИ вещи быстро меняются.
Команда разработчиков пока не планирует публиковать код в открытом доступе. На их странице GitHub указано, что они активно работают над подготовкой демонстрации и кода для общественного доступа, но конкретная дата выпуска пока не назначена.
Остаётся вопрос: что произойдет, когда интернет заполнится поддельными видео? Ответ, вероятно, мы узнаем раньше, чем нам хотелось бы.