• Встречаем два новых смартфона от компании POCO - X8 Pro и X8 Pro Max

    Устройства уже доступны на Яндекс-Маркете, отличаются большим экраном, высокой производительностью и мощным аккумулятором. Об особенностях и различиях каждой модели расскажем отдельно.
    Читать дальше
  • iPhone 16e можно легко превратить в iPhone 17e (видео)

    Специалисты по ремонту техники из iFixit разобрали новый iPhone 17e и обнаружили неожиданную деталь: смартфон оказался куда более дружелюбным к ремонту, чем ожидалось. Более того, внутри скрывается своеобразный «бонус» для владельцев предыдущей модели.
    Читать дальше
  • Оборудование Роскомнадзора перегружено и не справляется с блокировками Telegram, выяснил Forbes

    Средства фильтрации трафика, которые Роскомнадзор использует в том числе для ограничения доступа к запрещённым ресурсам, перегружены и не справляются с блокировками в полной мере. Из-за этого периодически появляется доступ к заблокированным ранее сервисам, таким как WhatsApp. Об этом пишет Forbes со ссылкой на собственные осведомлённые...
    Читать дальше
  • UGREEN начал продажи новой линейки хабов на все случаи жизни (5 фото)

    В России начались продажи новых хабов и док-станций UGREEN, обеспечивающих удобное подключение сразу нескольких устройств и комфортную работу с периферией.
    Читать дальше
  • Нейронный рендеринг в DLSS 5 оказался больше похож на ИИ-фильтр (видео)

    Анонсированное компанией Nvidia на конференции GTC 2026 интеллектуальное масштабирование DLSS 5 вызвало стойкое отторжение среди геймеров, ценящих художественный замысел своих любимых игр.
    Читать дальше

Китайцы представили нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь (видео)

1 марта 2024 | Просмотров: 16 585 | Новости IT

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).


В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

Комментарии: 0

В Вашем браузере отключен JavaScript. Для корректной работы сайта настоятельно рекомендуется его включить.