• В работе Telegram произошёл очередной сбой — на этот раз глобальный

    Очередной сбой наблюдается в работе службы мгновенных сообщений Telegram — на проблемы с мессенджером жалуются пользователи из разных стран мира, в том числе из США и Европы. Сложности дают о себе знать второй день подряд.
    Читать дальше
  • Учёные создали перезаписываемый ДНК-накопитель

    Исследователи из Университета Миссури разработали метод перезаписи ДНК без использования ферментов и повторного химического синтеза. Синтетическая ДНК рассматривается как сверхплотный и долговечный носитель, способный хранить информацию тысячелетиями без энергопотребления.
    Читать дальше
  • Xbox Project Helix получит ИИ-генератор кадров и рейтрейсинг нового поколения (3 фото)

    На конференции GDC 2026 в рамках своей презентации Xbox Developer Summit компания Microsoft поделилась первыми подробностями о Project Helix, связанными с её будущими графическими возможностями. Под этим кодовым именем разрабатывается домашняя игровая консоль Xbox нового поколения.
    Читать дальше
  • UGREEN выпустила на российский рынок три новых модели наушников (5 фото)

    На российском рынке стали доступны три модели беспроводных наушников UGREEN: HiTune H6 Magic с уникальным сенсорным дисплеем на кейсе, ClipBuds Pro с трендовой открытой конструкцией-клипсой для спорта и бюджетные UGREEN HiTune A3 в классическом дизайне.
    Читать дальше
  • Quake III Arena преобразили, добавив трассировку лучей (видео)

    Модификация Quake III Arena RTX Remix Mod от WoodBoy, добавляющая в легендарный шутер от id Software поддержку трассировки пути, получила обновление до версии в раннем доступе.
    Читать дальше

Китайцы представили нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь (видео)

1 марта 2024 | Просмотров: 16 565 | Новости IT

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).


В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

Комментарии: 0

В Вашем браузере отключен JavaScript. Для корректной работы сайта настоятельно рекомендуется его включить.