Наушники с чипом Apple M2 переводят речь сразу нескольких людей (видео)
Исследователи из Вашингтонского университета разработали наушники с искусственным интеллектом, способные в режиме реального времени переводить речь нескольких людей, говорящих на разных языках. Система получила название «Пространственный речевой перевод» и использует бинауральные наушники, имитирующие восприятие звука человеческими ушами.
В отличие от существующих решений, способных обрабатывать только один аудиопоток, новая технология позволяет распознавать и переводить голоса нескольких говорящих одновременно. Это открывает возможности для использования в шумных местах, например, на конференциях или в барах, где люди общаются на разных языках.
В основе технологии лежит комбинация разделения источников звука, локализации, перевода и бинаурального рендеринга, работающая в реальном времени на процессоре Apple M2. Микрофоны фиксируют направление речи, а ИИ обрабатывает каждый голос отдельно, сохраняя его локализацию и громкость. Прототип работает локально без отправки данных в облако и сохраняет естественный тембр речи носителей.
Наушники тестировались как в помещении, так и на улице. Система переводит речь с задержкой в 2–4 секунды, причём пользователи предпочитают задержку в 3–4 секунды для лучшего восприятия. Пока поддерживаются испанский, немецкий и французский языки, но разработчики планируют расширить этот список.
Код проекта доступен для открытого использования, что позволяет сообществу разработчиков совершенствовать технологию. По слухам, Apple также работает над аналогичной системой для AirPods.