Нейросеть Google научилась читать по губам лучше человека (2 фото)
Команда исследователей из подразделения Google DeepMind и Оксфордского университета совместно разработали программу WLAS, которая благодаря искусственному интеллекту поискового гиганта научилась читать по губам лучше человека. После просмотра более пяти тысяч часов записей телевизионных передач BBC обученная алгоритму распознавания мимики нейросеть начала понимать 46.8% слов. Как заявляют разработчики, у профессионального чтеца по губам показатель составляет 12.4%.
Ранее ученые из Оксфорда рассказали о собственной программе LipNet, читающей по губам с точностью до 93.4%, в то время как люди с соответствующими навыками показывали результат 52.3%. Вот только в том случае обучение проводилось на основе небольшой базы видео и 51 уникальным словом. В случае с WLAS за 5000 часов дикторами BBC (в записи, конечно же) было произнесено порядка 110 000 предложений с использованием 17 500 уникальных слов.
Авторы проекта считают, что чтение по губам дополнит работу алгоритмов распознавания речи, например, когда ведется запись в шумном окружении. Кроме того, WLAS сможет помочь людям с нарушениями слуха общаться с другими людьми и понимать суть происходящего на телеэкране (во время просмотра передач, фильмов, шоу). Еще одна область применения — научить голосовых помощников, вроде Siri, понимать пользователя, не слыша его речь, только считывая информацию с губ. Конечно же, особо подозрительные люди упрекнут разработчиков в попытке установить тотальную слежку за населением и всем, что они не только делают, но и говорят.
Источник: theverge.com