Речь нейросети от Google не отличить от человеческой
В настоящее время синтезаторы человеческой речи перестали быть чем-то фантастическим. Многие компании реализуют проекты «перевода» — ретрансляции специальными программами звуков голоса хомо сапиенс. Однако при общении с такими преобразователями мы налету отличаем искусственно синтезируемую речь от эмоциональной человеческой. Но корпорации Google удалось сделать очередной успешный шаг к решению этой проблемы — нейросети компании «научились» передавать эмоции.
По сути, новая система генерации речи Tacotron 2 объединяет две нейросети глубокого обучения. Эта разработка является продолжением работы над предшествующими программами Tacotron и WaveNet. Ретрансляция идёт в два этапа: на первом текст преобразуется в визуальные образы — спектрограмму, а далее через сеть WaveNet генерируется речь человека.
Компания Google опубликовала сравнительные тесты работы Tacotron 2, разницу выявить очень сложно. Разработчики не указали, какая именно запись является результатом работы новой системы, а где говорит человек.
Во время ретрансляции Tacotron 2 распознаёт знаки препинания, выделяет слова с большой буквы и отлично справляется с особенностями произношения имён. Некоторые сложности связаны с трансляцией сложных слов, их Tacotron 2, по словам разработчиков, зачитывает буквально по слогам. Кроме того, система не может пока работать в реальном времени.
Tacotron 2 «говорит» женским голосом и станет существенным дополнением к Google Assistant, в данный момент работающем на WaveNet.
Источник: Google