«Яндекс» создал нейросеть размером менее 200 килобайт
«Яндекс» сообщил о разработке ультрамалой нейросетевой модели для голосового управления в носимых устройствах. Её размер удалось сократить примерно до 200 КБ без заметной потери качества распознавания речи. Это в несколько раз меньше объёма одной фотографии, сделанной на современный смартфон.
В компании отмечают, что создание подобных систем для наушников и умных часов значительно сложнее, чем для смартфонов или умных колонок. Такие устройства ограничены по объёму памяти, вычислительной мощности и ёмкости аккумулятора, при этом система должна постоянно прослушивать окружающее пространство в ожидании голосовой команды и делать это без серьёзного влияния на автономность.
Для решения этой задачи инженеры реализовали двухступенчатую схему обработки звука. Сначала лёгкая модель, число параметров которой сокращено примерно в 10 раз, определяет наличие речи и практически не нагружает устройство. Это позволяет выполнять распознавание голосовой команды локально — без постоянной передачи аудиосигнала в облако. Только после этого запускается основная нейросеть, которая проверяет, была ли произнесена ключевая команда. За счёт этого снижается энергопотребление и уменьшается задержка при обработке команд.
Ещё одним элементом системы стали специализированные нейропроцессоры NPU, которые выполняют вычисления нейросетей с меньшим энергопотреблением по сравнению с обычными CPU. По словам представителей «Яндекса», технология может использоваться в различных устройствах с обработкой речи в реальном времени — от беспроводных наушников до умных часов и других носимых гаджетов с ИИ-функциями.
Вполне вероятно, что новая нейросеть будет использоваться в первых умных наушниках компании — «Яндекс Дропс».
