Шведские учёные обучили ИИ переводу с лошадиного
Группа учёных из Швеции разработала модель искусственного интеллекта Dessie, предназначенную для перевода языка тела лошадей в понятный для человека формат. В основу решения легли технологии машинного обучения и синтетические изображения.
Во время клинических осмотров ветеринары часто изучают визуальные сигналы, которые подают животные, но этот способ не всегда надёжен: лошадь может перенести боль на другую ногу, изменить распределение веса или позу. Её поведение может указывать на проблемы ортопедического характера, расстройства поведения или признаки травмы. Традиционные средства диагностики, в том числе рентген и МРТ, дают результаты уже после того, как проблема возникла. Цель Dessie — прочитать язык тела лошади, чтобы обнаружить признаки проблемы заранее.
Во время работы модель в реальном времени преобразует плоские изображения в трёхмерные, которые отражают форму, позу и движение лошади. Это не просто визуализация, а попытка осуществить перевод с выразительного языка тела. При создании Dessie использовалось обучение с разделением факторов. В традиционных моделях вся информация — поза, форма, фон, освещение — идёт в едином потоке, что может сбить ИИ с толку и затруднить фокусировку на главном — самой лошади. Обучение с разделением факторов позволяет учитывать каждую особенность отдельно: форма представляется одной сущностью, поза — другой, а не имеющий отношения к задаче фоновый шум игнорируется.
Генерируемые Dessie трёхмерные объекты отличаются не только высокой детализацией, но и надёжностью. ИИ помогает исследователям изолировать шаблоны движения, не отвлекаясь на окружающие объекты и различия в освещении. Dessie не требует высококачественных камер и маркеров на теле лошади — ей достаточно одной простой камеры и базовых видеоматериалов. Воспользоваться технологией могут работники сельских клиник, не имеющие доступа к дорогостоящим средствам визуализации.
Для обучения ИИ исследователям потребовались огромные объёмы визуальных данных. Поскольку собрать реальные изображения лошадей разных пород в различных позах и при разном освещении сложно, они разработали генератор синтетических данных DessiePIPE. Он способен создавать неограниченное количество изображений лошадей с использованием трёхмерной модели и текстур, сгенерированных ИИ, на основе характеристик разных пород. Это позволило авторам проекта обучить Dessie особенностям движений лошадей без необходимости изучения тысяч реальных животных: DessiePIPE визуализирует лошадей, которые ходят, едят, встают на дыбы или отдыхают — в различных фонах и условиях освещения. Система также создаёт пары изображений для сопоставления, отличающиеся лишь одним параметром — например, формой или позой, — чтобы модель научилась замечать тонкие различия. В результате Dessie научилась распознавать малые изменения в движении и стала эффективнее обобщать данные для новых условий.
Лошади сигнализируют о болевых ощущениях незначительными изменениями в походке и позе, заметными лишь опытному ветеринару. Dessie переводит эти сигналы в объективные трёхмерные показатели, помогая выявлять проблемы на ранней стадии. Она создаёт цифровую запись позы и движений животного, которую можно просматривать многократно, отслеживать в динамике и передавать в другие клиники. Несмотря на то что Dessie обучалась на синтетических данных, ИИ эффективно работает с реальными изображениями: для настройки системы потребовалось всего 150 реальных снимков с аннотациями. Этого набора хватило, чтобы Dessie обошла передовые модели в тестовых задачах: при обнаружении ключевых точек, таких как суставы и другие важные элементы, система показала лучшие результаты, чем MagicPony и Farm3D. Также Dessie точнее предсказывает форму тела и движение, что важно для диагностики хромоты или мышечной асимметрии. При увеличении объёма обучающих данных её эффективность возрастала ещё сильнее — благодаря преимуществам обучения с разделением факторов.
Dessie создавалась для анализа лошадей, но архитектура системы настолько гибка, что позволяет получать качественные результаты и при работе с другими похожими животными: коровами, зебрами, оленями. Модель успешно реконструировала их в 3D, несмотря на отсутствие прямого обучения на этих видах. Это открывает большой потенциал в сфере защиты животных: система может изучать редкие виды, используя только готовые фотографии и видео, без необходимости в инвазивном мониторинге. Dessie также продемонстрировала высокую эффективность при обработке художественных изображений, включая картины и мультфильмы, по которым она способна строить точные трёхмерные модели.
Однако у системы есть и недостатки. Она работает лучше всего, когда в кадре находится только одна лошадь, и испытывает трудности при столкновении с необычными формами тела, отсутствовавшими в обучающих данных. Эту проблему должна решить новая модель VAREN, поддерживающая большее разнообразие форм. В целом Dessie проста в использовании: она анализирует язык тела лошади и переводит его в синтезированную речь, благодаря чему общение человека с животным выходит на новый уровень.