Нейросеть научили угадывать движение рук человека по его речи (видео)

Алгоритм изучает только аудиозапись речи.

Ученые из Калифорнийского университета в Беркли создали алгоритм, который может угадать движение рук человека по его речи. Как сообщает N+1, для этого нейросеть изучает только аудиозапись речи, затем создает анимированную модель тела человека, а потом на ее основе генерирует реалистичный видеоролик.

Отмечается, что работу алгоритма можно разбить на две части: сначала он предсказывает движение рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, который разработала в 2018 году смежная группа исследователей.

На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик.

Для обучения алгоритма ученые собрали базу данных, которая состояла из записей суммарной длительностью 144 часа. В частности, она содержала записи речей телеведущих, лекторов и проповедников. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью, алгоритм научился создавать реалистичные видеоролики. 

Источник: zn.ua 

view counter
view counter
Новости партнеров
Погода, Новости, загрузка...

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.