Искусственный интеллект Deep Voice научился менять женский голос на мужской

В 2017 году копирование голоса занимало полчаса, а теперь секунды.

Компания Baidu обновила Deep Voice — систему для преобразования печатного текста в человеческую речь. Новая версия умеет быстро создавать цифровые копии голосов людей, а также менять женский тембр на мужской и наоборот. Чтобы синтезировать голос, ей необходимо изучить записи с речью реальных людей, учитывая манеру произношения.

Эволюция Deep Voice

Первая версия системы была разработана в начале 2017 года. Она работала быстрее, чем Google WaveNet, на замену которой в декабре вышла Tacotron 2. Искусственный интеллект от Baidu делил заданный текст на фонемы, они преобразовывались в звуки, а из звуков складывалась цифровая версия человеческой речи. Этот алгоритм используется до сих пор.

В мае 2017 года вышла Deep Voice 2 со способностью копировать голоса людей с учетом особенностей произношения. Для создания копии системе было достаточно изучить получасовую запись человеческого голоса.

20 февраля 2018 года Baidu опубликовала технический документ, рассказывающий о паре новых методов обучения. Первый метод занимает больше времени, но синтезированная речь получается более похожей на человеческую. Второй работает быстро, но от этого страдает качество.

Человеческие голоса и их копии можно послушать на GitHub.

Общий рейтинг записи
Оцените запись:
[Всего: 0 Средняя оценка: 0]

Добавить комментарий