Govorilka 2.2.1 + голосовые движки [2009, синтезатор речи]

Содержание:

Ivona — лучший синтезатор речи
Русские голоса
Оценки Качества и Примеры Аудио
VLC media player 2.2.1 [2015, Медиаплеер] 32/64-bit
Пример использования
Установка движка Nicolai
Приложения для чтения книг голосом
Установка утилиты
Николай Nicolai — Acapela ELAN Tempo Multimedia.
Краткий Обзор Решений

Ivona — лучший синтезатор речи

Голосовые движки данного онлайн сервиса отличаются очень высоким качеством, хорошей фонетической основой, звучат достаточно естественно и «металлический» компьютерный голос здесь чувствуется гораздо реже, нежели у сервисов-конкурентов.

Сервис Ivona имеет поддержку множества языков, в русском варианте присутствуют мужской голос (Maxim) и женский (Tatyana). К сожалению у них что-то с сайтом. И доступа нет. https://www.ivona.com/us/

Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.

Чтобы воспользоваться функционалом ресурса откройте указанный сервис, слева в окне выберите русский язык (Select a language – Russian).
Вставьте внизу нужный текст и нажмите на кнопку «Listen» (слушать).

Максимальный размер текста для аудиопрочтения — 300 символов.

Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.

Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая

Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений

Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

Microsoft Windows,
Mac OS X,
Linux,
RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.

Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.

Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.

Русские голоса

Какой синтезатор речи выбрать? лучшие онлайн говорилки

Сообщение evmir_troll-hunter » 20 июн 2018 00:56

Здесь представлены образцы звучания русских голосов.

Сообщение Fenix » 24 июн 2021 23:10

Сообщение evmir_troll-hunter » 24 июн 2018 23:29

Сообщение Fenix » 24 июн 2021 23:54

Небольшой семпл для оценки. как Алёна может звучать при правильно подключенных лексиконах и нормально подготовленном тексте. Как этого достичь описано тут.

Записано программой Демагог. Англоязычные вставки произносит Acapela Heather.

Сообщение evmir_troll-hunter » 25 июн 2018 00:00

Сообщение MoppoH » 27 июн 2021 18:01

Сообщение Fenix » 27 июн 2021 21:11

Да, конечно староват уже наш дедушка Коля, но люди, использующие его ещё есть. Что-то он у меня на десятке артачится. Устанавливается нормально, а вот говорить не хочет. За семпл большое спасибо.

Сообщение reverieline » 03 июл 2021 17:43

Сообщение flegont » 03 июл 2021 22:13

Сообщение MoppoH » 04 июл 2021 22:48

Русские голоса

Сообщение MoppoH » 04 июл 2021 23:01

Русские голоса

Сообщение MoppoH » 04 июл 2021 23:40

А этот более низкий по звучанию: Киндрэт (4 Новые боги)

READ Как установить музыку на контакт в нокиа х2 дуал сим

Русские голоса

Сообщение tonio_k » 20 июл 2021 19:15

Русские голоса

Сообщение MoppoH » 20 июл 2021 22:28

Русские голоса

Сообщение yarrga » 28 фев 2021 23:32

Русские голоса

Сообщение tonio_k » 01 мар 2021 11:05

думаю только путем установки эмулятора Андроида на ПК

Русские голоса

Сообщение balaamster » 27 мар 2021 20:47

Русские голоса

Сообщение tonio_k » 27 мар 2021 20:54

Русские голоса

Сообщение Bouquiniste » 10 апр 2021 15:28

Отправлено спустя 2 минуты 55 секунд:

Русские голоса

Сообщение Bouquiniste » 13 апр 2021 18:11

Русские голоса

Сообщение tonio_k » 13 апр 2021 19:39

Русские голоса

Сообщение РашидХамидулин » 05 сен 2019 05:32

Русские голоса

Сообщение Ceratosaurus » 11 июн 2021 23:10

Русские голоса

Сообщение tonio_k » 12 июн 2021 11:38

Русские голоса

Сообщение balabolka » 12 июн 2021 11:45

Ceratosaurus У меня читает текст по-русски (браузеры Chrome 83.0.4103.97, Opera 68.0.3618.125).

На самом деле, это голоса Tatyana и Maxim от бывшей фирмы IVONA. Никаких голосов «Никита» и «Василий» не существует.

Русские голоса

Сообщение 0zx2 » 25 сен 2021 14:11

Русские голоса

Сообщение tonio_k » 25 сен 2021 16:00

Русские голоса

Сообщение skreb » 25 сен 2021 19:14

Русские голоса

Сообщение 0zx2 » 25 сен 2021 21:39

Ого, звучит лучше, признаю. Не слышал такого TTS еще. Где его взять?

Тоже только онлайн или платный? Сколько ни гуглил, так и не нашел.

Кстати, вот Филипп от Yandex SpeechKit (из онлайн demo). Почти не отличить от человека (местами есть резкие щелчки, но думаю это глюк какой-то, не относящийся к синтезатору). Офигеть до чего технологии дошли.

Источник

Оценки Качества и Примеры Аудио

Синтезаторы речи с русскими голосами как у робота

Чтобы не вдаваться в дебри, мы поступили максимально просто: синтезировали аудио из валидационной выборки датасетов (~200 файлов на спикера), смешали с оригинальными аудио этой же выборки и дали группе из 24 людей для оценки качества звучания по пятибалльной шкале. Для и оценки собирали раздельно, градация оценок — — с большей детализацией для более качественного звука.

Всего было поставлено оценок. 12 человек сделали оценку полностью. Еще 12 людей успели проставить только от 10% до 75% оценок. Дальше для каждого спикера мы просто посчитали среднее (в скобочках приведено стандартное отклонение). Расчет среднего от медиан по каждому аудио завышает средние оценки на 0.1 — 0.2 балла, но не влияет на отношения. Показательны естественно скорее отношения средних баллов друг к другу. Дисперсия довольно высокая, но оценки пользователей отличались сильно и мы решили не выбрасывать никакие, т.к. оценки одного пользователя были консистентными друг с другом. По ряду соображений мы провели такую оценку только на своих уникальных голосах:

Спикер	Оригинал	Синтез	Отношение	Примеры
aidar_8khz	4.67 (.45)	4.52 (.55)	96.8%	link
baya_8khz	4.52 (.57)	4.25 (.76)	94.0%	link
kseniya_8khz	4.80 (.40)	4.54 (.60)	94.5%	link
aidar_16khz	4.72 (.43)	4.53 (.55)	95.9%	link
baya_16khz	4.59 (.55)	4.18 (.76)	91.1%	link
kseniya_16khz	4.84 (.37)	4.54 (.59)	93.9%	link

Мы просили людей в первую очередь оценивать естественность звучания речи (а не качество звука). Нас удивило, что по расспросам обычные люди на своих ежедневных девайсах не особо слышат разницу между 8 kHz и 16 kHz (что подтверждается оценками)! Самые низкие абсолютные оценки и самое низкое отношение у Байи. Самые высокие абсолютные оценки — у Ксении, а относительные — у Айдара

Тут важно отметить, что у Байи меньше поставлен голос, но поэтому он звучит более по-человечески за счет этого. У Байи также выше дисперсия оценок

Ручной просмотр аудио с большими расхождениями показывает ошибки спикеров, ошибки такотрона, ошибочные паузы (тоже вследствие ошибок такотрона), имена собственные и сложные слова, которые вообще непонятно как читать. Естественно 75% таких расхождений в синтезе (а не оригинале) и частота дискретизации особо не влияет.

Если мы пытались дать численную оценку естественности, то еще хорошо бы оценить «неестественность» или «роботизированность» голоса. По идее ее можно оценивать, давая людям пару аудио на выбор и прося выбрать между ними. Но мы пошли дальше и по сути применили «двойной слепой тест». Мы в случайном порядке дали людям поставить оценки «одному и тому же аудио» 4 раза — оригинал и синтез с разной частотой дискретизации. Для участников исследования, разметивших весь датасет, получается такая таблица:

Сравнение	Хуже	Одинаково	Лучше
16k против 8k, оригинал	957	4811	1512
16k против 8k, синтез	1668	4061	1551
Оригинал против синтеза, 8k	816	3697	2767
Оригинал против синтеза, 16k	674	3462	3144

Тут напрашивается несколько выводов:

В 66% случаев люди не слышат разницы между 8k и 16k;
В синтезе, 8k немного помогает скрыть ошибки;
Примерно в 60% случаев люди считают, что синтез не хуже оригнала по естественности;
Показательно, что два последних вывода не особо зависят от частоты дискретизации (8k имеет небольшое преимущество);

Можете оценить сами, как это звучит, как для наших уникальных голосов, так и для спикеров из внешних источников (больше аудио для каждого спикера можно синтезировать в colab.

Если вы не дружите с колабом или глаза разбегаются от количества файлов в папках с примерами, то вот несколько случайных аудио:

Айдар:

Байя:

Ксения:

Еще раз обращаю внимание, что это не cherry-picked примеры, а реальное звучание синтеза

VLC media player 2.2.1 [2015, Медиаплеер] 32/64-bit

The foundry nuke 5.2 [2009, видеоредактор]

Год выпуска: 2015Жанр: МедиаплеерРазработчик: VideoLANСайт разработчика: http://www.videolan.org/Язык интерфейса: Мультиязычный (русский присутствует)Тип сборки: StandardРазрядность: 32/64-bitОперационная система: Windows XP, Vista, 7, 8, 8.1, 10 Описание: VLC Media Player — универсальный плеер, способный воспроизводить практически любые существующие на сегодняшний день форматы файлов: MPEG-1, MPEG-2, MPEG-4, DivX, XviD, H.264, MP3, OGG и другие, обычные DVD и VCD диски, а также музыкальные. Одной из его особенностей является возможность проигрывания практически любого типа потокового …

Программы / Программы для работы с Мультимедиа / Кодеки и Медиаплееры
Подробнее

Пример использования

Создадим проект использования модуля ISD1820 в качестве оповещателя при входе человека в запретную зону.

Для проекта нам понадобятся:

Плата Arduino Nano – 1 шт;
Модуль ISD1820 – 1 шт;
Динамик – 0,5 Вт, 8 Ом – 1 шт;
Датчик расстояния HC SR-04 – 1 шт;
Провода.

Схема соединений нашего проекта на рис. 4.

Рисунок 4.

Запишем на модуль ISD1820 фразу для оповещения, например: «Внимание. Вы зашли в запретную зону, просьба срочно покинуть»

При обнаружении ультразвуковым датчиком расстояния объекта в радиусе 100 см, подаем сигнал HIGH на контакт 12. При этом будет воспроизводиться данная фраза. Следующий замер расстояния через 10 секунд.

Загружаем на плату Arduino скетч из листинга 1.

Листинг 1.

// константы для выводов #define PIN_TRIG 11 #define PIN_ECHO 10 #define PIN_PE 12 // расстояние обнаружения см #define DIST_DETECT 100 // подключение библиотеки для HC SR04 #include «Ultrasonic.h» // создание объекта Ultrasonic Ultrasonic ultrasonic(PIN_TRIG, PIN_ECHO); // переменная для хранения измеренного расстояния float dist_cm=0; void setup() { // запуск последовательного порта Serial.begin(9600); // назначить P-E как OUTPUT pinMode(PIN_PE, OUTPUT); digitalWrite(PIN_PE, LOW); } void loop() { // получить данные с дальномера dist_cm = ultrasonic.Ranging(CM); Serial.println(dist_cm); // обнаружение объекта в зоне if(dist_cm>0 && dist_cm // включить воспроизведения мелодии digitalWrite(PIN_PE, HIGH); // пауза на время воспроизведения delay(6000); digitalWrite(PIN_PE, LOW); } }

И проверяем работу оповещателя.

Рисунок 5.

Установка движка Nicolai

Если вас не устраивают доступные голоса, которые могут прочитать вашу книгу, тогда давайте разберемся, как добавить в Говорилку мужской голос.

Поскольку чаще всего пользователей интересует мужской голос Николай, его и установим. Для этого из скачанного архива (речь о котором шла в самом начале статьи) запустите файл «Acapela-Elan-TTS-5.1-RUS-Nicolai-RainbowSky.ru.msi».

В первом окне установщика жмите «Next».

Дальше можно изменить предложенную для установки папку, кликнув по кнопке «Change».

Когда все будет готово нажимайте «Install».

Об окончании процесса будет свидетельствовать такое окошко, в котором жмите «Finish».

Дальше берем из архива файлик «Digalo Russian Nicolai.dic», открываем в Проводнике папку по пути: C:Program FilesГоворилкаDic (путь зависит от того, в какую папку вы устанавливали программу), и вставляем туда файлик.

Это мы добавили словарь. Его вы в последующем сможете обучать, добавляя нужные слова и правильное произношение.

Дальше зайдите в программу Govorilka и в поле «Голос» выберите только что установленный движок Николай. Затем откройте блок со словарями и поставьте птичку напротив «Digalo Russian Nicolai».

Вот так просто скачать голос для Говорилки и заставить ее читать мужским голосом. Если это получается немного коряво, тогда добавляйте правильное произношение слов в словарик, напротив которого вы поставили птичку.

Приложения для чтения книг голосом

Чтобы выбрать лучшую программу для озвучивания текста, нужно перебрать разные варианты читалок. Каждая из этих программ получила свою аудиторию – кому-то нравится оформление, а другим универсальность и малое потребление ресурсов ПК. Прежде чем скачивать и ставить приложение на свой компьютер рекомендуют предварительно просмотреть подробную информацию по наиболее популярным.

Acapela

Речевой синтезатор, который может воспроизводить голосом текст из файлов разного формата. Пакет насчитывает больше 30 языков, среди которых присутствует и русский. Программу Acapela можно купить у разработчика – ее распространяют только на коммерческой основе. Для озвучивания книги на русском языке, пользователь может выбрать один из 2 предустановленных вариантов – устаревший мужской голос «Николай» и обновленный женский «Алена». Программу выпускают под управлением таких систем:

Windows;
Mac;
Linux;
Android;
iOS.

Такое широкое распространение позволяет использовать Acapela любому пользователю. Сама программа не занимает много места на устройстве и устанавливается очень быстро. Для предварительной оценки, пользователи могут включить онлайн-версию приложения. Но, количество текста ограничено 300 знаками, поэтому включить книгу не получится, только краткий отрывок для проверки качества озвучки.

Ivona Reader

Программа для озвучивания текстов под управлением Windows, с реалистичным звучанием. Основной голос, который можно поставить на это приложение – «Татьяна». Может зачитывать текстовые файлы в любом формате, в том числе интернет страницы и RSS ленты. Разработчики также включили возможность преобразования текста в аудио-файл MP3 формата, поэтому книгу можно записать и сбросить на смартфон.

ICE Book Reader Professional

Программа, которая знакома пользователям компьютеров Windows уже давно. Она поддерживает большую часть текстовых форматов и проста в управлении. Для использования функции чтения и преобразования текста в аудиозапись, обязательно установить какой-либо голосовой движок. ICE Book Reader – относят к категории приложений с лицензией Freeware – ее можно получить бесплатно и пользоваться всеми функциями.

ToM Reader

https://youtube.com/watch?v=DUXBPLwXT2Q

Эта программа для компьютеров под управлением операционных систем Windows – аналог ICE Book Reader. Работает сходным образом – открывает книги в разных текстовых форматах и может озвучивать только после установки одного из голосовых движков. Для улучшения качеств воспроизведения есть возможность добавлять словари, по которым ориентируется синтезатор.

Программы, которые способны озвучивать текст голосом, становятся распространенней – при активном ритме жизни, не у каждого человека найдется время на чтение обычного буквенного формата. Но, в таких ситуациях можно не только скачивать заготовленные аудиокниги – установив читающую программу и голосовой движок, такой файл можно подготовить самостоятельно или озвучить интересующую информацию в потоковом режиме. Современное ПО синтеза речи, по звучанию приближено к реальному голосу.

Установка утилиты

Для начала давайте установим Говорилку. Для этого кликните два раза по файлу с названием «Govorilka222.exe». Откроется окно Мастера установки, в котором нажмите «Далее».

Затем примите условия лицензионного соглашения, поставив маркер в соответствующем поле, и жмите «Далее».

Прочитайте приведенную в окне информацию и продолжайте.

В поле будет предложена папка, куда установится программа, если захотите ее изменить, нажмите «Обзор».

Дальше предложат установить компонент «Microsoft SpeechAPI 4». Если вы уверенны, что на компьютере он у вас установлен, тогда галочку можете снять. Если не уверенны, то галочку оставьте и продолжайте.

Можете добавить ярлык на рабочий стол и на панель быстрого запуска.

Когда все параметры будут выбраны, жмите «Установить».

После завершения процесса установки можно снять или оставить галочку в поле для запуска программы и нажимайте «Завершить».

Николай Nicolai — Acapela ELAN Tempo Multimedia.

Nikolai немного устарел, но по тембру кому-то он больше понравится.

Сам движок называется Acapela ELAN Tempo Multimedia V5.1.0.0 Russian (255 channels) 11,2МБ. Пример звучания — 2,09МБ. Старая версия Elan TTS Speech Cube v4.2.0.0 Evaluation .

Программы для чтения книг: MP3book2005 для редактирования словаря, записи в MP3 и чтения. ToM Reader Russian , Балаболка для чтения и записи в MP3.

Теперь о всём по порядку. ELAN Tempo Multimedia голосовой движок, продолжающий своё развитие от Digalo . Качество хорошее, голос мужской — Nicolai. И конечно главная составляющая – редактируемый словарь, благодаря которому произношение можно сделать почти идеальным, на сегодняшний день. Видим всеми программами, в том числе ПРОМТ.

MP3book2005 программа для редактирования словаря, чтения, и записи в mp3. Редактирует словарь прекрасно, но хотелось бы, что бы вид был книжный. Поддерживаемые форматы: txt, rtf, htm, fb2.

ToM Reader Russian программа для чтения. Главное достоинство в том, что не вмешивается в произношение голосового движка, и читает по предложениям, а не по абзацам как во многих программах, поэтому легко отслеживать чтение. Выглядит как книга в переплёте, что тоже удобно. Поддерживаемые форматы: txt, doc, rtf, htm. Если возникают вопросы, заходите на ФОРУМ, обязательно отвечу.

Итак, установка. Для работы требуются дополнительные библиотеки (устанавливать в этом порядке!): 1. MSagent.exe и ms_speech_api.exe (архив-1,09 МБ) Скачать (Зеркало)- MSagent.exe (400 KB) — агент для работы с движками распознавания и синтеза речи, ms_speech_api.exe (830 KB) — библиотеки необходимые для работы программ распознавания и синтеза речи. (для Win 7 не нужны) 2. Acapela ELAN Tempo Multimedia V5.1.0.0 Nicolai (10,7 МБ) Скачать (Зеркало) — движок синтеза русской речи для агента. 3. ToM Reader 2.73 Скачать (Зеркало) или MP3book2005 (7 MB) Скачать (Зеркало) — программы для чтения, какая понравится. 4. Скачиваем словарь ударений для ELAN Tempo Multimedia Nikolai . Копируем основной словарь exc_rus.txt, и abb_rus.txt — для аббревиатур, в паку C:Program FilesElan , а exc_rus.txt ещё и в Program FilesMP3book2005DIC , с заменой. MP3book2005 редактирует только exc_rus.txt , abb_rus.txt нужно править в Блокноте или Word. Это фирменные словари, ими пользуется ELAN Tempo Multimedia . Есть ещё словарь, который встраивается в читающую программу ToM Reader (Digalo Russian Nicolai.dic). Ни в коем случае не пользуйтесь такими словарями, они только ухудшают произношение. В ToM Reader настройки движка примерно такие:

Краткий Обзор Решений

Данная статья не ставит своей целью глубокий технический обзор всех доступных решений. Мы хотим просто обрисовать некий ландшафт из доступных вариантов с минимальной степенью готовности. Понятно, что мы не рассматриваем многочисленные тулкиты, а смотрим в первую очередь какие есть более-менее готовые решения с ненулевой библиотекой голосов и подобием поддержки / комьюнити:

Конкатенативные модели (появившиеся до DL бума). Из того, что хоть как-то поддерживается и живо и можно запустить «as-is» без археологических раскопок, я нашел только rhvoice (я глубоко не копал, но есть целые форумы, посвященные использованию голосов из Windows, но вряд ли это можно назвать поддерживаемым решением). На момент, когда я пользовался проектом ради интереса, он по сути был заброшен, но потом у него появился новый «хозяин». К плюсам такого рода решений можно отнести их скорость и нетребовательность к ресурсам (исключая ресурсы, чтобы заставить это работать). Очевидный и основной минус — звучит как говорилка. Менее очевидный минус — довольно тяжело оценить стоимость обладания. Качество звучания: 3+ по пятибалльной шкале;

DL-based модели в основном разделяют end-to-end TTS задачу на подзадачи: текст -> фичи и фичи -> речь (вокодинг). Практически повсеместно для первой подзадачи используется Tacotron2. Выделим следующие сочетания моделей в соответствии с их эффективностью и простотой использования:

Tacotron2 + WaveNet (оригинальный WaveNet принимал на вход лингвофичи, но для такотрона поменяли на более удобные мелспектрограммы). Основная проблема — очень медленный инференс ввиду авторегрессионности модели и необходимость запретительно большого количества ресурсов и времени. Качество звучания: 4+;

Tacotron2 + WaveRNN (тоже с переходом от лингвофичей к спектрограммам). Вокодер заметно быстрее предыдущего: при использовании всех хаков можно получить даже риалтайм синтез без GPU, правда естественность звука несколько просядет. Качество звучания: 3.5-4;

Tacotron2 + Parallel WaveNet. Упомянутый выше медленный вокодер был использован в качестве учителя для получения новой довольно быстрой параллельной модели вокодера: с ней стал возможен синтез быстрее риалтайма, но все еще на мощных GPU. Из недостатков — дистилляция требует качественную учительскую модель и соответствующую схему обучения. Качество звучания: 4+;

Tacotron2 + multi-band WaveRNN. Тоже развитие предыдущих идей, тоже распараллеливание в некотором смысле — здесь доступен синтез быстрее риалтайма уже на CPU. Однако, не слишком популярная работа, меньше имплементаций и поддержки, хотя некоторые подходы хороши и были успешно использованы в более поздних моделях; Качество звучания: 3.5-4+;

Tacotron2 + LPCNet. Интересная идея про сочетание DL и классических алгоритмов, что может дать буст по скорости до подходящего для продакшена уровня и на CPU, но требует вдумчивого допиливания для качественных результатов. Качество звучания: 3.5-4+;

Многочисленные решения на базе Tacotron2 + Waveglow от Nvidia как нынешний стандарт для задачи синтеза речи. Никто не пишет про свой «секретный соус» (например как 15.ai делает голос по 15 минутам и сколько там моделей в цепочке). Есть много имплементаций и репозиториев, которые «копируют» чужой код. Может звучать на cherry-picked примерах неотличимо от живых людей, но когда смотришь реальные модели от комьюнити, качество заметно варьируется, а детали улучшенных решений не раскрываются. Архитектурно к такотрону и его аналогам по скорости и цене обладания претензий нет, но Waveglow очень прожорлив к ресурсам как на тренировке, так и в продакшене, что делает его использование по сути нецелесообразным. Качество звучания: 3.5-4+;

Замена Tacotron2 => FastSpeech / FastSpeech 2 / FastPitch, то есть уход к более простой сетке (на базе forced-align от такотрона и миллион более хитрых и сложных вариантов). Из полезного дает контроль темпа речи и высоты голоса, что неплохо, вообще упрощает и делает более модульной конечную архитектуру

Немаловажно, что сетка перестает быть рекуррентной, что открывает просторы для оптимизаций по скорости. Качество звучания: 3.5-4+;