Синтез речи и чтения электронных книг голосом

  1. Методы синтеза речи
  2. голосовые движки
  3. Программа для чтения книг
  4. MP3book2005
  5. Подготовка к установке
  6. Установка и запуск
  7. недостатки:
  8. Программа синтеза русской речи Говорилка 2.0.6 и голосовые движки Digalo и SpeechCube
  9. Текст на язык
  10. Speech API
  11. голосовые движки
  12. Программы экранного доступа
  13. История

This page has been robot translated, sorry for typos if any. Original content here .

Автоматический синтез речи - процесс генерации речевого сигнала - технология, которая дает возможность прочитать текст (документ, письмо, смс) голосом, приближенном к естественному. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.

Технология синтеза может быть востребована как в узкой предметной области, так и в широкой, или неограниченной. Для узкой области качество звучания может быть сведено к максимально естественной, за счет компиляции заранее записанных длительных речевых фрагментов, относящихся к данной области. Примером такого синтеза (называемого макросинтезом) могут служить системы оповещения о движении поездов, применяются на вокзалах крупных городов в России. Гораздо сложнее сделать синтезатор речи для неограниченного текста любой предметной области. В таком случае пользователь может задать системе синтеза на произношение любую фразу или предложение.

Методы синтеза речи

Сегодня существует три основных направления синтеза: дифонний подход (дифон - это звук от середины одной фонемы к середине соседней фонемы), аллофон подход (реализация фонемы в окружении контекста слева и справа) и технология Unit Selection (выбор звуковых элементов с языковой базы). Но каждый из них в отдельности имеет свои недостатки:

  • Дифонний подход - позволяет делать разборчивый, но неестественный по тембру речевой сигнал. В тембре синтезированной речи не узнается тембр диктора-донора.
  • Аллофон подход - естественность голоса чуть выше, чем в дифонном подходе за счет большего набора звуковых элементов. Однако, как и в дифонном синтезе голос получается довольно роботизированным, и в нем трудно узнать голос диктора-донора.
  • Unit Selection - естественность тембра речи высокая и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся с заметными искажениями до полного выпадения отдельных звуков.

Сайт разработчика: www.elantts.com .

голосовые движки

На данный момент, для синтеза речи лучше всего подходит голосовые движки:

  • Acapela ALYONA Multimedia (Acapela Multimedia Alyona)
  • Acapela ELAN NIKOLAI Tempo Multimedia (Acapela ELAN Tempo Multimedia) V5.1.0.0 Russian (255 channels)

Доп. информация: Text-to-speech (TTS) engine или движки синтеза речи - программы похожи на драйвера, предназначенные для преобразования и синтеза текста в звуковую волну. Двигатели синтеза речи не имеют встроенного управления и для того, чтобы Ваш компьютер заговорил, мало одного TTS. Для использования TTS необходима программа синтеза (TextAloud, Cool Reader, Balabolka и т.д), которая заменяет интерфейс, позволяя работать с TTS, изменять его настройки, звучание и тембр речи, и управлять другими возможностями.

Компания Acapela разработчики популярного русскоязычного голосового модуля Николай, выпустили новый русский, женский голосовой движок, который получил название Елена, работает на SAPI-5 с частотой 22 КГц, по качеству синтезируется Елена намного опережает Николая, тембр голоса и интонация по мнению пользователей приятней чем в движка Екатерина от ScanSoft RealSpeak.

Вместе с движком поставляется Lexicon Manager - редактор словарей, который позволяет изменять произношение слов как буквенно, так и фонетически.

Например с помощью KooBAudio, mp3book2005 и этого голосового движка - 4 часовой роман можно озвучить и перевести в mp3 за 10 минут

Acapela Alyona - хорошо работает с такими программами как: KooBAudio 0.7.0.7, mp3book2005, Балаболка, Cool Reader ...

Хороший голосовой движок! В целом действительно читает четко всех других русскоязычных, включая Николая, однако у последнего более приятный голос в следствии низкого тембра голоса и он меньше делает ошибки в ударения.

Программа для чтения книг

ToM Reader 2.73

Скачать ToM Reader 2 Скачать ToM Reader 2.73 (1 Mb) Virus Free by KAV

Бесплатная, привычный вид книги, наглядные закладки, возможность записи в mp3.

ToM Reader Russian программа для чтения. Главное достоинство в том, что не вмешивается в произношение голосового движка, и читает по предложениям, а не по абзацам как во многих программах, поэтому легко отслеживать чтения. Выглядит как книга в переплете, что тоже удобно. Поддерживаемые форматы: txt, doc, rtf, htm.

MP3book2005

Скачать MP3book2005 (7 Mb)   Virus Free by KAV Скачать MP3book2005 (7 Mb) Virus Free by KAV

Со всеми необходимыми функциями для редактирования словаря, записи в MP3 и чтения.

MP3book2005 программа для редактирования словаря, чтения и записи в mp3. Редактирует словарь прекрасно, но хотелось бы, что бы вид был книжный. Поддерживаемые форматы: txt, rtf, htm, fb2.

Подготовка к установке

1. Скачиваем движок синтеза речи:

2. Скачиваем Infovox Desktop 2.220 Engine SP3 ( Acapela_Infovox_Desktop_2.220_EngineSP3.rar ) (24.08 Mb) - программа управления и активации, с родной, простой читалкой, и самое главное с программой редактирования Алёниного словаря произношения - Lexicon Manager.

3. Скачиваем US English 2.220 ( English_ID2220.rar ) (233.13 Mb) - движок синтеза английского языка.

4. Скачиваем читалки, программу для чтения книг ( ссылку выше ).

5. Скачиваем AlyonaSlovari-Alyona22k ( AlyonaSlovari.rar ) (1.2 Mb) - словари к Елене на 24345 слов.

7. Скачиваем MSagent.exe и ms_speech_api.exe ( sintez_bib.rar ) (Архив-1,09 МБ) - MSagent.exe (400 KB) - агент для работы с двигателями распознавания и синтеза речи, ms_speech_api.exe (830 KB) - библиотеки необходимые для работы программ распознавания и синтеза речи (для Windows 7 нужны).

Поддерживает OS: Windows XP, Windows Vista, Windows 7, 8.

Все номера указанные ниже на странице!

Установка и запуск

  • 1) Установите главный управляющий элемент Infovox Desktop 2.220 Engine
  • 2) Этаж установите голосовой движок Alyona Russian 2.220
  • 3) Запусти License Manager и скопируй кнопкой "Copy to Clipboard" License Code
  • 4) Запусти key.exe, встал туда код и нажми "Make Key", чтобы сгенерировать лицензионный файл.
  • 5) импортирует полученный файл в License Manager нажав "Import License File"
  • 6) Добавляем словари с помощью Lexicon Manager (Lexicon-Voice Associations - Add Lexicon ... или File - Import Lexicon)

Для работы требуются дополнительные библиотеки (устанавливать в этом порядке!):

  • 1. MSagent.exe и ms_speech_api.exe - библиотеки необходимые для работы программ распознавания и синтеза речи. (Для Win 7 не нужны)
  • 2. Acapela ELAN Tempo Multimedia V5.1.0.0 Nicolai - движок синтеза русской речи для агента.
  • 3. ToM Reader 2.73 или MP3book2005 - программы для чтения, которая понравится.
  • 4. Скачиваем словарь ударений для ELAN Tempo Multimedia Nikolai.

Копируем основной словарь exc_rus.txt, и abb_rus.txt - для аббревиатур, в паке C: \ Program Files \ Elan, а exc_rus.txt еще и в Program Files \ MP3book2005 \ DIC, с заменой.

MP3book2005 редактирует только exc_rus.txt, abb_rus.txt нужно править в Блокноте или Word. Это фирменные словари, ими пользуется ELAN Tempo Multimedia.

Есть еще словарь, который встраивается в читает программу ToM Reader (Digalo Russian Nicolai.dic). Ни в коем случае не пользуйтесь такими словарями, они только ухудшают произношение.

В ToM Reader настройки движка примерно такие:

Чтобы изменить словарь в MP3book2005 нажимаем кнопку Словарь, и если нужно, загружаем словарь exc_rus.txt. Чтобы добавить в словарь новое слово нажимаем кнопку в верху Произношение, пишем слово в нижней строке, если оно выделено в тексте, то оно там уже будет, нажимаем кнопку Проверить, ставим курсор на правильное место ударения, нажимаем (<), и если произношение подходит нажимаем Добавить. Затем кнопку в верху Сохранить, чтобы перезаписать словарь. Сокращения, вроде звезд, в фирменных словарях не используются, каждое слово записывается отдельно. Это не удобно, но зато произношение качественнее.

Можно держать ToM Reader и MP3book2005 одновременно открытыми. Читаете в ToM Reader, редактируете в MP3book2005, при этом после изменения словаря ToM Reader надо перезагрузить. Можно использовать только MP3book2005. При этом надо учитывать, что ToM Reader является бесплатным, а не зарегистрирован MP3book2005 имеет незначительные ограничения.

недостатки:

Acapela ELAN Tempo Multimedia иногда читает слова написаны БОЛЬШИМИ буквами, по буквам.

Digalo Николай - старый вариант.

Можно взять Digalo TTS 2000 (DigaloCoreRus.exe-7,44 МБ, SAPI 4) и ToM Reader Russian. Digalo TTS 2000 это голосовой движок, который поддерживает несколько языков, в том числе русский. Он платный, но можно найти crack. ToM Reader Russian это программа, которая использует Digalo TTS 2000 на чтение книг.

Digalo TTS 2000 имеет русский голос Nicolai, он лучше голосов от других фирм, но не идеален, поэтому для него нужен словарь. Есть два варианта: использовать словарь встраивается в ToM Reader, и использовать словарь в самом Digalo. Первый проще, так как использует звездочки (*) заменяют часть слова, но менее качественный, второй сложнее, но и качественно.

В первом случае берем словарь Digalo Russian Nicolai.dic и копируем в папку dict в ToM Reader, которая появляется при открытии ToM Reader и в настройках ставите: использовать словарь. Во втором случае процесс немного дольше. Но преимущество его в том, что вы получите более качественное произношение, и другие программы, такие как ПРОМТ, не имеющие возможности подключения словаря, иметь правильное произношение, потому что Digalo будет использовать свой словарь.

Итак, берем DigaloEditor 1.0 и распаковываем в c: \ Program Files \ Digalo \ Digalo 2000 Russian \ russian \ data. Там появляются: DigaloEditor.exe - программа для редактирования словаря, abb_rus.txt и exc_rus.txt - словари. abb_rus.txt для аббревиатур, exc_rus.txt для других слов. DigaloEditor.exe редактирует только exc_rus.txt, abb_rus.txt нужно править в Блокноте или Word.

Теперь об особенностях изменения в DigaloEditor.

Если вы хотите добавить слово или найти, нажимаете кнопку Добавить, и начинаете вводить, при этом автоматически происходит поиск, и если такая комбинация она светится красным. И самое главное. При наборе слова оно уже записывается в словарь, и если выйти из него сохранив результат, оно будет в словаре. В независимости является слово в словаре или нет. Поэтому если вы написали правильное слово, нажимаете кнопку сохранить. Если не правильно или такое слово уже есть, то введенный строку удаляете кнопкой Удалить. И так сохраняете-удаляете после каждого набора. Ударение ставится знаком «<» без кавычек, пробелов должно быть равное количество с одной и с другой стороны. Например: «рыба форель рыба форе <ль». Строка «рыба форель рыба волка <ль» вызовет ошибку в Digalo. Слова с переменным ударением в зависимости от смысла, нужно писать в словосочетании. Подвесной замок = подвесной замо <к.

Результат слышать после перезагрузки читающей программы.


Программа синтеза русской речи Говорилка 2.0.6 и голосовые движки Digalo и SpeechCube

  • Год выпуска: 2006
  • Версия: 2.0.6.0
  • Разработчик: Рязанов Антон
  • Платформа: Windows 9x / nt / 2000 / xp
  • Системные требования: минимум P200 + звуковая карта
  • Язык интерфейса: английский + русский
  • : Не требуется

Govorilka - это небольшая программа для чтения текстов голосом. Она может прочитать вслух любой текст, который Вы ей дадите на любом языке, любым установленным голосом. Запишет текст в MP3 файл.

Основные возможности программы Govorilka.

  • Чтение текста голосом.
  • Запись читаемого текста в звуковой файл (* .WAV, * .MP3) с повышенной скоростью * и с разбивкой на части заданного размера.
  • Регулировка скорости чтения и высоты голоса.
  • Автоматически прокручивает текст на экране, чтобы всегда был виден читаемый фрагмент (слежение за речью). При этом читаемый текст может подсвечиваться цветом.
  • Пополнение словарей произношения, которые позволяет легко корректировать произношение отдельных слов и словосочетаний.
  • Открывает большие файлы в DOS и Windows кодировке.
  • Открывает тексты из файлов Microsoft® Word и HTML.
  • Размер читаемого текста до 2 гигабайт.
  • Запоминается текст и позиция курсора при выходе из программы.

Обратите внимание на то, что текущая версия программы является тестовой (бета) - могут быть незначительные ошибки.

Чем полезна Govorilka: Govorilka бережет Ваше зрение. С ней тексты электронных книг можно слушать, а не читать с экрана монитора. Можно узнать как звучат слова и фразы на иностранном языке. Можно быстро записать книги в MP3 файлы и слушать их на MP3 плеере. С помощью Говорилка Вы можете оценить возможности компьютерного синтеза речи и научить свой компьютер говорить.

Описание: Говорилка нужна тому, кто больше любит слушать тексты, чем читать их с экрана монитора или бережет свое зрение и хочет читать тексты электронных книг сидя подальше от монитора, кто хочет узнать как звучат слова и фразы на иностранном языке. Говорилка нужна всем, кто хочет научить свой компьютер говорить и кому просто интересно узнать, как это все работает.

Дополнительные возможности: изменение скорости чтения и высоты голоса; открытие больших файлов в DOS и Windows кодировке, а также чтение текста из файлов MS Word; запиcь языка в звуковой файл (wav или mp3); автоматическая прокрутка текста на экране, чтобы всегда был виден читаемый фрагмент; чтение текста, находящегося в буфере обмена, возможность изменять произношение (словарь).

Доп. информация: Интерфейс в Govorilka - многоязычный, в Windows 2000 / XP программа заработает сразу, а вот пользователям Windows 95/98 / NT, возможно, придется загрузить некоторые недостающие файлы - text-to-speech engine и SAPI (подробности - на домашней странице) .

Текст на язык

Читалка - программа предназначенные для удобного чтения текстов и электронных книг с экрана компьютера. Кроме этого многие читалки умеют озвучивать тексты, используя для этого специальные программы речевого синтеза.

Хорошая читалка обладает множеством функций делают чтение с экрана менее утомительным. Раскладка в виде книги, плавный скроллинг текста, сглаживание текста - только некоторые из инструментов применяются в читалках.

  • ** ICE Book Reader ** - мощная, бесплатная программа для чтения текстов голосом (читалка).
  • ** Cool Reader ** - программа для комфортного чтения книг с экрана, форматирования и конвертирования.
  • ** UkrVox ** - Украинский голос для Speech API и простая программа для преобразования текстов в голос.
  • ** Rozmovlyalka ** - бесплатный синтезатор для голосового озвучивания украиноязычных текстов.
  • ** TOM Reader Russian ** - программа для комфортного чтения электронных текстов и книг на компьютере.
  • ** Balabolka ** - бесплатная программа для чтения текстовых файлов человеческим голосом.
  • ** Govorilka ** - небольшая бесплатная программа для чтения текстов с помощью двигателей голосового синтеза.

Для того, чтобы программы, входящие в категорию «Читалки» могли озвучивать тексты «человеческим голосом» в системе должна быть установлена библиотека SAPI (Speech Application Programming Interface, или Speech API) и голосовые движки.

Speech API

На сегодня распространены две версии Speech API: SAPI4 и SAPI5. Обе эти библиотеки несовместимы, но друг другу не мешают и могут работать на одном компьютере, поэтому для программ поддерживающих обе библиотеки рекомендуется их обе и установить (это позволит иметь большее количество голосовых движков).

В операционных системах Windows XP, Vista и 7 обычно уже есть установленные библиотеки SAPI5, поэтому нужно (но не обязательно) только установить SAPI4. Однако, возможны и такие случаи, когда возникает потребность в установлении SAPI5. Скачать и ознакомиться с особенностями установки каждой из этих библиотек можно на их страницах: скачать SAPI .

голосовые движки

Также, для синтеза речи, на компьютере необходимо иметь установленные голосовые движки для желаемого языка. Выше уже было отмечено, что библиотеки SAPI4 и SAPI5 несовместимы, поэтому каждый из голосовых движков может работать только с одной из этих библиотек. Если на вашем компьютере установлена ​​обе библиотеки Speech API, то можно установить все голосовые движки: Скачать голосовые движки для SAPI .

Программы экранного доступа

Программа экранного доступа VIRGO 4 - это итог многолетней работы фирмы BAUM по развитию программы VIRGO, главная цель которой заключается в обеспечении комфортной работы слепых и слабовидящих пользователей с Windows. VIRGO 4 позволяет пользователю выбирать, какую информацию показывать на брайлевский дисплей, а какую произносить голосом. Слабовидящие пользователи могут воспользоваться интегрированной в VIRGO 4 системой увеличения экрана ГАЛИЛЕО. Комплексный подход VIRGO 4, использующий Брайля и язык, гибко сочетает силу обоих методов вывода информации для удобства пользователя.

MyStick является первым мобильным экранным доступом, который работает без инсталляции на всех современных компьютерах с Windows. Вставлен в свободный USB-порт компьютера, MyStick запускается автоматически и пользователь сразу может работать с компьютером.После удаления MyStick на компьютере не остается никаких файлов и не меняется никакая конфигурация. MyStick - это флешка формата U3. С помощью MyStick слепые и слабовидящие пользователи ПК не привязаны к определенному, специально оборудованном компьютера и могут получить доступ к любому компьютеру, работающему с Windows. Существуют два варианта MyStick: с языковым выводом и увеличением экрана и только с языковым выводом. Поставляются версии MyStick для русского, английского, немецкого, французского, шведского, норвежского и датского языков.

Программа экранного доступа Кобра 9.1 упрощает работу с Windows 7, Vista или Windows XP для слепых и слабовидящих пользователей компьютера. КОБРА объединяет все стандартные функции современной программы экранного доступа, ориентированной на пользователя. КОБРА фиксирует требования пользователя и выводит важную информацию с компьютерного монитора с помощью языка, Брайля или увеличения экрана.

История

В синтеза речи долгая история, обросла легендами. Еще в Х веке Герберту Аврилакского приписывалы владение искусством изготовления терафима - говорит мертвой головы. Сделана из бронзы, эта глава словами "да" и "нет Есть» отвечала на вопросы любого к ней обращался. В середине XIII века монах-доминиканец Альберт фон Больштедт и английский философ и естествоиспытатель Роджер Бэкон также пытались создавать первые образцы «говорящих голов».

В конце XVIII века датский ученый Христиан Кратценштейн, действительный член Российской Академии Наук, создал модель речевого тракта человека, способного произносить пять долгих гласных звуков (а, е, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, которые выдавали громкие звуки с помощью вибрирующих язычков, возбуждаемых воздушным потоком. В 1778 австрийский ученый Вольфганг фон Кампельо дополнил модель Кратценштейна моделями языка и губ и представил акустически-механическую говорит машину, способную воспроизводить определенные звуки и их комбинации. Шипящие и свистящие пускали с помощью специального меха с ручным управлением. В 1837 ученый Чарльз Уитстоун (Charles Wheatstone) представил улучшенный вариант машины, способен воспроизводить гласные и большинство согласных звуков. А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорит орган Euphonia, в котором была реализована попытка синтезирования не только языка, но и пения.

В конце XIX века знаменитый ученый Александр Белл создал собственную «говорит» механическую модель, очень похожую по конструкции с машиной Уитстоуна. С наступлением XX века началась эра электрических машин, и ученые получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности необходимой в телефонии, чтобы увеличить ее передающую способность, разрабатывает VOCODER (сокращенно от англ. Voice - голос, англ. Coder - кодировщик ) - управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требователен к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года.

Первые синтезаторы речи звучали довольно неестественно, и часто едва можно было разобрать производимые ими фразы. Однако качество синтезированной речи постоянно улучшалось, и язык, генерируемый современными системами синтеза речи, порой не отличить от реальной человеческой речи. Но несмотря на успехи электронных синтезаторов речи, исследования в области создания механических синтезаторов речи по-прежнему ведутся, например, для использования в работах-гуманоида.

Первые системы синтеза речи на базе вычислительной техники стали появляться в конце 1950-х годов, а первый синтезатор «текст-в-речь» был создан в 1968 году.