Синтез Речи (Text-to-Speech)

На рынке существует достаточно много механизмов для синтеза речи. Среди наиболее известных отечественных компаний, которые работают в этой области и поддерживают русский язык можно выделить Центр Речевых Технологий. Среди зарубежных компаний, поддерживающий русский язык заслуживает внимание движок от Nuance. Большинство решений этих компаний поддерживают интерфейс SAPI или MRCP, что позволяет независимо использовать эти решения в Smartphone IVR-Generator.

Novavox провел ряд опытов с различными продуктами для преобразования текста в речь.

Основными приоритетами при выборе системы TTS были три фактора:

  • надежность
  • качество речи
  • поддержка SAPI, MRCP

Самый удачный на наш взгляд продукт представила компания Центр Речевых Технологий. Для ознакомления с качеством, пожалуйста, прослушайте пример произношения VitalVoice — Мария.wav. На специализированном сайте ЦРТ предлагается использовать интерактивный тест любого текста.

ПО VitalVoice специально создано для синтезирования речи в телефонии. IVR-Generator обрабатывает любой текст на входе из любого источника (база данных, электронная почта, текстовые файлы, SMS) и преобразует в речевой поток. Идеально подходит для динамического озвучивания любой информации, например: расписание рейсов, прогноз погоды, состояние банковского счета, изменение рыночной стоимости акций, адреса, телефоны и т.д. VitalVoice отличает высокое качество, надежность и наиболее понятная по сравнению со всеми остальными русская речь. При озвучивании выражает эмоциональность, а также обладает узнаваемостью голоса. Этот продукт позволяет читать даже стихи!

Дополнительные возможности VitalVoice:

  • поддерживает MRCP интерфейс;
  • поддерживает 5 различных голосов;
  • позволяет создавать собственный уникальный голос;
  • можно объединять заранее записанную аудио-информацию с текстовыми блоками;
  • фильтрует текстовые блоки на входе для построения фонетически- правильного речевого потока;
  • динамически распределяется по телефонным каналам (при меньшем количестве каналов TTS будет работать на всех каналах Smartphone);
  • встроенный словарь аббревиатур и отраслевых терминов.

Распознавание речи (Automatic Speech Recognition)

Технология распознавания речи позволяет строить максимально дружественные телефонные IVR приложения. Во время диалога с роботом абонент осуществляет выбор в меню не только тональным набором но и а произнося голосовые команды. Естественный для человека стиль общения помогает максимально быстро предоставить доступ к желаемой информации или выполнить необходимую операцию.

Благодаря распознаванию речи появилась возможность создавать такие системы, которые было практически невозможно реализовать, имея в качестве интерфейса только тональный набор. Например, система автоматического бронирования авиабилетов по телефону подразумевает выбор из большого числа городов, и тональное меню здесь практически нереализуемо.

 

При использовании же распознавания речи, диалог системы с пользователем может выглядеть примерно так:

Система: Назовите город вылета
Абонент: Москва
Система: Назовите город прилета
Абонент: Хабаровск
Система: Назовите дату
Абонент: 15 июля

т.е. максимально естественно и приближенно к обслуживанию оператором.

Один из ведущих производителей систем распознавания речи в телефонии, компания Speech-Drive разработала продукт LOGOS, специально предназначенный для распознавания произвольного набора слов и фраз с заранее определенным набором возможных контекстов в телекоммуникационных приложениях:

  • Навигация по информационно-развлекательным IVR-меню (информация о счете, заказ билетов, гороскопы, результаты матчей и т.п)
  • Голосовое управление VAS-услугами (голосовая почта, навигация по контенту) В настояший момент компания Speech-Drive концентрирует усилия на подготовке лучшей технологии распознавания русской речи для использования в многопользовательских приложениях в телекоммуникационном и корпоративном сегментах рынка.

Основные характеристики:

  • Дикторонезависимость
  • Шумоустойчивость
  • Уровень уверенности (Confidence level)
  • Неограниченный словарь
  • Интеллектуальные алгоритмы выделения речи из звукового потока (Voice Activity Detection)
  • Лингвистические алгоритмы, учитывающие особенности русского языка: фонетика, морфология, правила произношения, вариативность
  • Кэширование грамматик
  • Распознавание DTMF

Основные технические характеристики LOGOS:

  • Поддерживаемые платформы: Windows 2000, Windows XP
  • API: MRCP
  • Формат звукового сигнала: 8 kHz
  • Формат описания грамматик: SRGS 1.0, SISR

Распознавание речи используется в Smartphone в готовом «коробочном» решении — Smartphone Speech Attendant. Для решений класса Speech Attendant (Автосекретарь) компания Speech-Drive разработала специальный продукт — Smart LOGOS.

Поддержка SMS

В Smartphone IVR-Generator включена обработка SMS-сообщений, образуя тем самым мощную мультимедиа платформу для создания различного рода приложений. В качестве шлюза используется либо рекомендованный GSM-модем либо подключение через SMPP-протокол.

Функциональные возможности SMS-центра

  • Прием, передача и хранение коротких сообщений,
  • Отправка коротких сообщений в автоматическом режиме,
  • Рассылка сообщений по спискам адресов,
  • Подключение контент-провайдеров и внешних приложений по протоколу SMPP,
  • Интеграция с приложениями линейки Smartphone с целью рассылки сообщений абонентам («Голосовая почта», «Система доставки сообщений» и т.п.),
  • Оповещение абонента о результате доставки сообщения,
  • Протоколирование процессов работы с сообщениями,
  • Предоставление подробной отчётной информации.

Телебанкинг

Ключевая функциональность

Система Телебанкинга позволяет полностью в автоматическом режиме, без участия операторов предоставить клиентам банка следующие типовые виды услуг:

Информационно – справочные услуги

  • Информация об услугах банка, текущих акциях и пр.
  • Адреса филиалов, обменных пунктов и банкоматов
  • Курсы валют голосом, на факс, e-mail или в виде sms

Пассивные операции

  • Выписка по счету в Системе Телебанк за указанный период
  • Остаток на счету в Системе Телебанк
  • Список операций клиента за указанный период на факс, e-mail или в виде sms

Активные операции

  • Изменение состояния счета
  • Коммунальные платежи
  • Оплата операторов связи, Интернет и пр. платежи
  • Срочные вклады (открытие депозитов без посещения банка)
  • Платежи в другие банки и пр.

Операции с пластиковыми карточками

  • Выписка по счету за указанный период на факс, e-mail или в виде sms
  • Остаток на счету пластиковой карточки
  • Пополнение карточки
  • Перевод денег с карточки на счет в системе Телебанк
  • Блокировка карточки и пр.

E-mail / Fax-banking / SMS-banking

  • Получение информации на e-mail, факс или на мобильный телефон в виде SMS о передвижении (поступление на счет, снятие со счета) денежных средств клиента в системе Телебанк
  • Получение справочной информации на e-mail, факс или на мобильный телефон в виде SMS Список всех операций, которые может выполнять клиент, могут устанавливаться либо индивидуально для каждого клиента (при заключении с ним соответствующего договора) либо они могут быть одинаковы для всех клиентов и доступны без предварительной активации. Безопасность использования системы обеспечивается многоуровневой системой паролей, которые вводит пользователь при осуществлении операций со счетами. Информационно – справочные услуги, как правило, доступны всем абонентам.

Дополнительные возможности

  • Служба автоматической голосовой или факсимильной рассылки клиентам банка. Одновременно по нескольким телефонным линиям компьютер звонит по списку клиентов, проигрывает сообщение, рассылает факсы, фиксирует подтверждение (или его отсутствие) от клиента, ведет статистику. Таким же образом можно организовать e-mail и sms рассылку. Таким образом, можно реализовать, например, систему оповещения клиентов – должников и пр.
  • Диспетчеризация звонков по сотрудникам (автосекретарь). Система позволяет освободить операторов (секретарей, диспетчеров), занятых механическим приемом и перенаправлением звонков.
  • Факс-сервер. Автоматический прием и распределение факсов на рабочие места сотрудников, возможность отправления факсов прямо с рабочего места через офисные приложения.

Архитектура системы

Предлагаемая реализация системы телебанкинга представляет собой программно — аппаратный или программный комплекс Smartphone, построенный на платах компьютерной телефонии Dialogic.
ПО Smartphone является открытой высокоуровневой платформой для разработки телефонных приложений, включая развитые средства работы с входящими и исходящими телефонными вызовами, факсами, SMS сообщениями, возможности доступа к БД и встроенной поддержкой синтеза/распознавания речи.

Реализация проекта
Компания Novavox стояла у истоков первых решений по построению систем компьютерной телефонии и является безусловным лидером в этой области. За более чем десять лет с момента старта первых CTI – проектов наши специалисты приобрели богатый опыт и наработки по реализации подобных систем.

В работы и услуги по вводу в эксплуатацию системы Телебанкинга входит:

  • Разработка Технического Задания на создания системы Телебанкинга для заказчика.
  • Работы по инсталляции оборудования и программного обеспечения согласно спецификации системы в соответствии Техническим заданием.
  • Техническая поддержка системы по телефону и по e-mail.

В среднем, проект занимает 1.5 -2 месяца с момента согласования Технического задания, после чего система готова к коммерческой эксплуатации. Дальнейшая поддержка системы (написание новых сценариев обработки вызовов, расширение функциональности и пр.) достаточно проста и её могут выполнять штатные специалисты банка.