Реквизиты организации-разработчика, контактное лицо
ГНУ «Объединённый институт проблем информатики НАН Беларуси»
220012, г. Минск, ул. Сурганова, 6
Белоцерковский А.М.
тел. +375 (17) 284-21-71; e-mail: cic@newman.bas-net.by
Аннотация проекта
МУЛЬТИФОН — это наукоёмкий программный продукт, в котором реализуется модель устного чтения человеком произвольного текста. С точки зрения пользователя МУЛЬТИФОН — это новое средство для осуществления голосового вывода информации из персонального компьютера, дополняющее, а в отдельных случаях, заменяющее визуальный вывод на дисплей. Пользователь персонального компьютера, используя МУЛЬТИФОН, сможет теперь ослабить зрительное напряжение, получая часть информации голосом. Он сможет также получать информацию, находясь в движении на некотором удалении от компьютера, а при использовании дополнительного телефонного интерфейса — передавать или получать речевую информацию по телефону. МУЛЬТИФОН — уникальное средство передачи информации для слепых и отличная возможность создания компьютерных систем обучения устной речи.
Описание проекта
Общая структура системы аудиовизуального синтеза речи по тексту представлена на рис. 1. Входной орфографический текст последовательно подвергается преобразованиям, осуществляемым несколькими процессорами: текстовым, фонетическим, просодическим, акустическим и визуальным.
Текстовый процессор предназначен для преобразования входного орфографического текста в просодически размеченный текст. Процессор выполняет следующие задачи:
— разбиение текста на предложения;
— преобразование чисел, аббревиатур, сокращений и т.д.;
— разбиение предложений на просодические синтагмы;
— расстановку сильных и слабых словесных ударений;
— разбиение синтагм на акцентные единицы (АЕ);
— пределение интонационного типа синтагм.
Просодически размеченный текст поступает в фонетический процессор, который выполняет следующие задачи:
— преобразование орфографического текста в последовательность фонем;
— преобразование последовательности фонем в аллофонную последовательность.
Сформированная аллофонная последовательность поступает на вход двух процессоров: просодического и визуального.
Просодический процессор выполняет следующие задачи:
— разбиение АЕ на элементы акцентных единиц (ЭАЕ): предъядро, ядро и заядро;
— вычисление требуемых значений частоты основного тона (F0), амплитуды (A) и длительности аллофонов (T) в соответствии с портретами акцентных единиц для каждой АЕ.
Акустический процессор использует информацию, поступающую от фонетического и просодического процессоров, для выполнения следующих операций:
— модификация просодических параметров звуковых волн аллофонов и мультифонов;
— конкатенация звуковых волн аллофонов и мультифонов в соответствующую последовательность.
Визуальный процессор использует информацию, поступающую от фонетического процессора, для выбора из БД требуемых визем и их конкатенации.
Необходимо отметить, что все дикторозависимые и языкозависимые данные и правила преобразований организованы в виде специализированных БД, что позволяет использовать систему аудиовизуального синтеза речи по тексту как многодикторную и многоязыковую при добавлении соответствующих лингвистических, акустических и визуальных ресурсов.
Технические и экономические преимущества
— Высший класс разборчивости синтезированной речи;
— Автоматическое интонирование при синтезе речи по тексту;
— Высокая степень естественности и выразительности чтения текстов;
— Высокое качество синтеза 2-х мужских и 2-х женских голосов;
— Возможность клонирования персонального голоса и манеры чтения;
— Возможность добавление новых голосов и интонационных стилей;
— Двуязычный синтез речи. Языки: русский, белорусский;
— Возможность добавления новых языков;
— Визуальное отображение мимики речи — «Говорящая голова»;
— Возможность персонализации изображения «Говорящей головы»;
— Возможность встраивания системы во внешние приложения с использованием стандарта SAPI 5.1.
Системные требования:
— Операционная система семейства Windows;
— Процессор: Intel Pentium 233 МГц (минимум);
— Память/RAM: 32 Мб (минимум);
— Место на жестком диске: 64 Мбайт (минимум).
Инновационные аспекты предложения
— Интернет-сервис по телефону – чтение e-mail сообщений и др. услуги
— Телефонные справочные системы — «колл-центры»
— Мобильная телефония (озвучивание SMS-сообщений)
— Телефонные системы автоматического информирования
— Речевое сопровождение решения задач САПР
— Голосовое оповещение на транспорте, вокзалах и аэропортах, что позволит вызвать такси в аэропорт, непосредственно при выходе из терминала.
— Речевые подсказки при редактировании изображений
— Пошаговые голосовые инструкции по монтажу и наладке оборудования
— Чтение электронных книг
— Слуховой контроль таблиц и текстов
— Говорящие рекламные ролики
— Системы компьютерного обучения языку и речи
— Говорящие компьютеры для инвалидов по зрению
— Создание банка голосовых клонов правонарушителей
— Оперативная идентификация личности по голосу
— Имитация голосов при производстве кино- и видеопродукции
— Системы персонализированного оповещения
— Дистанционное обучение с голосом виртуального учителя
— Интеллектуальные виртуальные собеседники
Где была представлена технология
На 13-й, 14-й, 15-ой международных специализированных выставках по телекоммуникациям, информационным и банковским технологиям, системам безопасности TIBO’2006, TIBO’2007, TIBO’2008.
На регулярных выставках НАН Беларуси.
Ключевые слова
Речь, голос, речевой интерфейс, синтез речи, голосовое оповещение.
Текущая стадия развития
Статус прав интеллектуальной собственности
Область применения технологии
Компьютерные и телекоммуникационные системы.
Классификатор Европейской сети трансфера технологий IRC
Предпочитаемые регионы
Практический опыт
Подсистема синтеза речи по тексту используется в составе следующих программных комплексов:
— система автоматического реферирования и голосового озвучивания текстовых документов;
— специализированная система чтения электронных книг слепыми и слабовидящими «Электронная говорящая библиотека»;
— система создания и прослушивания аудиокниг в мобильных телефонах; — компьютерная система заказа авиабилетов, предоставляющая пользователю речевой интерфейс.
Подсистема аудио-визуального синтеза речи по тексту используется в составе мультимодального информационного киоска, осуществляющего диалог с пользователем на естественном языке посредством видео-, звукового и текстового каналов.
Влияние на окружающую среду
Не оказывает.
Предлагаемые формы сотрудничества
Условия и ограничения при передаче технологии
В соответствии с договором или лицензией.
Поддержка, предоставляемая при передаче технологии
Реквизиты организации-разработчика, контактное лицо
ГНУ «Объединённый институт проблем информатики НАН Беларуси»
220012, г. Минск, ул. Сурганова, 6
Белоцерковский А.М.
тел. +375 (17) 284-21-71; e-mail: cic@newman.bas-net.by
Аннотация проекта
Грид – новая технология, которая расширяет возможности существующего интернета, позволяя обмениваться не только файлами но и компьютерными ресурсами: процессорным временем, дисковым пространством, обеспечивать доступ к специфическому оборудованию. Основой технологии Грид является объединение ресурсов путем создания компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе сетевых технологий и специального программного обеспечения промежуточного уровня (между базовым и прикладным программными обеспечениями), а также набора стандартизо-ванных служб для обеспечения надежного совместного доступа к географически распределенным информационным и вычислительным ресурсам (от-дельным компьютерам, кластерам, хранилищам информации и сетям).
Описание проекта
Появление грид-технологии обусловлено следующими предпосылками:
– необходимостью решения сложных научных, производственных, инженерных и коммерческих задач;
– стремительным развитием сетевой транспортной среды и технологий высокоскоростной передачи данных;
– наличием во многих организациях вычислительных ресурсов (суперкомпьютеров или, что наиболее часто встречается, организованных в виде кластеров персональных компьютеров).
Основные направления использования Грид-инфраструктуры:
— организация эффективного использования ресурсов для небольших задач, с утилизацией временно простаивающих компьютерных ресурсов;
— распределенные вычисления, решение очень крупных задач, требующих огромных процессорных ресурсов, памяти и т.д. ;
— вычисления с привлечением больших объемов географически распределенных данных, например, в метеорологии, астрономии, физике высоких энергий;
— коллективные вычисления, в которых одновременно принимают участие пользователи из различных организаций.
Грид-инфраструктура обеспечивает организацию, поддержание и выполнение следующих задач:
1. Организация связи в различных режимах;
2. Информационное обслуживание, обеспечивающее предоставление информации о состоянии самой Грид- инфраструктуры;
3. Гибкость инфраструктуры;
4. Безопасность;
5. Управление ресурсами;
Использование Грид-инфраструктуры позволяет осуществлять интеграцию ресурсов, хранилищ данных и источников данных (рис. 1).
К Грид-ресурсам относятся:
— вычислительные ресурсы;
— ресурсы файловой памяти;
— сетевые ресурсы;
— хранилища кодов;
— каталоги;
— программное обеспечение для решения прикладных задач.
Тип технологии
Технические и экономические преимущества
Развитие и внедрение Грид-технологии носят стратегический характер. В ближайшей перспективе эта технология позволит создать принципиально новый вычислительный инструмент для развития высоких технологий в различных сферах человеческой деятельности.
Применение Грид-технологии может обеспечить новый подход к обработке огромных объемов экспериментальных данных, обеспечить моделирование сложнейших процессов, визуализацию больших наборов данных, сложные бизнес-приложения с большими объемами вычислений.
Технологии интеграции компьютерных ресурсов и ресурсов хранения служат средством агрегирования больших объемов ресурсов для коллективного и, как следствие, экономного их использования.
Использующие эти технологии приложения получают свойства:
– возможности обеспечивать массовое и оперативное обслуживание большого числа пользователей;
– надежности, поскольку с помощью механизма виртуализации может осуществляться репликация данных и использование альтернативных ресурсов.
Инновационные аспекты предложения
1. Существенно сократить время принятия решения при анализе финансовых и страховых рисков.
2 Эффективнее использовать имеющиеся на предприятии вычислительные ресурсы для моделирования в фармацевтике, биологии, машино- и авиастроении.
3. Избежать дополнительных затрат на дорогостоящее оборудование для предсказания погоды и моделирования климата.
4. Эффективно управлять компьютерным парком географически распределенных подразделений.
5 Сократить время производства
Где была представлена технология
В настоящее время технология используется для подключения ресурсов в европейскую Грид-сеть и для использования ресурсов в белорусско-российском «СКИФ-Полигоне».
Ключевые слова
Грид, единый ресурс, программное обеспечение промежуточного уровня.
Текущая стадия развития
Статус прав интеллектуальной собственности
Область применения технологии
Наука, промышленность (машино-, приборо-, авиастроение, виртуальные испытания), медицина (генетика и биоинформатика, фармацевтика, онкология и др.).
Классификатор Европейской сети трансфера технологий IRC
Предпочитаемые регионы
Практический опыт
В настоящее время технология используется для подключения ресурсов в европейскую Грид-сеть и для использования ресурсов в белорусско-российском «СКИФ-Полигоне».
Влияние на окружающую среду
Не оказывает.
Предлагаемые формы сотрудничества
Условия и ограничения при передаче технологии
На договорной основе. Развитие телекоммуникационной инфраструктуры, аппаратное обеспечение за счет средств потребителя технологии.
Поддержка, предоставляемая при передаче технологии