VOICE

 Rozwiązania głosowe dostarczane przez naszą firmę zostały przygotowane w oparciu o produkty naszego partnera strategicznego, którym jest włoska firma IT-Works, będąca jednym z liderów w zakresie technologii VOICE. Firma IT-Works dostarcza gotowe rozwiązania w zakresie rozpoznawania mowy (Automatic Speech Recognition – ASR) oraz translacji mowy do tekstu (Text-To-Speech-TTS), które w prosty sposób mogą zostać zintegrowane z systemami WMS czy ERP. IT-Works nie opracowało tutaj własnych mechanizmów ASR i TTS, lecz wykorzystało sprawdzone i działające od lat rozwiązania amerykańskiej firmy Nuance – lidera w zakresie rozpoznawania mowy.

Moduły VOICE w rozwiązaniach naszej firmy

Nasze rozwiązania głosowe składają się z następujących modułów:

• POWERvoice – oprogramowanie interpretujące zdefiniowany algorytm procesu, przeznaczone dla urządzeń z systemem operacyjnym Windows CE (do pełnego wykorzystania możliwości niezbędny jest odpowiedni zestaw słuchawkowy z mikrofonem).

• VoiceDesigner - oprogramowanie do graficznego modelowania algorytmu procesu.

• Moduł syntezy mowy - wykorzystanie technologii TTS pozwala na przekształcenie dowolnego komunikatu z postaci tekstowej na postać głosową.

• Moduł rozpoznawania mowy - wykorzystanie technologii ASR. Zastosowano tzw. „rozwiązanie niezależne od operatora”, nie wymagające treningu przed rozpoczęciem pracy – pozwala to skrócić do minimum czas potrzebny na rozpoczęcie pracy z systemem przez nowego operatora. Moduły syntezy mowy i rozpoznawania mowy korzystają z silnika Vo-Ce dostarczanego przez firmę IT-Works.

Automatic Speech Recognition

Jako silnik identyfikacji głosu wykorzystany został VoCon 3200 ASR firmy Nuance. Umożliwia on rozpoznawanie słów wypowiadanych jednym ciągiem w ponad 40 językach. Dzięki wbudowanym filtrom redukującym poziom szumów z otoczenia znacznie zwiększa się skuteczność rozpoznawania głosu.

Nasze aplikacje głosowe umożliwiają konfigurację silnika ASR w zakresie:

• Odcięcia sygnałów, jakie mają być traktowane, jako szum

• Kodowanie rozpoznanych słów • Mapowania wypowiadanych słów na specjalne komendy

• Poprawności rozpoznawania mowy – jeśli komenda zostanie rozpoznana z pewnością poniżej ustalonego progu będzie ona odrzucona. W najnowszej wersji ASR VoCon 3.2 możliwa jest praca w trybie full duplex, czyli rozpoznawanie mowy w trakcie realizowania konwersji TTS.

Text-To-Speech Silnik RealSpeak

TTS firmy Nuance normalizuje tekst na wejściu analizując pojedyncze słowa i próbuje dopasować do nich pojedyncze nagrania. Wykorzystywane są tutaj techniki powiązanej syntezy (ang. concatentative synthesis). W przypadku wystąpienia w pojedynczym zdaniu słów, których zapis fonetyczny brzmi podobnie analizowane są sąsiadujące wyrazy a próbki są dopasowywane na podstawie szerszego kontekstu. RealSpeak TTS wspiera kilkadziesiąt języków, a wybór odpowiedniego silnika języków jest dokonywany na podstawie analizy tekstu wejściowego (tzw. language identifier). RealSpeak TTS oferuje również możliwość kastomizacji głosu, dostosowując go do konkretnej aplikacji.

Nasze aplikacje głosowe umożliwiają konfigurację silnika TTS w zakresie:

• Zmiany szybkości wypowiadanych słów

• Zmiany głośności wypowiadanych słów

• Powtarzania ostatnio wypowiedzianej sekwencji słów