Porady

Poznajmy technologię: Jak działa rozpoznawanie mowy?

16 lutego 2016, Aktualizacja 27 kwietnia 2018Lenovo

Rozpoznawanie mowy przez urządzenia to skomplikowany proces i niezwykle trudno jest tu o 100 proc. skuteczności. Mimo to naukowcom i inżynierom działającym na polu matematyki, lingwistyki i technik komputerowych udało się opanować go na tyle, by wprowadzić ten mechanizm do urządzeń codziennego użytku. Z poleceń głosowych korzystają posiadacze smartfonów, tabletów i komputerów. Połączenie tych urządzeń z Internetem pozwoliło rozszerzyć funkcjonalność rozpoznawania mowy daleko poza proste rozumienie komend głosowych.

Jak działa rozpoznawanie mowy?

Chociaż polecenia głosowe, a właściwie rozpoznawanie pojedynczych słów, były dostępne już w latach 70-tych to dopiero pojawienie się urządzeń przenośnych zaowocowało upowszechnieniem tego rozwiązania. Proste telefony komórkowe, z końca ubiegłego wieku, oferowały funkcję wybierania głosowego o prostej zasadzie działania. Dla każdego z kontaktów w książce telefonicznej należało nagrać polecenie inicjujące rozmowę. Telefon prosił wcześniej o kilkukrotne powtórzenie komendy w celu utworzenia wzorca. Ta metoda rozpoznawania mowy obarczona jest szeregiem ograniczeń.

Najpoważniejsze z nich to konieczność samodzielnego stworzenia przez użytkownika słownika haseł rozumianych przez maszynę. Drugim jest zależność od brzmienia głosu konkretnego użytkownika. Komenda wypowiedziana przez inną osobę, np. o odmiennej dykcji, może nie być zrozumiana. To ograniczenie, paradoksalnie, dziś bywa przydatne. Aktualnie, gdy z komend głosowych korzysta coraz więcej użytkowników, mechanizmy rozpoznawania mowy przywiązują się do brzmienia głosu posiadacza urządzenia. Przeciwdziała to użyciu funkcji przez przypadkową osobę, która wypowie hasło aktywujące funkcję rozpoznawania mowy, np. „OK Google w przypadku wirtualnego asystenta zainstalowanego w urządzeniach z systemem Android.

Jak działa rozpoznawanie mowy?

Nowoczesne systemy rozpoznawania mowy nie muszą uczyć się brzmienia każdego słowa ze swojego słownika. Zamiast tego operują na mniejszych składnikach mowy, sylabach oraz fonemach – podstawowych jednostkach dźwięku. W języku polskim wyróżnia się 39 fonemów, w angielskim jest ich ponad 40. Rozumienie ludzkiej mowy przez maszynę sprowadza się do rozpoznawania poszczególnych składowych słów, dopasowania prawdopodobnego odpowiednika w słowniku i złożenia wypowiedzi w całość. Potem przychodzi czas na interpretację. Na samym początku tego procesu dźwięk rejestrowany przez mikrofon urządzenia zostaje poddany analizie. Po przetworzeniu z postaci analogowej na cyfrową sygnał zostaje rozłożony na składowe częstotliwości, za pomocą szybkiej transformacji Fouriera (FTT). W skutek tego powstaje spektrogram – inny dla każdej sylaby lub fonemu.

Rozpoznawaniu mowy na tak podstawowym poziomie nie przeszkodzi różne brzmienie głosu, zróżnicowana dykcja, skłonność do zjadania końcówek czy nietypowy akcent. W obecnie wykorzystywanych funkcjach rozpoznawania mowy nie chodzi jednak o rozumienie pojedynczych słów, a całych zdań. Analiza wypowiedzi musi więc uwzględniać składnię języka. Tu z pomocą przychodzi statystyka. Znając zasady gramatyki funkcja rozpoznawania mowy potrafi określić zależności między poszczególnymi wyrazami. Opiera się na przy tym na prawdopodobieństwie. Np. w języku polskim przymiotnik występuje przed rzeczownikiem częściej niż po nim. Interpretując znaczenie wyrazu, maszyna może więc przewidzieć następne słowo. Analiza prawdopodobieństwa obejmuje też występowanie kolejnych fonemów, sylab, a nawet momentów ciszy między wyrazami. Utworzony w ten sposób ciąg nosi nazwę ukrytego modelu Markowa. Każda składowa tego ciągu określona jest z pewnym prawdopodobieństwem, które wynika z przybliżonej wartości innych składowych. W ten sposób zmiana pojedynczej składowej, np. w skutek poprawki błędnej interpretacji fonemu, ma wpływ na wartość kolejnych. A za tym, całego słowa.

Operacje matematyczne związane z tym procesem tylko częściowo przeprowadzane są w urządzeniu rozpoznającym mowę. W dużej mierze jest ono zależne od serwerów obliczeniowych działających w chmurze. Dlatego usługi typu Google Now wymagają do działania połączenia z siecią. W analizie przesyłanych danych wykorzystywane są obecnie sztuczne sieci neuronowe – naśladujące pracę ludzkiego mózgu. Stworzona w oparciu o nie sztuczna inteligencja daje tym precyzyjniejsze wyniki im więcej danych zgromadzi. Każde nowe zapytanie wysłane, np. do Google Now ma szansę nauczyć AI czegoś nowego i podnieść jej nieomylność. Google określa precyzję działania swojego systemu rozpoznawania mowy na 92 proc.

Choć większość obliczeń wykonywana jest online, to rola urządzenia rozpoznającego mowę nie ogranicza się do rejestrowania, wysyłania i odbierania danych z sieci. Smartfon czy tablet ma bowiem spore możliwości w określeniu kontekstu, w którym padła komenda głosowa czy zapytanie. W tym celu urządzenie wykorzystuje dane o położeniu użytkownika, zawartość obrazu wyświetlonego na ekranie, a nawet informacje pochodzące z poczty e-mail czy kalendarza. Dzięki tym danym udaje się, np. rozstrzygnąć poprawne znaczenie użytych w zapytaniu homonimów.

Wypróbuj sam

Rozpoznawanie mowy stoi u podstawy działania wirtualnych asystentów takich jak Google Now. Ich integracja z mechanizmami wyszukiwania oraz aplikacjami systemu mobilnego pozwala na bezdotykową obsługę urządzenia. Asystent potrafi, np. utworzyć wydarzenie w kalendarzu, zarezerwować bilety do kina lub pokierować do najbliższego szpitala, korzystając przy tym z nawigacji GPS i cyfrowej mapy. Mechanizm rozumie polecenia i zapytania wydawane w języku naturalnym (konstruowane swobodnie), ale wyraźna wymowa, trzymanie się zasad gramatyki i nieobcinanie końcówek słów pozytywnie wpływa na skuteczność działania. Gdy funkcja ma wątpliwości przy interpretacji mowy może poprosić o doprecyzowanie wypowiedzi. Taka korekta ze strony użytkownika jest bardzo istotna w przypadku uczenia maszynowego, bo nie utrwala błędów AI.

Głosowa obsługa wyszukiwarki Google jest dostępna w Polsce od kilku lat. Od niedawna polscy użytkownicy mają także możliwość skorzystania z asystenta głosowego Google (ma on w tej chwili nieco mniej funkcji niż wersja anglojęzyczna).

Niektórzy producenci smartfonów oferują użytkownikom własnego asystenta głosowego. Taką usługą jest Moto Voice dostępna w smartfonach Lenovo Moto (aktualnie dostępna w języku angielskim). Asystenta można aktywować komendą głosową i wykorzystać do bezdotykowej obsługi smartfona, np. w trakcie prowadzenia samochodu. Program korzysta z usług lokalizacji i informacji o użytkowniku smartfona (np. z kalendarza), aby precyzyjniej reagować na zapytania i komendy.

Posiadacze urządzeń z Androidem mogą też korzystać z funkcji dyktowania tekstu, która od dłuższego czasu działa bardzo pewnie i daje dobre rezultaty, np. przy tworzeniu SMSów.



Udostępnij

Powiązane Artykuły

Innowacje [Infografika]

Lenovo

Jak wybrać monitor do codziennego użytku?

Lenovo

Oszczędzanie baterii!

Lenovo

Komentarze do artykułu


widget instagram lenovo
widget twitter lenovo
widget facebook lenovo
widget youtube lenovo
Przeczytaj poprzedni wpis:
Poznajmy technologię: Jak działa rozpoznawanie twarzy?

Rozpoznawanie obrazów to dziedzina niezwykle szeroka i powiązana z tak wieloma zagadnieniami i zastosowaniami, że dość trudno wszystkie jej aspekty...

Zamknij