+ All Categories
Home > Documents > VYSOKÉ U ENÍ TECHNICKÉ V BRN Fakulta elektrotechniky a ... · Fakulta elektrotechniky a komunika...

VYSOKÉ U ENÍ TECHNICKÉ V BRN Fakulta elektrotechniky a ... · Fakulta elektrotechniky a komunika...

Date post: 05-Jan-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
80
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií DIPLOMOVÁ PRÁCE Brno, 2016 Bc. Jan Bijota
Transcript

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Fakulta elektrotechnikya komunikačních technologií

DIPLOMOVÁ PRÁCE

Brno, 2016 Bc. Jan Bijota

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚBRNO UNIVERSITY OF TECHNOLOGY

FAKULTA ELEKTROTECHNIKYA KOMUNIKAČNÍCH TECHNOLOGIÍFACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

ÚSTAV TELEKOMUNIKACÍDEPARTMENT OF TELECOMMUNICATIONS

APLIKACE STATISTICKÉ ANALÝZY ŘEČI PACIENTŮ SPARKINSONOVOU NEMOCÍAPPLICATION OF STATISTICAL ANALYSIS OF SPEECH IN PATIENTS WITH PARKINSON'S DISEASE

DIPLOMOVÁ PRÁCEMASTER'S THESIS

AUTOR PRÁCEAUTHOR

Bc. Jan Bijota

VEDOUCÍ PRÁCESUPERVISOR

Ing. Zoltán Galáž

BRNO 2016

Fakulta elektrotechniky a komunikačních technologií, Vysoké učení technické v Brně / Technická 3058/10 / 616 00 / Brno

Diplomová prácemagisterský navazující studijní obor Telekomunikační a informační technika

Ústav telekomunikacíStudent: Bc. Jan Bijota ID: 128755Ročník: 2 Akademický rok: 2015/16

NÁZEV TÉMATU:

Aplikace statistické analýzy řeči pacientů s Parkinsonovou nemocí

POKYNY PRO VYPRACOVÁNÍ:

Parkinsonova nemoc je druhým nejčastějším neurodegenerativním onemocněním na světě. Jedním z příznakůParkinsonovy nemoci je také tzv. Hypokinetická dysartrie, která se vyznačuje špatnou funkčností řečových orgánůa významně snižuje kvalitu života takto postižených pacientů. V rámci diplomové práce bude provedenaparametrizace sady řečových cvičení: fonace samohlásek /a / – /u/. Vypočtené parametry, kvantifikující řečovédysfunkce, budou následně analyzovány pomocí statistických metod jako: korelační analýza, informační analýza,parametrické a neparametrické statistické testy atd. s důrazem na diskriminaci zdravých řečníků a pacientůs Parkinsonovou nemocí. Uvedené postupy budou naprogramovány v jazyce MATLAB.

DOPORUČENÁ LITERATURA:

[1] D. J. Sheskin, Handbook of Parametric and Nonparametric Statistical Procedures, Chapman & Hall/CRC,2007.

[2] SMÉKAL, Z. Číslicové zpracování řeči (MZPR). Elektronická skripta pro magisterská studia, Ústavtelekomunikací, FEEC, VUT Brno, 2009.

[3] PSUTKA, J.; et al. Mluvíme s počítačem česky. Praha: Academia, 2006. 752 s. ISBN 80-200-1309-1.

Termín zadání: 1.2.2016 Termín odevzdání: 25.5.2016

Vedoucí práce: Ing. Zoltán GalážKonzultant diplomové práce:

doc. Ing. Jiří Mišurec, CSc., předseda oborové rady

UPOZORNĚNÍ:Autor diplomové práce nesmí při vytváření diplomové práce porušit autorská práva třetích osob, zejména nesmí zasahovat nedovolenýmzpůsobem do cizích autorských práv osobnostních a musí si být plně vědom následků porušení ustanovení § 11 a následujících autorskéhozákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníkuč.40/2009 Sb.

ABSTRAKTTato diplomová práce se zabývá zpracováním řečového signálu osob postižených Parkin-sonovou nemocí za účelem vytvoření statistického vzorku řečových parametrů, pomocíněhož bude možno rozdělit zkoumané osoby na parkinsoniky a neparkinsoniky. Tento sta-tistický vzorek je tvořen na základě detekce hypokinetické dysartrie u osob postiženýchParkinsonovou nemocí. V práci je rozebíráno předzpracování řečového signálu pomocímetody ustřednění a preemfáze a jeho rozdělení na části (segmentace). Následně jepopsáno parametrické vyjádření zpracovávaného vzorku pomocí fonačních parametrů,MFCC a PLP koeficientů. Dále jsou rozebírány možnosti statistické analýzy pomocízmíněného parametrického vyjádření. V přípádě této práce statistická analýza sestáváz výpočtu Pearsonova a Spearmanova korelačního koeficientu, vzájemné informace aparametrického Studentova t-testu a neparametrického Mann-Whitneyova U testu. Vý-sledkem práce je soubor řečových parametrů pro jednotlivé dlouhé české samohlásky,které dokáží dle provedené statistické analýzy nejlépe vyjádřit rozdíl mezi zdravým řeč-níkem a parkinsonikem. Tyto výsledky mohou napomoci při diagnóze osoby, u níž jepodezření na Parkisonovu nemoc.

KLÍČOVÁ SLOVAParkinsonova nemoc, hypokinetická dysartrie, řečový signál, předzpracování signálu, pa-rametrizace signálu, statistická analýza, MFCC, PLP, korelační analýza, Pearson, Spear-man, vzájemná informace, Studentův t-test, Mann-Whitneyův U test

ABSTRACTThis thesis deals with speech analysis of people who suffer from Parkinson’s disease.Purpose of this thesis is to obtain statistical sample of speech parameters which helps todetermine if examined person is suffering from Parkinson’s disease. Statistical sample isbased on hypokinetic dysarthria detection. For speech signal pre-processing DC-offset re-moval and pre-emphasis are used. The next step is to divide signal into frames. Phonationparameters, MFCC and PLP coefficients are used for characterization of framed speechsignal. After parametrization the speech signal can be analyzed by statistical methods.For statistical analysis in this thesis Spearman’s and Pearson’s correlation coefficients,mutual information, Mann-Whitney U test and Student’s t-test are used. The thesisresults are the groups of speech parameters for individual long czech vowels which arethe best indicator of the difference between healthy person and patient suffering fromParkinson’s disease. These result can be helpful in medical diagnosis of a patient.

KEYWORDSParkinson’s disease, hypokinetic dysarthria, speech signal, signal pre-processing, signalparameterization, statistical analysis, MFCC, PLP, correlation analysis, Pearson, Spear-man, mutual information, Student’s t-test, Mann-Whitney U Test

BIJOTA, Jan Aplikace statistické analýzy řeči pacientů s Parkinsonovou nemocí: diplo-mová práce. Brno: Vysoké učení technické v Brně, Fakulta elektrotechniky a komuni-kačních technologií, Ústav telekomunikací, 2016. 79 s. Vedoucí práce byl Ing. ZoltánGaláž.

Vysázeno pomocí balíčku thesis verze 2.61; http://latex.feec.vutbr.cz

PROHLÁŠENÍ

Prohlašuji, že svou diplomovou práci na téma „Aplikace statistické analýzy řeči pacientůs Parkinsonovou nemocí“ jsem vypracoval(a) samostatně pod vedením vedoucího diplo-mové práce a s použitím odborné literatury a dalších informačních zdrojů, které jsouvšechny citovány v práci a uvedeny v seznamu literatury na konci práce.

Jako autor(ka) uvedené diplomové práce dále prohlašuji, že v souvislosti s vytvoře-ním této diplomové práce jsem neporušil(a) autorská práva třetích osob, zejména jsemnezasáhl(a) nedovoleným způsobem do cizích autorských práv osobnostních a/nebo ma-jetkových a jsem si plně vědom(a) následků porušení ustanovení S 11 a následujících au-torského zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právemautorským a o změně některých zákonů (autorský zákon), ve znění pozdějších předpisů,včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavyVI. díl 4 Trestního zákoníku č. 40/2009 Sb.

Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)

PODĚKOVÁNÍ

Rád bych poděkoval vedoucímu diplomové práce panu Ing. Zoltánovi Galážovi za odbornévedení, konzultace, trpělivost a podnětné návrhy k práci.

Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)

PODĚKOVÁNÍ

Výzkum popsaný v této diplomové práci byl realizován v laboratořích podpořených z pro-jektu SIX; registrační číslo CZ.1.05/2.1.00/03.0072, operační program Výzkum a vývojpro inovace.

Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)

Faculty of Electrical Engineeringand CommunicationBrno University of TechnologyPurkynova 118, CZ-61200 BrnoCzech Republic

http://www.six.feec.vutbr.cz

OBSAH

Úvod 12

1 Zpracování řečového signálu 131.1 Řeč jako prostředek komunikace . . . . . . . . . . . . . . . . . . . . . 131.2 Jazykovědní disciplíny . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.1 Fonetika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.2 Fonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Morfonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3 Tvorba a vnímání řeči . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.1 Vztah mluvčí-posluchač . . . . . . . . . . . . . . . . . . . . . . 141.3.2 Fyziologie řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Parkinsonova nemoc 172.1 Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Historie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Příčiny vzniku PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4 Příznaky PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Průběh PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6 Léčba PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Hypokinetická dysartrie 193.1 Dysartrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Poruchy u HD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.1 Poruchy fonorespirace . . . . . . . . . . . . . . . . . . . . . . 193.2.2 Poruchy faciokineze . . . . . . . . . . . . . . . . . . . . . . . . 203.2.3 Poruchy fonetiky . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3 Řečová analýza HD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 Předzpracování řečového signálu 224.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Ustřednění . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.3 Preemfázová filtrace signálu . . . . . . . . . . . . . . . . . . . . . . . 234.4 Segmentace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 Parametrizace řečového signálu 255.1 Fonační parametry . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.2 Koeficienty zohledňující vlastnosti sluchového ústrojí . . . . . . . . . 26

5.2.1 Melovské kepstrální koeficienty . . . . . . . . . . . . . . . . . 26

5.2.2 Percepční lineární predikční koeficienty . . . . . . . . . . . . . 275.3 Formanty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6 Post-processing parametrů 32

7 Statistická analýza parametrů 337.1 Korelační analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

7.1.1 Pearsonův korelační koeficient . . . . . . . . . . . . . . . . . . 337.1.2 Spearmanův korelační koeficient . . . . . . . . . . . . . . . . . 34

7.2 Vzájemná informace . . . . . . . . . . . . . . . . . . . . . . . . . . . 347.3 Parametrické a neparametrické statistické

testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367.3.1 Studentův t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 377.3.2 Mann–Whitneyův U test . . . . . . . . . . . . . . . . . . . . . 38

8 Blokové schéma systému 40

9 Praktická část 419.1 Vstupní data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419.2 Předzpracování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419.3 Parametrizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429.4 Post-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429.5 Statistická analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9.5.1 Hodnoty statistických parametrů samohlásek . . . . . . . . . . 439.6 Optimalizace zdrojového kódu . . . . . . . . . . . . . . . . . . . . . . 46

10 Závěr 48

Literatura 50

Seznam symbolů, veličin a zkratek 54

Seznam příloh 56

A Histogramy řečových parametrů 57

B Statistiky řečových parametrů 67

C Doplňkové informace pro statistickou analýzu 73

D Obsah přiloženého DVD 79

SEZNAM OBRÁZKŮ1.1 Produkce a vnímání řeči. . . . . . . . . . . . . . . . . . . . . . . . . . 151.2 Průřez hlasovým ústrojím [30] . . . . . . . . . . . . . . . . . . . . . . 164.1 Základní schéma AČ převodu. . . . . . . . . . . . . . . . . . . . . . . 224.2 Srovnání pravoúhlého a Hammingova okna. . . . . . . . . . . . . . . . 245.1 Křivky stejné hlasitosti podle normy ISO 226:2003 [12] . . . . . . . . 295.2 Hellwagův trojúhelník . . . . . . . . . . . . . . . . . . . . . . . . . . 307.1 Nízké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s . . . . . . . . . . . . 357.2 Vysoké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s . . . . . . . . . . . 357.3 Vztah mezi vzájemnou informací a entropií . . . . . . . . . . . . . . . 368.1 Blokové schéma systému statistického zpracování . . . . . . . . . . . 40A.1 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé

samohlásky „a“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57A.2 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé

samohlásky „e“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58A.3 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé

samohlásky „i“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59A.4 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé

samohlásky „o“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60A.5 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé

samohlásky „u“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.6 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky

„A“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62A.7 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky

„E“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.8 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky

„I“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64A.9 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky

„O“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65A.10 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky

„U“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

SEZNAM TABULEK5.1 Převodní tabulka mezi 𝑓Hz a 𝑓bark [6] . . . . . . . . . . . . . . . . . . 289.1 Hodnoty statistických parametrů dlouhé samohlásky „á“ . . . . . . . 449.2 Hodnoty statistických parametrů dlouhé samohlásky „é“ . . . . . . . 449.3 Hodnoty statistických parametrů dlouhé samohlásky „í“ . . . . . . . 459.4 Hodnoty statistických parametrů dlouhé samohlásky „ó“ . . . . . . . 469.5 Hodnoty statistických parametrů dlouhé samohlásky „ú“ . . . . . . . 46B.1 Vybrané popisné statistiky samohlásky „á“ . . . . . . . . . . . . . . . 68B.2 Vybrané popisné statistiky samohlásky „é“ . . . . . . . . . . . . . . . 69B.3 Vybrané popisné statistiky samohlásky „í“ . . . . . . . . . . . . . . . 70B.4 Vybrané popisné statistiky samohlásky „ó“ . . . . . . . . . . . . . . . 71B.5 Vybrané popisné statistiky samohlásky „ú“ . . . . . . . . . . . . . . . 72C.1 Kritické hodnoty Studentova t-testu . . . . . . . . . . . . . . . . . . . 74C.2 Kritické hodnoty jednostranného Mann–Whitneyova U testu pro 𝛼 =

0, 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75C.3 Kritické hodnoty dvoustranného Mann–Whitneyova U testu pro 𝛼 =

0, 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76C.4 Kritické hodnoty jednostranného Mann–Whitneyova U testu pro 𝛼 =

0, 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77C.5 Kritické hodnoty dvoustranného Mann–Whitneyova U testu pro 𝛼 =

0, 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

ÚVODParkinsonova nemoc (PN) je druhé nejčastější neurodegenerativní onemocnění nasvětě. V České republice trpí tímto onemocněním zhruba 25 tisíc lidí. Kvalita životapacientů s PN je snížena jednak kvůli motorickým projevům (např. klidový třes), aletaké kvůli psychickým problémům či kognitivním poruchám [20]. Jedním z moto-rických příznaků této nemoci je zhoršená řeč postižené osoby. Tento příznak se na-zývá hypokinetická dysartrie (HD). Parkinsonik – osoba postižená PN – u kteréhose HD projevuje, má ztíženou verbální komunikaci s okolím. Obtížněji vyslovuje,má sníženou sílu hlasu, jeho řeč se zrychluje a věty zkracují. Také mimika, kterátvoří nedílnou součást komunikace, je narušena. Jelikož má HD své specifické rysy,je předpokladem, že pomocí důkladné analýzy řeči parkinsoniků s touto dysfunkcílze získat soubor statistických dat, který by napomohl určit, zda zkoumaná osobatrpí PN či nikoliv. Tato semestrální práce se zabývá procesem, který vede k získánírelevantních dat – vzorků řečových signálů – a jejich dalšímu zpracování pomocístatistických metod.

První kapitola se zabývá komunikací z pohledu mluvčího a posluchače, jsou zdezmíněny jazykovědní disciplíny a je zde popsána tvorba řeči. V kapitole druhé jepopsaná historie PN. Také jsou zde zmíněny příznaky nemoci, její průběh a léčba.Hypokinetická dysartrie je tématem třetí kapitoly. HD je zde definována a jsouzde rozebrány poruchy fonorespirace, faciokineze a fonetiky. Kapitola čtvrtá popi-suje proces předzpracování signálu, konkrétně ustřednění, preemfázi a segmentaciřečového signálu. Parametrizací nasegmentovaného signálu se zaobírá pátá kapi-tola. Jsou zde popsány postupy pro získání jak fonačních parametrů, tak MFCC aPLP koeficientů. Následující kapitola se zabývá nutností post-processingu získanýchparametrů. Kapitola sedmá rozebírá statistickou analýzu parametrů z pohledu ko-relační analýzy, vzájemné informace a také popisuje parametrické a neparametrickéstatistické testy, konkrétně Studentův t-test a Mann-Whitneyův U test. V kapitoleosmé je znázorněno blokové schéma systému. Poslední kapitola popisuje praktickoučást diplomové práce, tzn. pomocí poznatků předchozích kapitol vytvořit systém prostatistickou analýzu řeči v programu MATLAB.

12

1 ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLUTato kapitola se zabývá řečí a jejím vztahem s předáváním informace. Rozebírátvorbu a vnímání řeči z pohledu mluvčího a posluchače a popisuje fyziologii řeči.

1.1 Řeč jako prostředek komunikaceŘeč se řadí mezi prostředky verbální komunikace, kdy se informace přenáší pomocízměn tlaku vzduchu mezi zdrojem (mluvčím) a cílem (posluchačem). Z hlediskazákladního dělení řeči existuje v každém kulturním jazyce řeč psaná, spojovaná sespisovným jazykem, a historicky starší řeč mluvená.

Kromě verbální komunikace existuje také komunikace neverbální, mezi jejíž pro-středky patří gesta rukou, mimika obličeje nebo také postoj těla [30].

1.2 Jazykovědní disciplínyNíže uvedené vědní disciplíny zkoumající zvuk řeči spolu vzájemně souvisí. Základnírozdělení na fonetiku, fonologii a morfonologii, stejně jako stručný popis těchto dis-ciplín, vychází z [16].

1.2.1 Fonetika

Původně bývala fonetika chápana jako fyziologie mluvy. V průběhu času, zejménadíky technologickému pokroku, přibývaly nové poznatky a z dnešního pohledu zkou-má fonetika zejména tři oblasti řeči. Jsou jimi artikulační stránka řeči (tvorba řeči),percepční stránka řeči (vnímání řeči) a akustická stránka řeči (přenos řeči). Fonetikataké definuje základní jednotku popisu jazyka – hlásku, což je nejmenší zvukovájednotka řeči.

1.2.2 Fonologie

Nauka o funkci hlásek se nazývá fonologie. Zkoumá lidskou řeč z pohledu význa-motvornosti takových prostředků, jenž se prosazují při změně významu nějakéhovýznamového úseku (např. změna intonace změní konstatování v otázku). Základníjednotka – foném – je nejmenší zvukový prostředek, který je schopný rozlišit morfém.Morfémem označujeme minimální jednotku věcného či gramatického významu, častomenší než slovo.

13

1.2.3 Morfonologie

Při komunikaci může docházet ke zobecnění přijímaného zvukového signálu takovýmzpůsobem, že se změní forma slova (morfém kořene nebo kmene slova), ale tatozměna znění není účastníky vyložena jako nová významová jednotka. K takovýmsituacím dochází při změnách hlásek (tzv. hláskových alternacích) uvnitř jednohomorfému (viz podkapitolu 1.2.2). Třída fonémů, které se takto střídají, tvoří jedenmorfoném. Morfoném tvoří základní jednotku vědní disciplíny morfologie.

Hláskové alternace se vyskytují v ohebných (flektivních) jazycích, tj. v jazycích,které používají skloňování, časování, předpony a přípony, pomocí nichž vyjádří čas,pád či rod. Mezi takové jazyky řadíme např. češtinu. Do jazyků neohebných patřínapř. čínština.

1.3 Tvorba a vnímání řeči

1.3.1 Vztah mluvčí-posluchač

Proces tvorby řeči a její vnímaní je naznačen na obrázku 1.1. Mluvčí (zdroj komu-nikace) převede myšlenky, jež chce vyjádřit, do jazykové formy. Mozek mluvčíhovytvoří impulzy přenášené pohybovými nervy, které mají za úkol ovládání svalůmluvních orgánů1. Tyto svaly se pohybují dle nervových impulzů tak, aby v okol-ním vzduchu způsobily změny akustického tlaku a daná informace se k uchu poslu-chače šířila prostřednictvím akustické vlny, aktivující jeho sluchový aparát. Sluchovéústrojí posluchače transformuje akustické podněty zpět na nervové impulzy, a ty jsousmyslovými nervy vedeny do mozku posluchače [30].

1.3.2 Fyziologie řeči

Podklady pro tuto podkapitolu byly převzaty z [21]. Na vzniku akustického signáluse podílí několik orgánů souhrnně označovaných jako mluvidla.

Ústrojí dechové

Aby mohla řeč vzniknout, potřebuje zdroj energie. Tím je vzduch, resp. proud vzdu-chu při výdechu, který produkují plíce. Tento výdechový proud musí překonat přisvém postupu překážky, jenž vytváří různé části mluvidel. Síla tohoto proudu ovliv-ňuje sílu hlasu a částečně také jeho výšku.

1jazyk, hlasivky, čelist, rty apod.

14

MOZEK HLASOVÉ SVALYPOHYBOVÉ NERVY

MYŠLENKA

AKUSTICKÁ VLNA PŘÍJEMCE (POSLUCHAČ)

ZDROJ (MLUVČÍ)

Obr. 1.1: Produkce a vnímání řeči.

Ústrojí hlasové

Výdechový proud dále postupuje průdušnicí přes hrtan a nadhrtanové dutiny ven.Při průchodu hrtanem rozkmitá výdechový proud hlasivkové vazy (překážku). Kmi-tání vzduchový proud naruší tak, že se pravidelně střídá řidší vzduch s hustším avzniká tzv. základní tón. Základní tón prochází částí hrtanu nad hlasivkami, kde jedoplněn zesílením vyšších harmonických tónů. Tento složený zvuk nazýváme „hlas“.Průřez hlasovým ústrojím je znázorněn na obrázku 1.2.

Ústrojí artikulační

Z hrtanu prochází výdechový proud přes hrdelní a ústní dutinu ven retní štěrbinoua současně také přes dutinu nosní. Překážkami, které upravují výslednou řeč, jsouzde jazyk, rty a měkké patro. Artikulační ústrojí má dvě základní funkce:

1. Nadhrtanové dutiny slouží jako rezonanční prostor a při průchodu základníhotónu se zesílí jeho vyšší harmonické tóny. Zvuk, který vznikne, tvoří podstatusamohlásek.

2. Překážky vytvořené artikulačním ústrojím upraví průchod nadhrtanovými du-tinami a výdechový proud je pozměňován. Pohyb vzduchu není periodický atyto vzniklé šumy jsou podstatou souhlásek.

15

Obr. 1.2: Průřez hlasovým ústrojím [30]

16

2 PARKINSONOVA NEMOCKapitola pojednává o Parkinsonově nemoci. Stručně rozebírá historii této nemoci,příčiny jejího vzniku, příznaky, průběh a její léčbu.

2.1 DefiniceParkinsonova nemoc (PN) je definována jako neurologické onemocnění, postihujícíextrapyramidové složky regulace hybnosti. Extrapyramidový systém (EPS) je zod-povědný za udržení svalového napětí a za koordinaci pohybů.

Jedná se o pomalu postupující onemocnění, při němž mozek postiženého jedincepřestává vyrábět neurotransmiter zvaný dopamin. Se snižující se zásobou dopaminuklesá schopnost jedince kontrolovat svůj pohyb a emoce [34].

2.2 HistorieV roce 1817 popsal ve své práci An Essay on the Shaking Palsy britský chirurg JamesParkinson léčbu tzv. třaslavé obrny, později pojmenované francouzským neurologemJeanem-Martinem Charcotem1 jako Parkinsonova nemoc.

Tato esej pojednává o Parkinsonově zkušenosti se 6ti pacienty, z nichž tři, dlesvých slov, „náhodně potkal na ulici“. Detailně v ní popisuje klinické příznaky one-mocnění a je dnes považována za klenot mezi neurologickou literaturou [5].

2.3 Příčiny vzniku PNPříčiny vzniku Parkinsonovy nemoci nejsou doposud známé. Existuje několik hy-potéz jako např. genetické předpoklady nebo vliv rozpouštědel či těkavých látek,žádná z nich však uspokojivě nevysvětluje veškeré klinické příznaky a následky spo-jené s postupem nemoci [19].

2.4 Příznaky PNVýrazným příznakem Parkinsonovy nemoci je klidový třes (tremor). Tento třes,o kmitočtu zhruba 4–6 Hz, je nejnápadnější na končetinách a projevuje se tehdy,když je osoba s PN v klidu. Při pohybu tento příznak mizí. Tremor je umocněn,pokud je postižený ve stresu či při únavě [34].

11825-1893, francouzský neurolog a profesor patologické anatomie na Pařížské univerzitě [13]

17

Dalšími příznaky PN jsou svalová ztuhlost (rigidita), pohybová chudost (hypoki-neze), problémy s chůzí a zhoršená funkce řečových orgánů (hypokinetická dysartrie,viz kapitolu 3). Dostavit se mohou také tzv. vegetativní příznaky, mezi které patřínapř. nevolnost, pocení či bušení srdce [33].

2.5 Průběh PNU Parkinsonovy nemoci je zajímavým faktem, že se nešíří lineárně v čase. Na počátkunemoci je rychlost postupu nemoci vyšší a časem se zpomaluje.

Nemoc se nejčastěji začíná projevovat ve věku mezi 60.–70. rokem. PN se pro-jevuje asymetricky – začíná na jedné končetině a postupně zasáhne celou polovinutěla, během několika let se rozšíří i na druhou polovinu. První příznaky PN jsoumotorické (klidový třes, nešikovnost postiženého apod.) [24].

2.6 Léčba PNV současnosti není možné Parkinsonovu nemoc zcela vyléčit, lze však tlumit jejípříznaky. Nejznámější léčivou látkou, užívanou v souvislosti s PN, je levodopa (L-Dopa). Tato aminokyselina je prekurzorem2 dopaminu. Z tenkého střeva se vstřebávádo krevního oběhu, a poté co se dostane do mozku je přeměněna na dopamin. Kromělevodopy se používají např. léky pro zlepšení činnosti žaludku a střev, antidepresivaapod.

Kromě medikamentů je důležitou součástí léčby parkinsoniků fyzioterapie. Fy-zioterapeutická cvičení je vhodné provádět pod vedením kvalifikovaného terapeuta.Nedílnou součástí cvičení je nácvik řeči [23].

Pro úspěšnou léčbu je rovněž podstatné, aby byl pacient v dobrém psychickémstavu [26].

2látka, která je předchůdcem jiné látky při biochemických pochodech v organismu [34]

18

3 HYPOKINETICKÁ DYSARTRIEV této kapitole je vysvětlen pojem dysartrie (resp. hypokinetická dysartrie) a jsouzde popsány poruchy, které hypokinetická dysartrie způsobuje u pacientů s Parkin-sonovou nemocí.

3.1 DysartrieDysartrie je podle [25] porucha artikulace. Tato porucha se objevuje u osob, kterémají poškozené orgány sloužící k vytváření řeči (tj. mluvidla, jazyk, rty, zuby. . . )nebo u osob s porušenou inervací1 těchto orgánů či při porušení jejich koordinacesprávného postupného zapojování do tvorby řeči.

Na rozdíl od afázie2, při dysartrii dochází pouze ke zhoršení kvality výslovnosti.Vlastní tvorba řeči zůstává neporušená a význam jednotlivých slov dává smysl. Častovzniká jako následek cévní mozkové příhody či jiných onemocnění narušujících pro-ces řeči (např. obrna lícního nervu).

Hypokineze označuje pohybovou chudost. Jedná se o nedostatek volních i re-flexních pohybů [34]. Hypokinetická dysartrie (HD) je porucha motorické stránkytvorby řeči u Parkinsonovy nemoci. Podle závažnosti rozlišujeme lehký, střední atěžký stupeň poruchy [35].

3.2 Poruchy u HDPodklady pro tuto podkapitolu byly převzaty z [35].

3.2.1 Poruchy fonorespirace

V počátku PN se obvykle projevují odchylky v oblasti tvorby hlasu (fonace). Přivyšetření pacientů byl zjištěn hlasový třes, omezené, nesouměrné či pomalé chvěníhlasivek a jejich nedokonalé sevření. Podle výzkumů klesá síla hlasu u parkinsonikůrychleji než u osob bez postižení PN a rozsah výšky hlasu postižených osob bývánižší. Při hovoru s osobou s PN vnímáme její hlas jako monotónní; objevuje sehypofonie, která se projevuje nevýrazným a tichým hlasem (sníží se síla hlasu) adysfonie, kdy je hlas zastřený, chraptivý, drsný – dochází k poklesu kvality hlasu.Pacienti obtížně zesilují nebo zeslabují svůj hlas. Vyskytuje se hypernazalita, neboli„huhňavost“, která vzniká při artikulaci. Je způsobena změnou rezonance zvukuhlásek, čili se jedná o poruchu rezonance hlasu.

1zásobování části těla nervovými vlákny prostřednictvím určitého nervu [34]2porucha tvorby a porozumění řeči [34]

19

S dýcháním (respirací) velmi úzce souvisí tvorba hlasu. Respirace je tvořenanádechem (inspiria) a výdechem (expiria). Obě zmíněné fáze dýchání jsou u parkin-soniků narušeny. Hospodaření s dechem není efektivní, pacient s PN používá krátkévěty, zvyšuje rychlost mluvy, s obtížemi koordinuje dýchání a mluvení, při řeči senenadechuje správně apod.

3.2.2 Poruchy faciokineze

Pojmem faciokineze je označována svalová činnost obličeje. Snížená mimika obličeje(hypomimie) je typickým symptomem špatně fungující faciokineze. Ovlivněn je cel-kový výraz obličeje, vyjadřování emocí je pro parkinsonika obtížnější, narušena jeneverbální komunikace. Tím je zasažen každodenní život pacientů, jejich mezilidskévztahy či sociální kontakty.

V pozdějším stádiu nemoci, kdy je faciokineze silně narušena, hovoříme u par-kinsoniků o tzv. maskovitém obličeji.

3.2.3 Poruchy fonetiky

Poruchy fonetiky (viz 1.2.1) dělíme u PN na poruchy v oblasti artikulace, prozódiea plynulosti řeči.

Správná artikulace souvisí s činností svalů úst a obličeje (tj. orofaciální oblast).Studie jež zkoumaly artikulační svalstvo zjistily snížení rozsahu artikulačního sval-stva a rychlosti jejich pohybu. U parkinsoniků je v souvislosti s artikulací přítomnapředevším narušená výslovnost souhlásek. Ať už na úrovni slov, vět či delší mluvy,poruchy artikulace můžou být u pacientů s PN lehčího až těžšího rázu. Projevují senedbalou, nepřesnou výslovností se vlivem na srozumitelnost řeči. Úplná neschop-nost artikulovat se nazývá anartrie.

Mezi prozodické činitele řeči se řadí přízvuk, melodie, rychlost a pauzy. Titočinitelé výraznou měrou přispívají k vyjádření emočního ladění mluvčího, dodávajísdělení význam či zdůrazňují obsah vyjádření. Nedostatek všech zmíněných faktorůje u parkinsoniků. Řeč se stává monotónní kvůli nepřítomnosti např. větné melo-die nebo přízvuku. Rychlost řeči bývá narušena jak ve smyslu zpomalení (bradyfe-mie) tak i zrychlení (tachyfemie). Tachyfemie snižuje schopnost správně vyslovovat,v mluveném projevu ovlivňuje umisťování pauz.

Na plynulost řeči u PN mají vliv dvě formy poruch – hezitace a palilalie.Tyto poruchy se mohou vyskytovat samostatně či souběžně. Hezitace se projevujetzv. zárazy, což jsou neúmyslné a neplánované pauzy, vyskytující se kdekoli v prů-běhu mluveného projevu. Zrychlené opakování slabik na začátku, uprostřed či nakonci jednotlivých slov nebo opakování celých slov je projevem palilalie.

20

3.3 Řečová analýza HDPro řečovou analýzu HD je v klinické praxi používán tzv. Test 3F. Tento diagnostickýnástroj, jež mapuje poruchy řeči u dysartrie, byl pro český jazyk vytvořen v roce1997. Jednalo se o subjektivně stanovenou škálu řečového projevu pacientů trpícíchdysartrií, jež byla objektivně stanovena vyšetřením řečového specialisty. Závažnostdysartrie bylo poté možné pomocí Testu 3F kvantifikovat. Původní verze testu bylazjednodušena a v současnosti existuje 3. revize, která obsah testu dělí na tři soubory:faciokinezi, fonorespiraci a fonetiku [15].

21

4 PŘEDZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLUTato kapitola objasňuje důvody předzpracování řečového signálu. Popisuje metoduustřednění signálu, preemfázi a segmentaci signálu. Hlavními podklady jsou [3] a[30].

4.1 ÚvodV současnosti, zejména kvůli rychlému rozmachu internetu a informačních technolo-gií obecně, se mluvená řeč (resp. řečový signál) zpracovává výhradně číslicově. Signálse do číslicové podoby musí nejprve převést pomocí analogově-číslicového (AČ) pře-vodu (viz obr. 4.1) [29].

VZORKOVÁNÍ KVANTOVÁNÍ KÓDOVÁNÍ y[n]x(t)

Obr. 4.1: Základní schéma AČ převodu.

Při takovém převodu se vstupní spojitý signál nejprve navzorkuje, tj. převedese na signál s diskrétním časem. Diskrétní signál je poté nakvantován – jednotlivédiskrétní vzorky jsou vyjádřeny pomocí konečné množiny čísel. Při kvantizaci signáluvzniká kvantizační šum. Pomocí kódování je nakonec kvantovaný signál vyjádřenv binárním kódu (doplňkovém, inverzním aj.).

Před samotným AČ převodem je třeba signál upravit (předzpracovat), aby bylojeho další zpracování jednodušší a byl tak lépe uzpůsoben analýze. Předzpracovánířečového signálu je v anglicky psané literatuře označováno jako pre-processing.

Výsledný signál ovlivňuje mj. kvalita použitých přístrojů a jejich vlastnosti,např. odstup signálu od šumu (SNR) u mikrofonu, nebo také prostředí a jeho kmi-točtová charakteristika.

4.2 UstředněníUstřednění je chápáno jako odstranění stejnosměrné složky (DC-offset) signálu. Tatosložka nenese žádnou užitečnou informaci a může být pro další zpracování signálurušivá.

22

Ustřednění se provádí odečtením střední hodnoty od vstupního signálu. Středníhodnotu je možné vypočítat dvěma způsoby:

1. Off-line střední hodnota se použije v případě, kdy je signál, z nějž se středníhodnota počítá, konečný. Hodnota stejnosměrné složky se vypočítá jako prů-měr signálu následovně:

𝑠 = 1𝑁

·𝑁∑

𝑛=1𝑠 [𝑛] , (4.1)

kde 𝑁 značí počet vzorků signálu.2. Pokud je signál dlouhý či není ukončený a jeho hodnoty neustále přibývají,

můžeme odhadnout on-line střední hodnotu rekurzivně:

𝑠 [𝑛] = γ · 𝑠 [𝑛] − 1 + (1 + γ) · 𝑠 [𝑛] , (4.2)

kde γ → 1.

4.3 Preemfázová filtrace signáluV kmitočtovém pásmu leží značná část energie řečového signálu pod hranicí 300 Hz,avšak užitečná informace se vyskytuje nad tímto kmitočtem. Kvantizační šum, jenžvzniká při kvantizaci navzorkovaného signálu, má zhruba rovnoměrné spektrum.Jeho negativní vliv se tedy projevuje na vyšších kmitočtech složek spektra. Prvníformant 𝐹1 (viz podkapitolu 5.3) u znělých hlásek1 má navíc větší energii než ostatníformanty.

Pro kompenzaci těchto vlivů se používá filtr typu horní propusti s konečnouimpulsní odezvou (FIR), jehož přenosová funkce může být například rovna:

𝐻 (𝑧) = 1 − 𝑎1 · 𝑧−1, (4.3)

kde 𝑎1 ∈ ⟨0, 9; 1⟩.

4.4 SegmentaceSignál řeči je považován za náhodný. To může být při jeho zpracování problém, pro-tože pro metody odhadu parametrů signálu jsou potřeba signály stacionární, tedytakové signály, jejíž libovolné statistické charakteristiky nejsou závislé na umístěnípočátku časové osy. Je proto nezbytné signál rozdělit na kratší úseky (rámce, seg-menty), ve kterých můžeme signál za stacionární považovat.

1např. samohlásky, jedinečné souhlásky

23

U rámců je sledována jejich délka (typicky 20–25 ms), překrytí (to u rámců můžeči nemusí být) a posun rámce. Pro získání jednotlivých rámců ze signálu je nutné po-užít okénkové funkce (windowing function). V pre-processingu se používá pravoúhléokno (rectangular), jež signál nijak neupravuje (pouze jej „vystřihne“) nebo Ham-mingovo okno (dochází k utlumení signálu na jeho okrajích). Hammingovo okno jedefinováno následovně [9]:

ℎh [𝑛] = 0, 54 − 0, 46 · cos(2 · π · 𝑛

𝑁

)pro 0 ≤ 𝑛 < 𝑁, (4.4)

kde 𝑛 je aktuální vzorek a 𝑁 značí délku okna.Funkce Hammingova i pravoúhlého okna v čase je zobrazena na obr. 4.2.

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

t [ms]

ampl

ituda

[−]

pravoúhlé oknoHammingovo okno

Obr. 4.2: Srovnání pravoúhlého a Hammingova okna.

Nasegmentovaný signál je nutno složit pokud má být dále upravován. Syntézase provádí buď metodou odstranění přesahu nebo metodou přičtení přesahu – ta sepoužívá častěji.

24

5 PARAMETRIZACE ŘEČOVÉHO SIGNÁLUKapitola se věnuje parametrům, jež dokáží vyjádřit vlastnosti řečového signálu apopisuje jejich výpočet. Kromě fonačních parametrů se zabývá koeficienty MFCC aPLP, které berou v úvahu vlastnosti lidského sluchu.

5.1 Fonační parametryAby bylo možné řečový signál analyzovat, je nutné jej parametricky vyjádřit. K tomuslouží tzv. fonační parametry. Nejvýznamějším fonačním parametrem je základní tónřeči [22].

Základní tón řeči je reprezentován fundamentálním kmitočtem 𝐹0, který vyja-dřuje výšku hlasu mluvčího. Tento kmitočet se nalézá obvykle v kmitočtovém pásmu60–400 Hz [30]. Pro získání jeho hodnoty v časové oblasti se užívá metoda krátko-dobé autokorelační funkce (ACF) a její modifikace. Vzorec pro výpočet ACF vypadánásledovně:

𝑅𝑛 (𝑚) =∞∑

𝑘=−∞𝑠 (𝑘) · 𝑤 (𝑛 − 𝑘) · 𝑠 (𝑘 + 𝑚) · 𝑤 (𝑛 − 𝑘 − 𝑚) , (5.1)

kde 𝑤(𝑛) je pravoúhlé nebo Hammingovo okno. Fundamentální kmitočet základníhotónu řeči může být u některých jedinců nižší než 100 Hz a proto je vhodné použítdostatečně široké okno (cca 20–40 ms). Funkce ACF využívá periodičnosti signálu;dosahuje maximálních hodnot v časech 𝑚 = 𝑇0

𝑇, 2·𝑇0

𝑇, 3·𝑇0

𝑇. . . , a proto je možné vy-

počítat 𝐹0 následovně:𝐹0 = 𝑓vz

𝐾(Hz) , (5.2)

kde 𝐾 označuje polohu prvního vrcholu. Kromě časové oblasti lze detekovat funda-mentální kmitočet 𝐹0 také ve spektrální nebo kepstrální oblasti. Pro obě oblasti sevyužívá algoritmu FFT.

Dalším parametrem je intenzita (příp. amplituda či energie), reprezentující hla-sitost mluvčího. Pro výpočet krátkodobé energie signálu lze využít vztahu:

𝐸 = 1𝑁

·𝑁−1∑𝑛=0

|𝑥[𝑛]|2 . (5.3)

Rovnice 5.3 platí pro jeden rámec řečového signálu. Pro výpočet intenzity lze takévyužít Teagerův Kaiserův energetický operátor (TKO) [14], který je počítán procelý signál následovně:

Ψ (𝑥 [𝑛]) = 𝑥2 [𝑛] − 𝑥 [𝑛 + 1] · 𝑥 [𝑛 − 1] . (5.4)

25

Mezi fonační parametry se také řadí doba trvání, která představuje délku jed-notlivých řečových segmentů jako např. hlásek či fonémů.

Vlastnosti hlasového traktu, které výše uvedené parametry vyjadřují, se označujítermínem prozódie. Jedná se o tzv. suprasegmentální vlastnosti, které se zaobírajídelšími úseky řeči (v řádu stovek ms).

5.2 Koeficienty zohledňující vlastnosti sluchovéhoústrojí

Mezi parametry, které při výpočtu berou v potaz vlastnosti sluchového ústrojí jsouřazeny Melovské kepstrální koeficienty (MFCC) a Percepční lineární predikční koefi-cienty (PLP) [30]. Tyto parametry vyjadřují segmentální vlastnosti hlasového traktua pro jejich výpočet se užívá krátkých řečových úseků (20–30 ms).

MFCC i PLP zohledňují tzv. maskování. Kmitočtové maskování je způsobenorozdílem intenzit dvou zvuků, které současně přicházejí do sluchového orgánu. Zvuks vyšší intenzitou zasytí smyslové buňky na určitém kmitočtu, které tak nejsouschopné přijmout další podráždění. Vjem zvuku s nižší intenzitou je poté zeslabenči úplně potlačen. Jev maskování je možné pozorovat také chvíli před zazněnímmaskovacího zvuku a také chvíli po jeho odznění. Tento typ se nazývá jako dočasnémaskování [28].

Níže uvedené koeficienty berou v potaz také subjektivní výšku tónu vzniklou nazákladě pozorování. Její jednotkou je mel a na kmitočtu je nelineárně závislá. Harmo-nický signál s kmitočtem 1000 Hz a hladině hlasitosti 40 fónů odpovídá subjektivnívýšce 1000 melů.

5.2.1 Melovské kepstrální koeficienty

K získání Melovských kepstrálních koeficientů je třeba převést kmitočtovou osu spek-tra řečového signálu z jednotek Hz na jednotky mel. Z takto upraveného spektra sepoté vypočítá reálné kepstrum. Postup pro výpočet MFCC je následující [9]:

Nejprve na signál aplikujeme segmentaci signálu (viz podkapitolu 4.4) s vhodnězvoleným typem okna. Délka rámce závisí na typu zpracování (obvykle 10–30 ms).Použití preemfázové filtrace signálu (viz podkapitolu 4.3) není vyžadováno.

Na jeden rámec 𝑥 [𝑛] je použita rychlá Fourierova transformace (FFT), díky nížse získá obraz diskrétní Fourierovy transformace (DFT) rámce:

𝑋 [𝑘] =𝑁−1∑𝑛=0

𝑥 [𝑛] · e−j·𝑘 · 2·π𝑁

·𝑛, (5.5)

kde 𝑘 = 0, 1, ..., 𝑁 − 1.

26

Pomocí banky kmitočtových filtrů jsou vyjádřeny nelineární vlastnosti řečovéhosignálu a maskování. Tyto filtry mají trojúhelníkovou modulovou kmitočtovou cha-rakteristiku. Zpracovávané kmitočtové pásmo je nejdříve převedeno ze stupnice v Hzna stupnici v melech [11]:

𝑓m = 2595, 0375 · log(

1 + 𝑓

700

)(mel) , (5.6)

a poté jsou do tohoto kmitočtového pásma rovnoměrně rozmístěny trojúhelníkovéfiltry. Díky převodu na melovskou stupnici je banka filtrů nerovnoměrně rozložena naHz škále a rovnoměrně na melovské škále. Kmitočtové charakteristiky jednotlivýchfiltrů je možné definovat následovně:

𝐻m [𝑘] =

⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩0, pro 𝑘 < 𝑓 [𝑚 − 1] ∨ 𝑘 > 𝑓 [𝑚 − 1]1, pro 𝑓 [𝑚 − 1] ≤ 𝑘 ≤ 𝑓 [𝑚]2, pro 𝑓 [𝑚] ≤ 𝑘 ≤ 𝑓 [𝑚 + 1]

, (5.7)

kde 𝑓 [𝑚] značí hraniční kmitočty filtrů zvolené banky.Dále je nutné stanovit výkonové spektrum spektra řečového signálu |𝑋[𝑘]|2.

Spektrum násobíme postupně filtry 𝐻m [𝑘] z banky filtrů. Výkon spektra pro jed-notlivé filtry lze získat zlogaritmováním filtrovaného výkonového spektra:

𝑌 [𝑚] = ln[

𝑁−1∑𝑘=0

|𝑋 [𝑘]|2 · 𝐻m [𝑘]]

, 0 < 𝑚 ≤ 𝑀. (5.8)

Pro získání výsledných koeficientů MFCC je třeba na výkon spektra 𝑌 [𝑚] použítzpětnou DFT:

𝑐 [𝑛] =𝑀−1∑𝑚=0

𝑌 [𝑚] · cos[π · 𝑛

𝑀·(

𝑚 − 12

)], 𝑛 = 0, 1, . . . 𝑀 − 1. (5.9)

Počet melovských kepstrálních koeficientů, které je možné ve zpracování signálureálně využít se liší podle toho, k čemu budou využity. K rozpoznávání řeči se užíváprvních 13 koeficientů MFCC [22].

5.2.2 Percepční lineární predikční koeficienty

Při výpočtu Percepčních lineárních predikčních koeficientů dochází k předzpraco-vání řečového signálu podobně, jako tomu je u lidského sluchu. Jsou zde zahrnutymaskování, subjektivní hlasitost zvuku a křivky stejné hlasitosti. Samotný výpočetkoeficientů vychází z lineární predikční analýzy [8].

Stejným způsobem jako u MFCC (viz podkapitolu 5.2.1) je řečový signál nejprvesegmentován a poté je pro získání spektra jednoho rámce 𝑥 [𝑛] nejprve provedena

27

FFT dle vzorce 5.5. Dále je třeba odhadnout krátkodobé výkonové spektrální hustotyjednoho rámce:

𝑃 [𝑘] = |𝑋 [𝑘]|2 = Re2{𝑋 [𝑘]} + Im2{𝑋 [𝑘]}, 𝑘 = 0, 1, ..., 𝑁 − 1. (5.10)

Index 𝑘 zde označuje diskrétní hodnotu kmitočtu 𝜔 · 𝑘 = 2 · π · 𝑓 · 𝑘, kde 𝑘 =0, 1, . . . , 𝑁 − 1.

Pro zohlednění vlivů maskování je nezbytné převést pomocí nelineání transfor-mace kmitočtovou osu z hodnot v Hz na hodnoty tzv. barkovy stupnice, jejíž základníjednotkou je bark. Na bazilární membráně existují tzv. kritická kmitočtová pásma,na kterých dochází k maximálnímu rozkmitu membrány. V oblasti slyšitelnosti exis-tuje takových pásem 24 a barková stupnice určuje podle dolních kmitočtů 𝑓d pásemjejich pořadí. Převodní funkce 𝑓bark = 𝑓 (𝑓Hz) bývá označována jako critical-bandrate a má tvar:

𝑓bark = 13 · arctan(7, 6 · 10−4 · 𝑓Hz

)+ 3, 5 · arctan

[(𝑓

7, 5 · 103

)](bark) . (5.11)

V tabulce 5.1 jsou vypočítány odpovídající hodnoty dolních pásem barkové stupnicev Hz [6].

Tab. 5.1: Převodní tabulka mezi 𝑓Hz a 𝑓bark [6]

𝑧 (bark) 𝑓d (Hz) 𝑧 (bark) 𝑓d (Hz)0 0 13 20001 100 14 23202 200 15 27003 300 16 31504 400 17 37005 510 18 44006 630 19 53007 770 20 64008 920 21 77009 1080 22 950010 1270 23 1200011 1480 24 1550012 1720

Banka filtrů u PLP, kterou je potřeba podobně jako u výpočtu MFCC vytvořit,obsahuje filtry typu pásmová propust s lichoběžníkovou modulovou kmitočtovoucharakteristikou, které jsou umístěny lineárně v barkové stupnici. Lidské ucho je

28

různě citlivé pro různé oblasti kmitočtového spektra řečového signálu. Z toho důvoduje třeba provést vážení modulů barkových filtrů pomocí křivek stejné hlasitosti (vizobr. 5.1)1. Potom budou jednotlivé pásmové propusti mít tvar:

𝐻′

𝑚 (𝜔p) = 𝐸 (𝜔) · 𝐻𝑚 (𝜔bark − 𝜔bark,stř) , (5.12)

kde 𝜔bark −𝜔bark,stř = 2 ·π ·𝑓bark,stř je střední kmitočet v barcích 𝑚–tého filtru kritic-kého pásma a 𝐻𝑚 je přenosová funkce původního filtru. Funkce 𝐸 (𝜔) je aproximacícitlivosti lidského sluchu na různých frekvencích, která simuluje citlivost sluchu naúrovni 40 dB a má tvar:

𝐸 (𝜔) = (𝜔2 + 56, 8 · 106) · 𝜔4

(𝜔2 + 6, 3 · 106)2 · (𝜔2 + 0, 38 · 109). (5.13)

102

103

104

0

20

40

60

80

100

120

f [Hz]

hlad

ina

inte

nzity

aku

stic

kého

tlak

u [d

B]

20 fonu

30 fonu

40 fonu

50 fonu

60 fonu

70 fonu

80 fonu

Obr. 5.1: Křivky stejné hlasitosti podle normy ISO 226:2003 [12]

Pro získání nového odhadu výkonové spektrální hustoty se výkonová (krátko-dobá) spektrální hustota jednoho rámce (vypočtená pomocí vztahu 5.10) vynásobíjednotlivými přenosovými funkcemi barkových filtrů. Jednotlivé filtry poté budoumít tvar:

𝑃′ [𝑚] =

𝑀−1∑𝑘=0

𝑃 [𝑘] · 𝐻′

m [𝑘] , 𝑚 = 0, 1, . . . 𝑀 − 1, (5.14)

1vytvořené pomocí skriptu programu MATLAB převzatého z [10]

29

kde 𝑀značí počet barkových filtrů a 𝑁 počet složek krátkodobé výkonové spektrálníhustoty jednoho rámce řečového signálu. Před výpočtem zpětných časových vzorkůjednoho rámce řeči je třeba vzít v potaz vztah mezi intenzitou zvuku a vnímanouhlasitostí:

𝑆 [𝑚] =(𝑃

′ [𝑚]) 1

3 , 𝑚 = 0, 1, . . . 𝑀 − 1, (5.15)a poté je už možné zmíněné vzorky vyjádřit pomocí DFT:

𝑠 [𝑛] = 1𝑀

·𝑀−1∑𝑘=0

𝑆 [𝑘] · ej·𝑘· 2·π𝑀

·𝑚, 𝑚 = 0, 1, . . . 𝑀 − 1. (5.16)

Konečně lze provést samotný výpočet koeficientů PLP. K výpočtu je možné užítnormální rovnice, resp. jejich řešení pomocí autokorelační posloupnosti 𝛾 [𝑛]:

𝑝∑𝑖=0

𝑎𝑝 [𝑖] · 𝛾 [𝑗 − 𝑖] = 𝐸𝑓𝑝 pro 𝑗 = 0, (5.17)

𝑝∑𝑖=0

𝑎𝑝 [𝑖] · 𝛾 [𝑗 − 𝑖] = 0 pro 𝑗 = 1, 2, . . . 𝑝, 𝑎𝑝 [0] = 1. (5.18)

5.3 FormantyFormanty patří mezi segmentální parametry. Jedná se o kmitočty na kterých docházík rezonanci v nadhrtanových dutinách. Různé hlásky mají různá umístění formantů.Na obrázku 5.2 je znázorněn Hellwagův trojúhelník, který zobrazuje rozdělení sa-mohlásek dle svislého a vodorovného pohybu jazyka. Na obrázku je také zaznačeno,jak pohyb jazyka ovlivňuje první tři formanty 𝐹1, 𝐹2 a 𝐹3.

I U

E O

A

F2, F3

F1

Obr. 5.2: Hellwagův trojúhelník

Pro kmitočty formantů se provádí odhad pomocí pólů syntetizujícího filtru 𝐻(𝑧).Přenosová funkce 𝐻(𝑧) je tvořena pomocí lineárně predikčních koeficientů (LPC):

𝐻 (𝑧) = 1

1 +𝑝∑

𝑖=1𝑎𝑝 [𝑖] · 𝑧−1

, (5.19)

30

kde 𝑝 označuje řád lineární predikce. Optimální řád predikce lze vypočíst pomocívztahu:

𝑝 =⌊

𝑓𝑣𝑧

1000

⌋+ 2. (5.20)

Odhadovaný formant (tj. pól) má komplexní tvar:

𝑧 = |𝑧| · e𝑗·𝜙, (5.21)

kde 𝜙 značí argument pólu a nabývá hodnot ⟨−π;π⟩. Pro kmitočet odhadovanéhoformantu platí následující rovnice:

𝐹𝑥 = 𝜙

2 · π· 𝑓𝑣𝑧 (Hz) , (5.22)

kde 𝑥 značí číslo formantu a šířku pásma lze vypočíst podle:

𝐹𝑥BW = − ln |𝑧|2 · π

· 𝑓𝑣𝑧 (Hz) . (5.23)

Pro odhadovaný pól 𝑧 musí platit, že leží v kladné poloose jednotkové kružnice.Další možností je použití metody založené na vyhledávání vrcholu spektrální

obálky [30].

31

6 POST-PROCESSING PARAMETRŮNěkteré z parametrů, získaných analýzou řeči (viz kapitolu 5), mohou být ve vek-torovém či maticovém formátu. Takto vyjádřená data jsou ovšem ve vektorovém čimaticovém formátu (kvůli segmentaci signálu atd.) a proto jsou nevhodná pro dalšízpracování – statistickou analýzu dat. Proto je nezbytné vyjádřit statistické vlast-nosti těchto parametru pomocí jednoduchých popisných statistik. Zpracovaná databudou vyjádřena pomocí následujících popisných statistik:

• střední hodnota (��),• medián (𝑥),• směrodatná odchylka (𝜎),• rozptyl (𝜎2),• střední absolutní odchylka (MAD),• maximum (max),• minimum (min),• mezikvartilové rozpětí (IQR),• 1. kvartil (Q1),• 3. kvartil (Q3),• koeficient šikmosti (𝛾1),• koeficient špičatosti (𝛾2).Výše uvedené statistiky jsou pouhými odhady hodnot, protože jsou počítány

z omezeného vzorku dat.

32

7 STATISTICKÁ ANALÝZA PARAMETRŮV této kapitole jsou rozebrány poznatky z oblasti statistické analýzy. Základnímpramenem pro tuto kapitolu je [27].

7.1 Korelační analýzaKorelační analýza vyjadřuje sílu vztahu mezi dvěma (či více) proměnnými. Jejím cí-lem je určit do jaké míry lze předpovědět hodnocení subjektu dané proměnné, pokudje známé hodnocení subjektu jiné proměnné. Výsledná hodnota korelační analýzy –korelační koeficient – leží obvykle v intervalu ⟨0; 1⟩, kde hodnota 0 značí, že mezitestovanými proměnnými neexistuje žádný statistický vztah a hodnota 1 indikujemaximální míru vztahu testovaných proměnných. Čím více se hodnota korelace blížík 1, tím přesněji může být předpovězeno hodnocení subjektu jedné proměnné z hod-nocení subjektu druhé proměnné.

7.1.1 Pearsonův korelační koeficient

Pearsonův korelační koeficient 𝑟p vyjadřuje míru lineární závislosti mezi dvěma pro-měnnými. Nabývá hodnot z intervalu ⟨−1; 1⟩. Čím větší je absolutní hodnota Pear-sonova korelačního koeficientu, tím jsou více jsou na sobě proměnné lineárně závislé(resp. nezávislé). Znaménko korelačního koeficientu určuje, zda je vztah mezi pro-měnnými lineární („+“) či nelineární („−“).

Pokud dvě proměnné 𝑋 a 𝑌 mají 𝑛 hodnot, lze Pearsonův korelační koeficientvypočítat následovně:

𝑟p =

𝑛∑𝑖=1

𝑋𝑖 · 𝑌𝑖 −

𝑛∑𝑖=1

𝑋𝑖 · 𝑌𝑖

𝑛⎯⎸⎸⎸⎸⎸⎸⎸⎸⎷

⎡⎢⎢⎢⎢⎢⎣𝑛∑

𝑖=1𝑋2

𝑖 −

(𝑛∑

𝑖=1𝑋𝑖

)2

𝑛

⎤⎥⎥⎥⎥⎥⎦ ·

⎡⎢⎢⎢⎢⎢⎣𝑛∑

𝑖=1𝑌 2

𝑖 −

(𝑛∑

𝑖=1𝑌𝑖

)2

𝑛

⎤⎥⎥⎥⎥⎥⎦

. (7.1)

Vypočtená hodnota 𝑟p z rovnice 7.1 je pouze odhadem skutečného Pearsonovakorelačního koeficientu. Pro zjištění existence korelačního vztahu mezi testovanýmiproměnnými je třeba koeficient 𝑟p testovat (viz podkapitolu 7.3).

Na obrázku 7.1 je zobrazení hodnot dvou testovaných souborů 𝑋 a 𝑌 pro nízkouhodnotu Pearsonova korelačního koeficientu. Hodnoty souborů pro vysoký Pearso-nův korelační koeficient jsou na obrázku 7.2.

33

7.1.2 Spearmanův korelační koeficient

Z Pearsonova korelačního koeficientu vychází další korelační koeficient - Spearmanůvkorelační koeficient 𝑟s - jež vyjadřuje míru monotónnosti mezi dvěma proměnnými.Hodnota Spearmanova korelačního koeficientu spadá do intervalu ⟨−1; 1⟩ a, podobnějako u Pearsonova korelačního koeficientu, značí absolutní hodnota koeficientu síluvazby (tj. monotónnost). Dle znaménka koeficientu lze určit, zda je vztah mezi pro-měnnými monotónně vzrůstající („+“) nebo monotónně klesající („−“).

Nechť jsou hodnoty každé z proměnných 𝑋 a 𝑌 seřazeny vzestupně a každéhodnotě je přiděleno pořadí. Za předpokladu, že 𝑑𝑖 značí rozdíl ohodnocení 𝑖–týchhodnot, platí pro výpočet Spearmanova korelačního koeficientu rovnice:

𝑟s = 1 −6 ·

𝑛∑𝑖=1

𝑑2𝑖

𝑛 · (𝑛2 − 1) , (7.2)

kde 𝑛 je počet hodnot proměnných. Vypočtená hodnota 𝑟s je porovnána s kritickýmihodnotami Spearmanova korelačního koeficientu 𝑟s(𝛼,𝑛) pro dané 𝑛 a zvolenou chybu𝛼. V případě, že platí |𝑟s| > 𝑟s(𝛼,𝑛) je Spearmanův korelační koeficient významný nachybové hladině 𝛼, tzn. že byla prokázána vzájemná korelace zkoumaných proměn-ných.

Obrázek 7.1 znázorňuje rozložení hodnot dvou testovaných souborů 𝑋 a 𝑌 s níz-kou hodnotou Spearmanova korelačního koeficientu. Na obrázku 7.2 je zobrazeníhodnot souborů pro vysoký Spearmanův korelační koeficient.

7.2 Vzájemná informaceVzájemná informace (angl. mutual information) je množství informace, kterou ná-hodně zvolená proměnná obsahuje o jiné náhodné proměnné. Jedná se o sníženínejistoty (neurčitosti) náhodné proměnné vzhledem ke znalosti jiné proměnné. Vzá-jemná informace úzce souvisí s entropií (mírou neurčitosti systému), resp. s relativníentropií, která vyjadřuje vzdálenost mezi dvěma rozděleními pravděpodobnosti. En-tropie diskrétní náhodné proměnné 𝑋 je definována:

𝐻 (𝑋) = −𝑁∑

𝑛=1𝑝(𝑛) · log2 𝑝(𝑛) (bit), (7.3)

kde 𝑁 značí počet vzorků proměnné 𝑋 a 𝑝(𝑛) je pravděpodobnostní funkce pro-měnné 𝑋. Relativní entropii lze vyjádřit následovně:

𝐷 (𝑝||𝑞) = 𝐸𝑝 · log 𝑝(𝑋)𝑞(𝑋) , (7.4)

34

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Pearson r=−0.0864, Spearman rs=−0.084

X1

X2

Obr. 7.1: Nízké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s

−2 −1 0 1 2 3 4 5−4

−2

0

2

4

6

8

10

Pearson r=0.9194, Spearman rs=0.8978

X1

X2

Obr. 7.2: Vysoké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s

kde 𝐸𝑝 je střední hodnota rozdělení pravděpodobnosti.Vzájemná informace je pomocí rovnice 7.4 definována jako:

𝐼 (𝑋; 𝑌 ) = 𝐸𝑝(𝑥,𝑦) · log 𝑝 (𝑋, 𝑌 )𝑝 (𝑋) · 𝑝 (𝑌 ) , (7.5)

kde 𝑋 a 𝑌 značí náhodné proměnné, a 𝑝(𝑋, 𝑌 ) je sdružená pravděpodobnostní

35

funkce proměnných 𝑋 a 𝑌 . Pro vyjádření souvislosti mezi vzájemnou informací aentropií lze vztah 7.5 přepsat do tvaru:

𝐼 (𝑋; 𝑌 ) =∑𝑥,𝑦

𝑝 (𝑥, 𝑦) · log 𝑝 (𝑋, 𝑌 )𝑝 (𝑋) · 𝑝 (𝑌 ) , (7.6)

a po numerických úpravách rovnice 7.6 je možné získat vztah mezi vzájemnou in-formací a entropií:

𝐼 (𝑋; 𝑌 ) = 𝐻 (𝑋) − 𝐻 (𝑋|𝑌 ) . (7.7)

H(X|Y) H(Y|X)I(X;Y)

H(X) H(Y)

H(X, Y)

Obr. 7.3: Vztah mezi vzájemnou informací a entropií

Na obrázku 7.3 je pomocí Vennova diagramu znázorněn vztah mezi vzájemnouinformací a entropií [2].

7.3 Parametrické a neparametrické statistickétesty

Hypotéza je definována jako tvrzení o rozdělení pozorované náhodné veličiny. Pokudje takové rozdělení známé, je možno formulovat hypotézu jako tvrzení o hodnotěparametru příslušného rozdělení. Hypotéza se týká celého základního souboru ježje zkoumán. Statistický test je postup, který na vybrané (testované) podmnožinězákladního souboru zjišťuje platnost statistické hypotézy [31].

Vstupní data statistických testů mají formát určité škály. Nominální škála třídídata do jednotlivých, vzájemně se vylučujících, kategorií. Tato škála poskytuje mini-mum informací. Seřadit měřené jevy lze pomocí pořadové škály. U takto seřazenýchdat je možné pouze porovnat, zda je jev A větší než jev B. Větší množství informaceposkytují metrická škálování. Intervalové škálování přiřazuje jevům číselné hodnoty.Toto škálování umožňuje lineární transformaci jako jedinou povolenou transformaci;číselná hodnota nemůže být vyjádřena jako zlomek či násobek. Nejvyšší forma mě-ření je umožněna poměrovou škálou, u níž je jedinou povolenou transformací náso-bení konstantou [30].

36

Statistické testy, jež používají data v intervalové či poměrové škále, jsou označo-vány jako parametrické testy. Tyto testy předpokládají Gaussovo normální roz-ložení dat. Hypotézy se týkají parametrů normálního rozdělení střední hodnoty 𝜇 arozptylu 𝜎.

Naproti tomu testy pracující se vstupními daty v nominální (jmenovité) nebov pořadové škále jsou nazývány neparametrickými testy. Pracují se soubory dat,které mají neznáme rozdělení. U takových souborů je testována tzv. nulová hypotéza,jež vyjadřuje nulový rozdíl mezi testovanými soubory dat.

7.3.1 Studentův t-test

Studentův t-test je parametrický statistický test, užívaný pro testování rozdílu dvoustředních hodnot 𝜇. Dle typu vstupních dat se Studentův t-test dělí na:

• Jednovýběrový t-test – předpokládá známou střední hodnotu 𝜇 u základ-ního souboru hodnot, která je považována za konstantu. Poté je ověřovánahypotéza 𝐻0 : 𝜇 = konst., zda náhodný výběr hodnot z testovaného souborumá střední hodnotu shodnou s danou konstantou.Pro výpočet kritéria t jednovýběrového t-testu je třeba vypočítat odhad smě-rodatné odchylky výběru hodnot testovaného souboru:

𝜎 =

⎯⎸⎸⎸⎸⎸⎸⎸⎸⎷𝑛∑

𝑖=1𝑋𝑖

2 −

(𝑛∑

𝑖=1𝑋𝑖

)2

𝑛

𝑛 − 1 , (7.8)

kde 𝑛 je počet členů výběrového souboru a 𝑋𝑖 je hodnota 𝑖–tého člena výběro-vého souboru. Dále je třeba zjistit standardní chybu průměru výběru hodnottestovaného souboru pomocí vztahu:

𝑠�� = 𝜎√𝑛

. (7.9)

Pro kritérium t jednovýběrového t-testu poté platí rovnice:

𝑡 = �� − 𝜇

𝑠��

, (7.10)

kde �� označuje aritmetický průměr výběrového souboru.• Dvouvýběrový t-test – jedná se o porovnání dvou výběrových souborů, kdy

není známa střední hodnota základního výběru. Tento typ testu se dále dělína párový pro dvě měření jednoho výběrového souboru (typicky před a poaplikaci pokusného zásahu) a nepárový, kdy jsou porovnávány dva nezávislévýběrové soubory. Testuje se hypotéza 𝐻0 : 𝜇1 = 𝜇2. Postup je analogický

37

k jednovýběrovému t-testu, je nezbytné dle vztahu 7.8 vypočítat hodnoty 𝜎1

a 𝜎2 a dle vztahu 7.9 hodnoty 𝑠𝑋1 a 𝑠𝑋2 . Poté pro kritérium t dvouvýběrovéhopárového t-testu platí:

𝑡 = 𝑋1 − 𝑋2√𝜎2

1𝑛1

+ 𝜎22

𝑛2

, (7.11)

a pro kritérium t dvouvýběrového nepárového t-testu platí:

𝑡 = 𝑋1 − 𝑋2√[ (𝑛1−1)·𝜎21+(𝑛2−1)·𝜎2

2𝑛1+𝑛2−2

]·[

1𝑛1

+ 1𝑛2

] . (7.12)

Pokud je při výpočtu jakákoliv hodnota 𝜎 nebo 𝑠�� menší než 0, nastala přivýpočtu chyba a výsledná hodnota kritéria t je neplatná.

Pro vyhodnocení Studentova t-testu je nutné vypočítat stupeň volnosti:

𝑑𝑓 = 𝑛 − 1, (7.13)

kde 𝑛 značí počet hodnot výběrového souboru. Vypočtené kritérium t je poté porov-náno s kritickou tabulkovou hodnotou Studentova t-testu 𝑡1− 𝛼

2 ,𝑑𝑓 (viz přílohu C.1),kde 𝛼 značí hladinu významnosti volenou z hodnot 0, 01 nebo 0, 05. Pokud platí𝑡 ≤ 𝑡1− 𝛼

2 ,𝑑𝑓 mají testované parametry statisticky nevýznamný rozdíl a hypotéza𝐻0 je platná. V případě, že 𝑡 > 𝑡1− 𝛼

2 ,𝑑𝑓 je mezi testovanými parametry statistickyvýznamný rozdíl při 𝛼 = 0, 05 a statisticky vysoce významný rozdíl při 𝛼 = 0, 01a hypotézu 𝐻0 nelze proto přijmout [1].

7.3.2 Mann–Whitneyův U test

Neparametrický Mann–Whitneyův U test zkoumá hypotézu, zda 1. veličina odpo-vídající pokusnému zásahu „A“ a 2. veličina odpovídající pokusnému zásahu „B“mají shodná rozdělení pravděpodobností. Jedná se o párový test – jsou porovnáványdva výběrové soubory.

Nejprve je nutné uspořádat měření obou veličin (tzv. směsný výběr) podle ve-likosti vzestupně a poté jsou měřením přiřazena pořadí od 1 do 𝑛, kde 𝑛 je početčlenů směsného výběru. V případě shody hodnot směsného výběru je takovýmtohodnotám přiřazeno průměrné pořadí. Pro zjednodušení je vhodné vypočítat součtypořadí jednotlivých veličin:

𝑅𝐴 =𝑛1∑𝑖=1

𝑅1𝑖, 𝑅𝐵 =

𝑛2∑𝑖=1

𝑅2𝑖, (7.14)

38

kde 𝑛1 (resp. 𝑛2) je počet členů 1. veličiny (resp. 2. veličiny) a 𝑅1𝑖(resp. 𝑅2𝑖

) je 𝑖–tépořadí 1. veličiny (resp. 2.veličiny). Pro výpočet dílčích U kritérií platí vztahy:

𝑈1 = 𝑛1 · 𝑛2 + 𝑛1 · (𝑛1 + 1)2 − 𝑅𝐴, 𝑈2 = 𝑛1 · 𝑛2 + 𝑛2 · (𝑛2 + 1)

2 − 𝑅𝐵. (7.15)

Z dílčích kritérií 𝑈1 a 𝑈2 je třeba zvolit testovací kritérium U následovně:

𝑈 = min (𝑈1, 𝑈2) . (7.16)

Podobně jako u Studentova t-testu (viz podkapitolu 7.3.1) je nezbytné zvolit hladinuvýznamnosti 𝛼. Hodnota kritéria U je poté porovnávána s tabulkovou hodnotouMann-Whitneyova U testu 𝑈(𝛼,𝑛1,𝑛2) (viz přílohyC.2, C.3, C.4 a C.5). Pokud platí𝑈 < 𝑈(𝛼,𝑛1,𝑛2) je hypotéza 𝐻0 o shodnosti rozdělení veličin 𝑋 a 𝑌 zamítnuta. Pro𝑈 > 𝑈(𝛼,𝑛1,𝑛2) není možné hypotézu 𝐻0 zamítnout [1].

39

8 BLOKOVÉ SCHÉMA SYSTÉMUNávrh systému uvedený na obr. 8.1 vychází z poznatků předchozích kapitol.

PRE-PROCESSING(USTŘEDNĚNÍ, PREEMFÁZE)

SEGMENTACE

PARAMETRIZACEPOST-PROCESSING(PRŮMĚROVÁNÍ,

MEDIÁN )

STATISTICKÁ ANALÝZA (KORELAČNÍ,

INFORMAČNÍ, (NE)PARAMETRICKÉ

METODY )

VSTUPNÍ DATA

VÝSTUPNÍ DATA

Obr. 8.1: Blokové schéma systému statistického zpracování

Na vstupní data (sada řečových cvičení ve formátu WAV) je aplikováno předzpra-cování signálu pomocí ustřednění a preemfáze. Předzpracovaný signál je dále seg-mentován – rozdělen na rámce dané velikosti. Jednotlivé rámce řečového signálujsou poté vyjádřeny pomocí parametrů (fonačních, MFCC, PLP atd.) a parametryve vícerozměrném formátu, tj. vektory či matice, jsou převedeny na formát jedno-rozměrný. Upravené parametry jsou poté podrobeny metodám statistické analýzy,jejichž výsledky jsou výstupní data systému.

40

9 PRAKTICKÁ ČÁSTKapitola popisuje zpracování řešeného problému, čili vytvoření systému pro zpra-cování řečového signálu. Tento systém (viz blokové schéma na obrázku 8.1) bylvytvořen pomocí programu MATLAB. Hlavní skript systému je soubor System.m.

9.1 Vstupní dataJako vstupní data byly použity nahrávky poskytnuté vedoucím práce Ing. ZoltánemGalážem. Jednalo se o nahrávky z 3F testu (viz podkapitolu 3.3), konkrétně na-hrávky prodloužených fonací samohlásek, tzn. á, é, í, ó, ú.

Databáze byla nahrávaná na 1. neurologické klinice Lékařské fakulty Masarykovyuniverzity a Fakultní nemocnice u sv. Anny v Brně v České Republice. Mateřský ja-zyk všech řečníků je čeština. Databáze obsahuje celkem 152 nahrávek, z toho je 53zdravých řečníků a 101 pacientů s PN. U zdravých řečníků je 27 žen a 26 mužů,u pacientů s PN je 41 žen a 60 mužů. Vzorkovací kmitočet nahrávek je 16 kHz.Z důvodu nedokonalosti nahrávek, způsobenými např. hlukem na pozadí, byly ně-které nahrávky z databáze vyřazeny. Počet takovýchto nahrávek se pohyboval v řádujednotek.

Fonace samohlásek patří mezi nejpoužívanější řečová cvičení, sloužící pro popisHD, protože do procesu tvorby hlasu nevstupují lingvistické charakteristiky řeči.Pro účely tvorby robustního a lingvisticky nezávislého popisu HD bylo v této prácivybráno pět prodloužených fonací českých samohlásek a-u.

9.2 PředzpracováníVstupní data byla ustředněna funkcí x = offsetRemoval(x) a poté byla na ně po-užita preemfázová filtrace (funkce x = preemphasis(x)). Pro preemfázový filtr bylazvolena hodnota parametru 𝛼 = 0, 92. Takto předzpracovaná data byla nasegmen-tována funkcí X = segmentation(x, winlen, winover) s délkou okna 20 ms, překrytíoken bylo 50 % délky okna (tj. 10 ms). Jako okénková funkce bylo použito Hammin-govo okno získané pomocí funkce [winlen, winover] = windowFunc(𝑓vz). Vstupní(příp. výstupní) parametry funkcí jsou následující: 𝑥 – řečový vektor, 𝑋 – maticenasegmentovaných signálů, 𝑤𝑖𝑛𝑙𝑒𝑛 – počet vzorků délky okna, 𝑤𝑖𝑛𝑜𝑣𝑒𝑟 – početvzorků překrytí oken.

Toto nastavení pro předzpracování a segmentaci řečového signálu je standardempři zpracovaní patologické řeči [9].

41

9.3 ParametrizaceParametrizace byla provedena pro všechny segmentální a suprasegmentální parame-try z kapitoly 5. Fundamentální frekvence 𝐹0 byla vypočtena pomocí autokorelačnífunkce 𝐹0 = f0autocorr(X, 𝑓vz). Výpočty okamžité energie E a TKO byly prove-deny se standardními hodnotami použitých funkcí E = energy(X), resp. TKO =teagerKaiser(x). Hodnoty koeficientů PLP byly vypočteny pomocí funkce programuMATLAB PLP = rastaplp(x, 𝑓vz, 0, coeff_no), převzatého ze stránek Kolumbijskéuniverzity [4]. Třetí parametr funkce rastaplp říká, že funkce pouze spočítá PLPkoeficienty, parametr coeff_no označuje řád PLP koeficientů.

Řád PLP koeficientů byl podle [17] zvolen na 12 (tj. 13 PLP koeficientů), řádMFCC byl zvolen dle podkapitoly 5.2.1 na 12 (odpovídá 13ti MFCC) a počet for-mantů byl stanoven na 3 základní. Na jejich výpočet byly použity funkce MFCC= mfcc(X, 𝑓vz) a formants = formants(X, 𝑓vz). Výpočty parametrů (kromě PLPkoeficientů) byly převzaty z laboratorních cvičení kurzu MZPR (viz [30]).

Vstupní a výstupní parametry výše uvedených funkcí označují x – řečový vektora X – matici nasegmentovaných signálů.

Použité parametry jsou standardně využívané ve více oblastech zpracování řeči,jako např. popis patologického hlasu, rozpoznání řečníka, rozpoznání emocí z řečiatd.

9.4 Post-processingPro post-processing vypočtených parametrů byly použity všechny popisné statistikyz kapitoly 6, tj. 12 uvedených popisných statistik. Tyto popisné statistiky byly vy-počtený pro každý z výše uvedených parametrů a posloužily jako vstupní údaje prostatistickou analýzu.

9.5 Statistická analýzaStatistická analýza řečových parametrů sestávala z výpočtu Spearmanova a Pearso-nova korelačního koeficientu, dále z výpočtu vzájemné informace a z parametrickéhoStudentova t testu a neparametrického Mann-Whitneyova U testu.

Vstupní parametry Mann-Whitneyova U testu – popisné statistiky – byly rozdě-leny do skupin zdravých řečníků (vstupní vektor HC ) a řečníků s PN (vstupní vektorPD) pro každou samohlásku, celkem do 10ti skupin. Mann-Whitneyův U test bylproveden jednotlivě pro každou samohlásku; vstupními parametry byly vektory po-pisných statistik daného řečového parametru zdravých řečníků a řečníků s PN. Pro

42

výpočet byla použita funkce programu MATLAB U = ranksum(HC, PD), jež jeekvivalentem výpočtu Mann-Whitneyova U testu.

U parametrického Studentova t-testu se postupovalo obdobně jako u Mann-Whitneyova U testu; vstupní parametry byly identické. Funkce [~, t] = ttest2(HC,PD), která je obsažena v programu MATLAB, obstarala výpočet parametru t.

Vstupní data výpočtu vzájemné informace a korelačních koeficientů sestávalaz vektoru aktuálně testovaných parametrů (parametr act_vec) a vektoru odpovída-jící zdravotním stavům testovaný osob – 0 pro zdravého řečníka a 1 pro pacientas PN (parametr stat_vec).

Pro výpočet vzájemné informace byly použity funkce programu MATLAB pře-vzaté z [18] ve tvaru [mi, ~, ~, ~] = information(act_vec’, stat_vec’).

Korelační analýza se dělila na výpočet Pearsonova a Spearmanova korelačníhokoeficientu. MATLAB funkce [r, p] = corr(act_vec, stat_vec, ’type’, ’pearson’) bylapoužita pro výpočet parametrů 𝑟p a parametru p Pearsonova korelačního koefi-cientu; pro výpočet Spearmanova korelačního koeficientu byl parametr určující typkorelačního koeficientu (tj. 4. parametr funkce corr) nahrazen vstupním parametrem’spearman’ ; výstupní parametr r v tomto případě odpovídá hodnotě 𝑟s.

9.5.1 Hodnoty statistických parametrů samohlásek

Jako hlavní řadící kritérium byly zvoleny výsledné parametry Mann-Whitneyova Utestu. V přílohách A.1, A.2, A.3, A.4 a A.5 jsou k nalezení histogramy prodlouže-ných fonací českých samohlásek pro šest řečových parametrů, u kterých byla vypoč-tena nejmenší U hodnota. Většina parametrů vykazuje spíše nenormální rozdělenía proto byl upřednostněn neparametrický test. Řečové parametry, které odpovídajínejmenším vypočteným U hodnotám, by podle předpokladu měly být stěžejní prourčení stavu zkoumaného řečníka. Mann-Whitneyův U test byl použitý v předběžnéstatistické analýze výzkumu HD, viz [7].

Pro porovnání byl jako řadící kritérium použitý také Studentův t-test. Histo-gramy šesti řečových parametrů s nejmenší vypočtenou t hodnotou, jsou zobrazenyv přílohách A.6, A.7, A.8, A.9 a A.10.

Dlouhá samohláska „á“

Pro dlouhou samohlásku „á“ dosahovaly nejmenších U hodnot zejména popisnéstatistiky MFCC (4. ,7. a 1. koeficientu). Nejmenší U hodnotu měl rozptyl 4. MFCC;v tabulce B.1 lze vypozorovat rozdíl tří setin mezi průměrnou hodnotou rozptylu4. MFCC u zdravého řečníka a parkinsonika. Mezi vybrané popisné statistiky se takéřadí třetí kvartil 1. formantu. Hodnota p Pearsonova korelačního koeficientu roz-ptylu 4. MFCC jako jediná z uvedených přesahuje hodnotu 0, 05, tzn. že z hlediska

43

korelační analýzy pomocí výpočtu Pearsonova korelačního koeficientu není statis-ticky významná. V tabulce 9.1 jsou shrnuté výsledky statistické analýzy řečovýchparametrů vypočítané pro prodlouženou fonaci samohlásky „a“. V této tabulce jeuvedených šest parametrů s nejnižší hodnotou parametru U, histogram samohláskyje v příloze A.1.

Tab. 9.1: Hodnoty statistických parametrů dlouhé samohlásky „á“

𝑈 𝑟p 𝑟𝑠 𝐼 𝑡

4. MFCC 𝜎 0, 0077 −0, 2165 −0, 1827 −0, 0524 0, 02384. MFCC 𝜎2 0, 0077 −0, 2165 −0, 153 −0, 0688 0, 05897. MFCC 𝛾2 0, 0118 −0, 2043 −0, 1651 −0, 0417 0, 04141. MFCC 𝛾1 0, 0124 −0, 2031 −0, 221 −0, 0422 0, 0064. MFCC MAD 0, 0129 −0, 2018 −0, 1702 −0, 0434 0, 03551. formant Q3 0, 0129 −0, 2018 −0, 2135 −0, 0312 0, 008

Dlouhá samohláska „é“

Nejmenších U koeficientů dlouhé samohlásky „é“ dosahovaly popisné statistiky ře-čových parametrů zohledňujících vlastnosti sluchového ústrojí, tedy 13. ,11. a 2. PLPkoeficientu a také 7. MFCC. Průměrné maximum 13. PLP koeficientu je u parkin-sonika vyšší o necelou setinu (viz tabulka B.2). Všechny uvedené parametry jsouz hlediska korelační analýzy statisticky významné. V tabulce 9.2 jsou shrnuté vý-sledky statistické analýzy řečových parametrů vypočítané pro prodlouženou fonacisamohlásky „e“. V této tabulce je uvedených šest parametrů s nejnižší hodnotouparametru U. Histogram samohlásky je v příloze A.2.

Tab. 9.2: Hodnoty statistických parametrů dlouhé samohlásky „é“

𝑈 𝑟p 𝑟𝑠 𝐼 𝑡

13. PLP max 0, 0051 0, 2283 0, 2165 −0, 0406 0, 00747. MFCC IQR 0, 0066 0, 2213 0, 2023 −0, 0387 0, 012411. PLP min 0, 0128 −0, 2028 −0, 1996 −0, 0557 0, 01372. PLP 𝜎 0, 0139 0, 2003 0, 1909 −0, 0476 0, 01852. PLP 𝜎2 0, 0139 0, 2003 0, 1711 −0, 0503 0, 0357. MFCC MAD 0, 0153 0, 1974 0, 1734 −0, 0473 0, 0327

44

Dlouhá samohláska „í“

Okamžitá energie E byla řečovým parametrem, jejž koeficient špičatosti měl nejmenšíU hodnotu při testování dlouhé samohlásky „í“. Dalšími řečovými parametry s nej-menšími U hodnotami popisných statistik byly koeficient šikmosti okamžité energieE, 6. a 8. PLP koeficient a 11. MFCC. Průměrná hodnota koeficientu špičatosti oka-mžité energie, nacházející se v příloze B.3, je u zdravých řečníků výrazně vyšší nežu pacientů s PN – hodnota rozdílu je zhruba 0, 3. Jako statisticky nevýznamnýz pohledu Pearsonova korelačního koeficientu se jeví maximum 6. PLP koeficientu.V tabulce 9.3 jsou shrnuté výsledky statistické analýzy řečových parametrů vypo-čítané pro prodlouženou fonaci samohlásky „i“. V této tabulce je uvedených šestparametrů s nejnižší hodnotou parametru U. Histogram samohlásky je v přílozeA.3.

Tab. 9.3: Hodnoty statistických parametrů dlouhé samohlásky „í“

𝑈 𝑟p 𝑟𝑠 𝐼 𝑡

E 𝛾2 0, 0069 −0, 2188 −0, 1391 −0, 0589 0, 085211. MFCC Q1 0, 009 −0, 2114 −0, 21 −0, 0504 0, 00896. PLP max 0, 0113 −0, 2049 −0, 1991 −0, 054 0, 0133E 𝛾1 0, 0118 −0, 2037 −0, 1774 −0, 0431 0, 027811. MFCC �� 0, 0153 −0, 1963 −0, 1985 −0, 0537 0, 01368. PLP 𝛾1 0, 0156 −0, 1957 −0, 2025 −0, 0463 0, 0118

Dlouhá samohláska „ó“

Dominantním řečovým parametrem dlouhé samohlásky „ó“ s nejmenšími popisnýmistatistiky byl 9. PLP koeficient. Kromě něj se mezi parametry s nejmenší U hodnotoupopisných statistik řadí 9. MFCC. Vypočtené hodnoty jmenovitých statistik 9. PLPkoeficientu v tabulce B.4 jsou u parinsoniků nižší (v řádech setin) než u zdravýchřečníků. Z hlediska korelační analýzy jsou statisticky významné všechny uvedené pa-rametry. V tabulce 9.4 jsou shrnuté výsledky statistické analýzy řečových parametrůvypočítané pro prodlouženou fonaci samohlásky „o“. V této tabulce je uvedenýchšest parametrů s nejnižší hodnotou parametru U. Histogram samohlásky je v přílozeA.4.

Dlouhá samohláska „ú“

Nejmenší U hodnotu popisných statistik dlouhé samohlásky „ú“, konkrétně koefi-cient špičatosti, měl parametr TKO. Za ním se řadí popisné statistiky 8. a 4. PLP

45

Tab. 9.4: Hodnoty statistických parametrů dlouhé samohlásky „ó“

𝑈 𝑟p 𝑟𝑠 𝐼 𝑡

9. PLP Q3 0, 0107 −0, 2071 −0, 206 −0, 058 0, 01069. PLP �� 0, 0108 −0, 2068 −0, 2044 −0, 0505 0, 01129. PLP 𝑥 0, 0116 −0, 205 −0, 1986 −0, 0529 0, 01399. PLP max 0, 013 −0, 2015 −0, 2102 −0, 0357 0, 00919. PLP Q1 0, 0163 −0, 195 −0, 196 −0, 0583 0, 01529. MFCC 𝛾2 0, 0191 0, 1903 0, 2018 −0, 0446 0, 0124

koeficientu a dále 9. a 11. MFCC. Koeficient špičatosti TKO má průměrnou hod-notu vyšší u parkinsoniků než u zdravých řečníků. V tabulce jmenovitých statistikdlouhé samohlásky „ú“ (viz B.5) je mezi těmito dvěma hodnotami rozdíl cca 5 %.Zmíněná hodnota popisné statistiky parametru TKO je, stejně jako koeficient špiča-tosti 4. PLP koeficientu, statisticky nevýznamná z pohledu Pearsonova korelačníhokoeficientu. V tabulce 9.5 jsou shrnuté výsledky statistické analýzy řečových pa-rametrů vypočítané pro prodlouženou fonaci samohlásky „u“. V této tabulce jeuvedených šest parametrů s nejnižší hodnotou parametru U. Histogram samohláskyje v příloze A.5.

Tab. 9.5: Hodnoty statistických parametrů dlouhé samohlásky „ú“

𝑈 𝑟p 𝑟𝑠 𝐼 𝑡

TKO 𝛾2 0, 0048 −0, 229 0, 0084 −0, 0728 0, 91788. PLP max 0, 0083 −0, 2143 −0, 1626 −0, 0435 0, 04464. PLP 𝛾2 0, 0086 −0, 2134 −0, 1299 −0, 0409 0, 10949. MFCC 𝑥 0, 0092 −0, 2115 −0, 2035 −0, 0548 0, 01169. MFCC Q1 0, 0098 −0, 2096 −0, 2046 −0, 0406 0, 011211. MFCC 𝛾1 0, 0111 0, 2062 0, 224 −0, 0374 0, 0054

9.6 Optimalizace zdrojového kóduFunkce programu MATLAB byly optimalizovány dle [32]. Optimalizace spočívalazejména v prealokaci používaných proměnných, omezení cyklů a jejich nahrazenítzv. vektorizací1 a používání sloupcových vektorů místo řádkových. Jednotlivé funkcemají v hlavičce (v komentáři) uvedený popis, tzn. co daná funkce provádí, její vstupní

1přidělování rozsahu hodnot dané proměnné pomocí „:“, např. A(:,1) = B(:,1) přiřadí proměnnéA první sloupec proměnné B

46

a výstupní proměnné. Při vytváření kódu byla snaha o dodržování konceptu modu-lárního programování, čili rozdělení většího množství kódu do jednotlivých funkcí.

47

10 ZÁVĚRCílem diplomové práce bylo nastudovaní funkce řečového ústrojí při tvorbě řeči, Par-kinsonovy nemoci a hypokinetické dysartrie. Dále obeznámení se s číslicovým zpra-cováním řečového signálu, tj. předzpracováním, parametrizací a post-processingema poté nastudování problematiky statistického zpracování dat, konkrétně korelačníanalýzy, vzájemné informace, parametrických a neparametrických testů. Tyto po-znatky měly být použity pro vytvoření systému, určeného k vyhodnocení použitel-nosti řečových parametrů k diskriminaci zdravých řečníků a pacientů s Parkinsono-vou nemocí, naprogramovaného v jazyce MATLAB.

V diplomové práci byla popsána řeč jako prostředek komunikace a fyziologieřeči. Stručně byla představena Parkinsonova nemoc, její historie, příznaky a léčba.Dále byl vysvětlen pojem hypokinetická dysartrie, jeho souvislost s Parkinsonovounemocí a byly popsány poruchy, jež způsobuje u pacientů s Parkinsonovou nemocí.Pro předzpracování signálu byly popsány metody ustřednění signálu, preemfáze asegmentace signálu. Parametrizace signálu byla rozebrána z pohledu fonačních pa-rametrů, tj. fundamentálního kmitočtu hlasu, energie hlasu a doby trvání řečovéhosegmentu a z pohledu koeficientů, které zohledňují lidský sluchový orgán. Z těchtokoeficientů byly naznačeny výpočty MFCC a PLP koeficientů. Byla zmíněna nutnosttzv. post-processingu takových parametrů, jež mají nevhodný formát pro další statis-tické zpracování. Dále byly rozebrány možnosti korelační analýzy, konkrétně výpočetPearsonova korelačního koeficientu a Spearmanova korelačního koeficientu. Také bylpopsán postup výpočtu vzájemné informace. Z parametrických statistických testůbyl zmíněn Studentův t-test a z neparametrických Mann-Whitneyův U test. Nazákladě výše uvedených poznatků bylo vytvořeno blokové schéma systému, kteréposloužilo jako základ pro naprogramování systému v jazyce MATLAB. Naprogra-movaný systém sestává z hlavního skriptu řídícího celý proces zpracování řečovéhosignálu pomocí funkcí (vytvořených či vnitřních) pro načtení a uložení řečových sig-nálů, jejich zpracování pomocí předzpracování, parametrizace a post-processingu,statistickou analýzu parametrů a jejich uložení.

Realizace systému byla založená na parametrizaci prodloužené fonace pěti čes-kých samohlásek a–u. Řečové nahrávky poskytla 1. neurologická klinika Lékařskéfakulty Masarykovy univerzity a Fakultní nemocnice u sv. Anny v Brně. Použití re-álných nahrávek má klinický dopad na interpretovatelnost a reprezentaci výsledků.Statistická analýza byla zaměřena na vhodnost použití jak konvenčních řečových pa-rametrů (tj. klinicky interpretovatelných jako např. fundamentální kmitočet či oka-mžitá energie hlasu), tak nekonvenčních parametrů (MFCC a PLP koeficientů) po-užívaných v jiných oblastech zpracování řeči. Vhodnost řečových parametrů v tétodiplomové práci popisuje schopnost řečového parametru popsat patologickou řeč a

48

oddělit ji od řeči zdravé, což má v současné medicíně uplatnění při výzkumu a apli-kaci tzv. neinvazivních metodách analýzy.

Výstupem diplomové práce je soubor hodnot popisných statistik řečových pa-rametrů získaný metodami statistické analýzy. Pro interpretaci výsledků byl jakořadící metoda zvolen Mann-Whitneyův U test. Tento test našel uplatnění při ana-lýze HD (viz [7]) a při pohledu na histogramy parametrů v přílohách A.1–A.5 lzepozorovat, že parametry nesplňují podmínku normality a tím pádem bylo vhodnějšípoužít neparametrický test.

V práci bylo ukázáno, že vypočítané MFCC pro realizaci prodloužené fonacesamohlásky „a“ jsou pro popis poškození hlasu nejvhodnější. V případě samohlásky„e“ nejlépe popisují rozdíl mezi zdravým řečníkem a parkinsonikem nekonveční pa-rametry – PLP koeficienty a MFCC. Hodnoty okamžité energie, spolu s MFCC aPLP koeficienty, jsou vhodným indikátorem poškození řeči pro realizaci prodlou-žené fonace samohlásky „i“. PLP koefienty (zejména 9. PLP koeficient) jsou prorealizaci prodloužené fonace samohlásky „o“ nejvhodnější k popisu poškození hlasu.Pro prodlouženou fonaci samohlásky „u“ se jeví Teagarův-Kaiserův operátor, spo-lečně s MFCC a PLP koeficienty, jako nejvhodnější kritéria pro determinaci zdra-vého řečníka a pacienta s PN. V tabulkách 9.1–9.5 jsou hodnoty vybraných řečovýchparametrů všech pěti testovaných samohlásek pro všechny použité statistické testy.Hodnoty řečových parametrů, resp. jejich popisné statistiky, pro obě skupiny řečníkůtj. pacientů s Parkinsonovou nemocí a zdravých řečníků jsou uvedeny v tabulkáchB.1–B.5. Z popisných statistik byly vybrány 1. kvartil, medián, aritmetický průměr a3. kvartil. Z důvodu omezené velikosti dat jsou tyto popisné statistiky pouze hrubýmodhadem skutečných hodnot vyskytujících se v populaci.

Diplomová práce má několik omezujících faktorů. I když má použitý řečový kor-pus v dané oblasti, co se týká počtu řečníků a řečových cvičení, až nadstandardnívelikost, je stále značně omezený, jelikož se diplomová práce zabývala pouze částíkorpusu – konkrétně prodlouženými fonacemi českých samohlásek. Proto je klinickýpopis HD neúplný (chybí např. informace o artikulaci, tempu řeči apod.). Zvýšenípočtu pozorování by po statistické stránce přineslo relevantnější výsledky použitýchmetod. Z tohoto důvodu by v rámci dalšího výzkumu mělo být prioritou rozšířeníkorpusu o další řečové nahrávky a také použití více řečových cvičení.

V této práci bylo dokázáno, že analýza řeči pacientů s PN má význam a poten-ciál do budoucna poskytnout doktorům cenné informace při diagnostice, hodnocení,léčbě a pozorování Parkinsonovy nemoci.

49

LITERATURA[1] BEDÁŇOVÁ, Iveta a Vladimír VEČEREK. Základy statistiky pro studující ve-

terinární medicíny a farmacie. Brno: Veterinární a farmaceutická univerzitaBrno, 2007. ISBN 978-80-7305-026-9.

[2] COVER, Thomas M. a Joy A. THOMAS. Elements of Information Theory. 2nded. Hoboken, New Jersey: John Wiley & Sons, Inc., 2006, s. 19–25. ISBN 978-0-471-24195-9.

[3] ČERNOCKÝ, Jan. Zpracování řečových signálů – studijní opora. Brno: Vysokéučení technické v Brně, 2006, s. 32–37.

[4] ELLIS, Daniel P. W. PLP and RASTA (and MFCC, and inversion) in Matlab.Columbia University in the City of New York [online]. New York: Colum-bia University in the City of New York, 2005 [cit. 2016-05-13]. Dostupné z:http://www.ee.columbia.edu/ dpwe/resources/matlab/rastamat/

[5] FACTOR, Stewart A. a William J. WEINER. Parkinson’s disease diagnosis andclinical management. 2nd ed. New York: Demos, 2008. ISBN 978-193-4559-871.

[6] FASTL, Hugo a Eberhard ZWICKER. Psychoacoustics: Facts and Models. Ber-lin: Springer-Verlag Berlin Heidelberg, 2007. ISBN 978-3-540-23159-2.

[7] GALÁŽ, Zoltán, Jiří MEKYSKA, Zdeněk MŽOUREK, et al. Prosodic ana-lysis of neutral, stress-modified and rhymed speech in patients with Parkin-son’s disease. Computer Methods and Programs in Biomedicine. Elsevier, 127,301–317. DOI: 10.1016/j.cmpb.2015.12.011. ISSN 01692607. Dostupné také z:http://dx.doi.org/10.1016/j.cmpb.2015.12.011

[8] HERMANSKY, Hynek. Perceptual linear predictive (PLP) analysis of spe-ech. The Journal of the Acoustical Society of America. 1990, 87(4),1738–1752. DOI: 10.1121/1.399423. ISSN 00014966. Dostupné také z:http://scitation.aip.org/content/asa/journal/jasa/87/4/10.1121/1.399423

[9] HUANG, Xuedong, Alex ACERO a Hsiao-Wuen HON. Spoken Language Pro-cessing: A Guide to Theory, Algorithm and System Development. New Jersey:Prentice Hall, 2001. ISBN 978-0-13-022616-7.

[10] HUMMERSONE, Christopher. ISO 226:2003 Normal equal-loudness-level con-tours - File Exchange - MATLAB Central. MathWorks -– Makers of MATLABand Simulink [online]. Natick: The MathWorks, c1994-2016 [cit. 2016-05-12].Dostupné z: http://www.mathworks.com/matlabcentral/fileexchange/50348-iso-226-2003-normal-equal-loudness-level-contours

50

[11] CHAUHAN, Paresh M. a Nikita P. DESAI. Mel Frequency Cepstral Coeffi-cients (MFCC) based speaker identification in noisy environment using wi-ener filter. 2014 International Conference on Green Computing Communi-cation and Electrical Engineering (ICGCCEE). IEEE, 2014, : 1–5. DOI:10.1109/ICGCCEE.2014.6921394. ISBN 978-1-4799-4982-3. Dostupné také z:http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=6921394

[12] ISO 226:2003. Acoustics – Normal equal-loudness-level contours. Geneva: Inter-national Organization for Standardization, 2003.

[13] Jean-Martin Charcot. Whonamedit – dictionary of me-dical eponyms [online]. [cit. 2015-10-17]. Dostupné z:http://www.whonamedit.com/doctor.cfm/19.html

[14] KAISER, J. F. On a simple algorithm to calculate the ’energy’ of a sig-nal. International Conference on Acoustics, Speech, and Signal Processing.IEEE, 1990, (1), 381–384. DOI: 10.1109/ICASSP.1990.115702. Dostupné takéz: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=115702

[15] KOŠŤÁLOVÁ, M., M. MRÁČKOVÁ, R. MAREČEK, et al. Test 3F Dysartrickýprofil – normativní hodnoty řeči v češtině. Cesk Slov Neurol N. 2013, 76/109(5),614–618. ISSN 1802-4041.

[16] KRČMOVÁ, Marie. Fonetika a fonologie [online]. 3 vyd. Brno: Masarykovauniverzita, 2009 [cit. 2016-05-14]. Elportál. ISSN 1802-128X. Dostupné z:http://is.muni.cz/elportal/?id=852835

[17] LILEIKYTE, R. a L. TELKSNYS. Quality Estimation Methodology of SpeechRecognition Features. Elektronica ir Elektrotechnika. 2011, 110(4), 113–116.ISSN 1392-1215.

[18] Matlab library of Rudy Moddemeijer. Top 100 University | University of Gro-ningen [online]. Groningen: University of Groningen, 2001 [cit. 2016-05-15]. Do-stupné z: http://www.cs.rug.nl/ rudy/matlab/

[19] Merritt’s neurology. 12th ed. Philadelphia: Wolters Kluwer, 2010, xxi, 1172 s.ISBN 978-0-7817-9186-1.

[20] NEVRLÝ, Martin, Renata COUFALOVÁ, Eva ČECHÁKOVÁ a Petr KAŇOV-SKÝ. Zlepšení kvality života v pokročilé fázi Parkinsonovy nemoci intraduode-nálními infuzemi levodopy. Neurologie pro praxi. 2014, 15(5). ISSN 1213-1814.

[21] PALKOVÁ, Zdena. Fonetika a fonologie češtiny s obecným úvodem do proble-matiky oboru. 1.vyd. Praha: Karolinum, 1994, 366 s. ISBN 80-706-6843-1.

51

[22] PSUTKA, Josef. Mluvíme s počítačem česky. Vyd. 1. Praha: Academia, 2006,746 s. Česká matice technická (Academia). ISBN 80-200-1309-1.

[23] REKTOR, Ivan. Léčba Parkinsonovy nemoci. Neurologie pro praxi. 2009, 10(6):340–346. ISSN 1213-1814.

[24] REKTOROVÁ, Irena. Současné možnosti diagnostiky a terapie Parkinsonovynemoci. Neurológia pre prax: Suplement 2. 2009, 10(S2). ISSN 1335-9592.

[25] ROKYTA, Richard. Fyziologie a patologická fyziologie: pro klinickou praxi.1. vydání. Praha: Grada Publishing, 2015, s. 533. ISBN 978-80-247-4867-2.

[26] ROTH, Jan, Marcela SEKYROVÁ a Evžen RŮŽIČKA. Parkinsonova nemoc.4. přeprac. a rozš. vyd. Praha: Maxdorf, 2009, 222 s. Medica. ISBN 978-80-7345-178-3.

[27] SHESKIN, David. Handbook of Parametric and Nonparametric Statistical Pro-cedures: Second Edition. Chapman and Hall/CRC, 2000. 2nd Edition. ISBN978-1-58488-133-9.

[28] SCHIMMEL, Jiří. Elektroakustika. Brno: Vysoké učení technické v Brně, 2014.ISBN 978-80-214-4716-5.

[29] SMÉKAL, Zdeněk. Analýza signálů a soustav – BASS. Brno: Vysoké učenítechnické v Brně, 2012, s. 90. ISBN 978-80-214-4453-9.

[30] SMÉKAL, Zdeněk. Zpracování řeči. Brno: Vysoké učení technické v Brně, 2013.ISBN 978-80-214-4896-4.

[31] SOUKUP, Petr. Nesprávná užívání statistické významnosti a jejich možná ře-šení. Data a výzkum — SDA Info. 2010, 4(2), 77-104. ISSN 1802-8152.

[32] Techniques to Improve Performance – MATLAB & Simulink.MathWorks – Makers of MATLAB and Simulink [online]. Na-tick: The MathWorks, c1994–2016 [cit. 2016-05-14]. Dostupné z:http://mathworks.com/help/releases/R2015b/matlab/matlab_prog/techniques-for-improving-performance.html

[33] VOKURKA, Martin a Jan HUGO. Praktický slovník medicíny.5. rozš. vyd. Praha: Maxdorf, 1998, s. 334. ISBN 80-85800-81-0.

[34] VOKURKA, Martin a Jan HUGO. Velký lékařský slovník.5. aktualiz. vyd. Praha: Maxdorf, 2005. Jessenius. ISBN 80-7345-058-5.

52

[35] ZAMIŠKOVÁ, Gabriela, Pavel RESSNER, Jana DLOUHÁ a Dana ŠIGU-TOVÁ. Poruchy řeči u Parkinsonovy nemoci. Neurologie pro praxi. 2010, 11(2),112–116. ISSN 1213-1814.

53

SEZNAM SYMBOLŮ, VELIČIN A ZKRATEKPN Parkinsonova nemoc

EPS Extrapyramidový systém

L-dopa levodopa

HD Hypokinetická dysartrie

AČ analogově-číslicový

SNR odstup signálu od šumu

FIR konečná impulsní odezva

ACF krátkodobá autokorelační funkce

𝐹0 fundamentální kmitočet

E okamžitá energie

TKO Teagerův Kaiserův energetický operátor

MFCC Melovské kepstrální koeficienty

PLP Percepční lineární predikční koeficienty

FFT rychlá Fourierova transformace

DFT diskrétní Fourierova transformace

𝑓m kmitočet v melovské škále

𝑓bark kmitočet v barkové škále

𝑓Hz kmitočet v hertzové škále

𝑓d kmitočet dolního pásma

𝐹1 první formant

𝐹2 druhý formant

𝐹3 třetí formant

LPC lineární predikční koeficienty

𝑓vz vzorkovací kmitočet

54

�� aritmetický průměr

𝑥 medián

𝜎 směrodatná odchylka

𝜎2 rozptyl

MAD střední absolutní odchylka

max maximum

min minimum

IQR mezikvartilové rozpětí

Q1 1. kvartil

Q3 3. kvartil

𝛾1 koeficient šikmosti

𝛾2 koeficient špičatosti

𝑟p Pearsonův korelační koeficient

𝑟s Spearmanův korelační koeficient

𝐼 vzájemná informace

𝑡 koeficient Studentova t-testu

𝑈 koeficient Mann-Whitneyova U testu

WAV Waveform audio file format

55

SEZNAM PŘÍLOH

A Histogramy řečových parametrů 57

B Statistiky řečových parametrů 67

C Doplňkové informace pro statistickou analýzu 73

D Obsah přiloženého DVD 79

56

A HISTOGRAMY ŘEČOVÝCH PARAMETRŮ

0 5 10 15 200

20

40MFCC_4_std HC

0 5 10 15 20 250

50

100MFCC_4_std PD

0 5 10 15 200

50

100MFCC_4_var HC

0 5 10 15 20 250

100

200MFCC_4_var PD

0 5 10 15 200

50

100MFCC_7_kurtosis HC

0 5 10 15 20 250

100

200MFCC_7_kurtosis PD

0 5 10 15 200

20

40

60MFCC_1_skewness HC

0 5 10 15 20 250

50

100MFCC_1_skewness PD

0 5 10 15 200

20

40

60MFCC_4_mad HC

0 5 10 15 20 250

50

100

150MFCC_4_mad PD

0 5 10 15 200

10

20

30formants_1_3q HC

0 5 10 15 20 250

20

40

60formants_1_3q PD

Obr. A.1: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „a“

57

0 5 10 15 200

20

40PLP_13_max HC

0 5 10 15 20 250

20

40

60PLP_13_max PD

0 5 10 15 200

20

40MFCC_7_iqr HC

0 5 10 15 20 250

50

100MFCC_7_iqr PD

0 5 10 15 200

20

40

60PLP_11_min HC

0 5 10 15 20 250

20

40

60PLP_11_min PD

0 5 10 15 200

20

40

60PLP_2_std HC

0 5 10 15 20 250

50

100PLP_2_std PD

0 5 10 15 200

50

100PLP_2_var HC

0 5 10 15 20 250

100

200PLP_2_var PD

0 5 10 15 200

20

40

60MFCC_7_mad HC

0 5 10 15 20 250

50

100MFCC_7_mad PD

Obr. A.2: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „e“

58

0 5 10 15 200

100

200E_kurtosis HC

0 5 10 15 20 250

100

200E_kurtosis PD

0 5 10 15 200

20

40MFCC_11_1q HC

0 5 10 15 20 250

50

100MFCC_11_1q PD

0 5 10 15 200

20

40PLP_6_max HC

0 5 10 15 20 250

20

40

60PLP_6_max PD

0 5 10 15 200

50

100E_skewness HC

0 5 10 15 20 250

50

100E_skewness PD

0 5 10 15 200

20

40MFCC_11_mean HC

0 5 10 15 20 250

50

100MFCC_11_mean PD

0 5 10 15 200

20

40PLP_8_skewness HC

0 5 10 15 20 250

20

40

60PLP_8_skewness PD

Obr. A.3: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „i“

59

0 5 10 15 200

20

40

60PLP_9_3q HC

0 5 10 15 20 250

20

40

60PLP_9_3q PD

0 5 10 15 200

20

40

60PLP_9_mean HC

0 5 10 15 20 250

20

40

60PLP_9_mean PD

0 5 10 15 200

20

40

60PLP_9_median HC

0 5 10 15 20 250

50

100PLP_9_median PD

0 5 10 15 200

20

40

60PLP_9_max HC

0 5 10 15 20 250

20

40

60PLP_9_max PD

0 5 10 15 200

20

40

60PLP_9_1q HC

0 5 10 15 20 250

20

40

60PLP_9_1q PD

0 5 10 15 200

20

40

60MFCC_9_kurtosis HC

0 5 10 15 20 250

50

100

150MFCC_9_kurtosis PD

Obr. A.4: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „o“

60

0 5 10 15 200

100

200

300TKO_kurtosis HC

0 5 10 15 20 250

200

400

600TKO_kurtosis PD

0 5 10 15 200

20

40PLP_8_max HC

0 5 10 15 20 250

50

100PLP_8_max PD

0 5 10 15 200

50

100PLP_4_kurtosis HC

0 5 10 15 20 250

100

200PLP_4_kurtosis PD

0 5 10 15 200

20

40

60MFCC_9_median HC

0 5 10 15 20 250

50

100MFCC_9_median PD

0 5 10 15 200

20

40

60MFCC_9_1q HC

0 5 10 15 20 250

20

40

60MFCC_9_1q PD

0 5 10 15 200

20

40

60MFCC_11_skewness HC

0 5 10 15 20 250

20

40

60MFCC_11_skewness PD

Obr. A.5: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „u“

61

0 5 10 15 200

20

40

60MFCC_1_skewness HC

0 5 10 15 20 250

50

100MFCC_1_skewness PD

0 5 10 15 200

20

40

60formants_1_median HC

0 5 10 15 20 250

50

100formants_1_median PD

0 5 10 15 200

20

40formants_1_mean HC

0 5 10 15 20 250

20

40

60formants_1_mean PD

0 5 10 15 200

10

20

30formants_1_3q HC

0 5 10 15 20 250

20

40

60formants_1_3q PD

0 5 10 15 200

20

40

60PLP_12_std HC

0 5 10 15 20 250

20

40

60PLP_12_std PD

0 5 10 15 200

20

40

60PLP_12_var HC

0 5 10 15 20 250

50

100PLP_12_var PD

Obr. A.6: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„A“

62

0 5 10 15 200

20

40PLP_13_max HC

0 5 10 15 20 250

20

40

60PLP_13_max PD

0 5 10 15 200

20

40MFCC_7_iqr HC

0 5 10 15 20 250

50

100MFCC_7_iqr PD

0 5 10 15 200

100

200F0_max HC

0 5 10 15 20 250

200

400F0_max PD

0 5 10 15 200

20

40

60PLP_11_min HC

0 5 10 15 20 250

20

40

60PLP_11_min PD

0 5 10 15 200

50

100

150formants_3_kurtosis HC

0 5 10 15 20 250

100

200formants_3_kurtosis PD

0 5 10 15 200

20

40

60PLP_2_std HC

0 5 10 15 20 250

50

100PLP_2_std PD

Obr. A.7: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„E“

63

0 5 10 15 200

20

40MFCC_11_1q HC

0 5 10 15 20 250

50

100MFCC_11_1q PD

0 5 10 15 200

50

100PLP_4_kurtosis HC

0 5 10 15 20 250

100

200PLP_4_kurtosis PD

0 5 10 15 200

20

40PLP_8_skewness HC

0 5 10 15 20 250

20

40

60PLP_8_skewness PD

0 5 10 15 200

20

40

60MFCC_11_median HC

0 5 10 15 20 250

50

100MFCC_11_median PD

0 5 10 15 200

20

40PLP_6_max HC

0 5 10 15 20 250

20

40

60PLP_6_max PD

0 5 10 15 200

20

40MFCC_11_mean HC

0 5 10 15 20 250

50

100MFCC_11_mean PD

Obr. A.8: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„I“

64

0 5 10 15 200

20

40

60PLP_8_mad HC

0 5 10 15 20 250

20

40

60PLP_8_mad PD

0 5 10 15 200

20

40

60PLP_9_max HC

0 5 10 15 20 250

20

40

60PLP_9_max PD

0 5 10 15 200

20

40

60PLP_8_iqr HC

0 5 10 15 20 250

50

100PLP_8_iqr PD

0 5 10 15 200

50

100PLP_8_var HC

0 5 10 15 20 250

50

100PLP_8_var PD

0 5 10 15 200

20

40

60PLP_9_3q HC

0 5 10 15 20 250

20

40

60PLP_9_3q PD

0 5 10 15 200

20

40

60PLP_9_mean HC

0 5 10 15 20 250

20

40

60PLP_9_mean PD

Obr. A.9: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„O“

65

0 5 10 15 200

20

40

60MFCC_11_skewness HC

0 5 10 15 20 250

20

40

60MFCC_11_skewness PD

0 5 10 15 200

20

40formants_2_std HC

0 5 10 15 20 250

20

40

60formants_2_std PD

0 5 10 15 200

20

40

60formants_2_var HC

0 5 10 15 20 250

50

100

150formants_2_var PD

0 5 10 15 200

20

40

60MFCC_9_1q HC

0 5 10 15 20 250

20

40

60MFCC_9_1q PD

0 5 10 15 200

20

40

60MFCC_9_median HC

0 5 10 15 20 250

50

100MFCC_9_median PD

0 5 10 15 200

20

40formants_2_mad HC

0 5 10 15 20 250

50

100formants_2_mad PD

Obr. A.10: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„U“

66

B STATISTIKY ŘEČOVÝCH PARAMETRŮ

67

Tab.

B.1:

Vybr

ané

popi

sné

stat

istik

ysa

moh

lásk

y„á

1.kv

artil

med

ián

prům

ěr3.

kvar

tilH

CPD

HC

PDH

CPD

HC

PD4.

MFC

C𝜎

0,30

20,

3004

0,40

80,

3684

0,43

320,

407

0,51

50,

4666

4.M

FCC

𝜎2

0,09

120,

0902

0,16

640,

1358

0,21

690,

1913

0,26

520,

2177

7.M

FCC

𝛾2

2,46

212,

3751

2,88

712,

8209

3,12

763,

089

3,56

533,

4682

1.M

FCC

𝛾1

−1,

4817

−1,

5765

−1,

1297

−1,

2376

−1,

0886

−1,

2371

−0,

7026

−0,

8945

4.M

FCC

MA

D0,

2365

0,23

350,

3146

0,28

420,

3398

0,31

90,

4044

0,37

141.

form

ant

Q3

386,

2234

1,22

548,

8752

1,49

582,

0254

9,78

725,

2470

1,61

68

Tab.

B.2:

Vybr

ané

popi

sné

stat

istik

ysa

moh

lásk

y„é

1.kv

artil

med

ián

prům

ěr3.

kvar

tilH

CPD

HC

PDH

CPD

HC

PD13

.PLP

max

0,06

130,

0686

0,11

080,

1176

0,11

520,

1229

0,16

270,

1677

7.M

FCC

IQR

0,25

380,

2719

0,32

170,

3379

0,35

130,

3658

0,41

510,

4378

11.P

LPm

in−

0,29

84−

0,31

86−

0,23

11−

0,23

59−

0,22

57−

0,24

24−

0,15

2−

0,15

862.

PLP

𝜎0,

0657

0,06

80,

081

0,08

490,

0858

0,09

080,

1028

0,10

792.

PLP

𝜎2

0,00

430,

0046

0,00

660,

0072

0,00

820,

0094

0,01

060,

0117

7.M

FCC

MA

D0,

1642

0,17

160,

1965

0,20

530,

212

0,21

850,

247

0,25

46

69

Tab.

B.3:

Vybr

ané

popi

sné

stat

istik

ysa

moh

lásk

y„í

1.kv

artil

med

ián

prům

ěr3.

kvar

tilH

CPD

HC

PDH

CPD

HC

PDE

𝛾2

1,98

81,

9761

2,50

182,

3797

3,29

552,

865

3,46

153,

0744

11.M

FCC

Q1

−0,

2038

−0,

2804

−0,

0321

−0,

112

−0,

0418

−0,

1241

0,12

10,

0503

6.PL

Pm

ax−

0,04

91−

0,05

270,

0857

0,06

580,

0938

0,09

350,

2281

0,25

44E

𝛾1

0,19

24−

0,01

480,

5893

0,42

230,

6825

0,48

791,

0526

0,86

311

.MFC

C𝑥

−0,

0773

−0,

1542

0,06

830,

0061

0,07

60,

0047

0,23

370,

1613

8.PL

P𝛾

1−

0,16

89−

0,25

240,

2173

0,15

490,

2463

0,18

190,

632

0,57

61

70

Tab.

B.4:

Vybr

ané

popi

sné

stat

istik

ysa

moh

lásk

y„ó

1.kv

artil

med

ián

prům

ěr3.

kvar

tilH

CPD

HC

PDH

CPD

HC

PD9.

PLP

Q3

−0,

0744

−0,

1089

0,00

43−

0,02

070,

0105

−0,

0215

0,08

440,

0746

9.PL

P𝑥

−0,

1333

−0,

171

−0,

0509

−0,

0822

−0,

0504

−0,

0842

0,03

480,

0098

9.PL

P 𝑥

−0,

1271

−0,

1678

−0,

0453

−0,

077

−0,

0462

−0,

0815

0,04

170,

0151

9.PL

Pm

ax0,

0633

0,02

30,

1375

0,11

330,

1427

0,11

850,

2288

0,21

489.

PLP

Q1

−0,

1876

−0,

2309

−0,

1053

−0,

1391

−0,

1067

−0,

1438

−0,

0228

−0,

0461

9.M

FCC

𝛾2

2,38

552,

4588

2,77

232,

8522

2,95

043,

0995

3,28

583,

4407

71

Tab.

B.5:

Vybr

ané

popi

sné

stat

istik

ysa

moh

lásk

y„ú

1.kv

artil

med

ián

prům

ěr3.

kvar

tilH

CPD

HC

PDH

CPD

HC

PDT

KO

𝛾2

22,1

7319

,457

36,7

3629

,054

99,8

0210

4,18

75,7

5450

,395

8.PL

Pm

ax−

0,02

06−

0,06

820,

0689

0,03

0,07

180,

049

0,14

320,

1521

4.PL

P𝛾

22,

5806

2,43

13,

1269

2,94

13,

6391

3,44

674,

2401

3,91

919.

MFC

C 𝑥

−0,

1575

−0,

2706

0,02

67−

0,01

70,

035

−0,

0198

0,24

10,

2111

9.M

FCC

Q1

−0,

3129

−0,

4272

−0,

1085

−0,

1493

−0,

1021

−0,

1585

0,12

480,

0726

11.M

FCC

𝛾1

−0,

4371

−0,

3163

−0,

0533

0,03

76−

0,05

050,

032

0,27

830,

4288

72

C DOPLŇKOVÉ INFORMACE PRO STATIS-TICKOU ANALÝZU

73

Tab. C.1: Kritické hodnoty Studentova t-testu

Dvoustranný 0,8 0,5 0,2 0,1 0,05 0,02 0,01 0,001Jednostranný 0,4 0,25 0,1 0,05 0,025 0,01 0,005 0,0005𝑑𝑓 | 𝑝 0,6 0,75 0,9 0,95 0,975 0,99 0,995 0,99951 0,325 1 3,078 6,314 12,706 31,821 63,657 636,6192 0,289 0,816 1,886 2,92 4,303 6,965 9,925 31,5983 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,9244 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,615 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,8696 0,265 0,718 1,44 1,943 2,447 3,143 3,707 5,9597 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,4088 0,262 0,706 1,397 1,86 2,306 2,896 3,355 5,0419 0,261 0,703 1,383 1,833 2,262 2,821 3,25 4,78110 0,26 0,7 1,372 1,812 2,228 2,764 3,169 4,58711 0,26 0,697 1,363 1,796 2,201 2,718 3,106 4,43712 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,31813 0,259 0,694 1,35 1,771 2,16 2,65 3,012 4,22114 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,1415 0,258 0,691 1,341 1,753 2,131 2,602 2,947 4,07316 0,258 0,69 1,337 1,746 2,12 2,583 2,921 4,01517 0,257 0,689 1,333 1,74 2,11 2,567 2,898 3,96518 0,257 0,688 1,33 1,734 2,101 2,552 2,878 3,92219 0,257 0,688 1,328 1,729 2,093 2,539 2,861 3,88320 0,257 0,687 1,325 1,725 2,086 2,528 2,845 3,8521 0,257 0,686 1,323 1,721 2,08 2,518 2,831 3,81922 0,256 0,686 1,321 1,717 2,074 2,508 2,819 3,79223 0,256 0,685 1,319 1,714 2,069 2,5 2,807 3,76724 0,256 0,685 1,318 1,711 2,064 2,492 2,797 3,74525 0,256 0,684 1,316 1,708 2,06 2,485 2,787 3,72526 0,256 0,684 1,315 1,706 2,056 2,479 2,779 3,70727 0,256 0,684 1,314 1,703 2,052 2,473 2,771 3,6928 0,256 0,683 1,313 1,701 2,048 2,467 2,763 3,67429 0,256 0,683 1,311 1,699 2,045 2,462 2,756 3,65930 0,256 0,683 1,31 1,697 2,042 2,457 2,75 3,64640 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,55160 0,254 0,679 1,296 1,671 2 2,39 2,66 3,46120 0,254 0,677 1,289 1,658 1,98 2,358 2,617 3,373INF 0,253 0,674 1,282 1,645 1,96 2,326 2,576 3,291

74

Tab.

C.2

:Krit

ické

hodn

oty

jedn

ostr

anné

hoM

ann–

Whi

tney

ova

Ute

stu

pro

𝛼=

0,05

𝑛1

|𝑛2

12

34

56

78

910

1112

1314

1516

1718

1920

1 20

00

11

11

22

23

33

44

43

00

12

23

34

55

67

78

99

1011

40

12

34

56

78

910

1112

1415

1617

185

01

24

56

89

1112

1315

1618

1920

2223

256

02

35

78

1012

1416

1719

2123

2526

2830

327

02

46

811

1315

1719

2124

2628

3033

3537

398

13

58

1013

1518

2023

2628

3133

3639

4144

479

13

69

1215

1821

2427

3033

3639

4245

4851

5410

14

711

1417

2024

2731

3437

4144

4851

5558

6211

15

812

1619

2327

3134

3842

4650

5457

6165

6912

25

913

1721

2630

3438

4247

5155

6064

6872

7713

26

1015

1924

2833

3742

4751

5661

6570

7580

8414

27

1116

2126

3136

4146

5156

6166

7177

8287

9215

37

1218

2328

3339

4450

5561

6672

7783

6894

100

163

814

1925

3036

4248

5460

6571

7783

8995

101

107

173

915

2026

3339

4551

5764

7077

8389

9610

210

911

518

49

1622

2835

4148

5561

6875

8288

9510

210

911

612

319

04

1017

2330

3744

5158

6572

8087

9410

110

911

612

313

020

04

1118

2532

3947

5462

6977

8492

100

107

115

123

130

138

75

Tab.

C.3

:Krit

ické

hodn

oty

dvou

stra

nnéh

oM

ann–

Whi

tney

ova

Ute

stu

pro

𝛼=

0,05

𝑛1

|𝑛2

12

34

56

78

910

1112

1314

1516

1718

1920

1 20

00

01

11

11

22

22

30

11

22

33

44

55

66

77

84

01

23

44

56

78

910

1111

1213

135

01

23

56

78

911

1213

1415

1718

1920

61

23

56

810

1113

1416

1719

2122

2425

277

13

56

810

1214

1618

2022

2426

2830

3234

80

24

68

1013

1517

1922

2426

2931

3436

3841

90

24

710

1215

1720

2326

2831

3437

3942

4548

100

35

811

1417

2023

2629

3336

3942

4548

5255

110

36

913

1619

2326

3033

3740

4447

5155

5862

121

47

1114

1822

2629

3337

4145

4953

5761

6569

131

48

1216

2024

2833

3741

4550

5459

6367

7276

141

59

1317

2226

3136

4045

5055

5964

6774

7883

151

510

1419

2429

3439

4449

5459

6470

7580

8590

161

611

1521

2631

3742

4753

5964

7075

8186

9298

172

611

1722

2834

3945

5157

6367

7581

8793

9910

518

27

1218

2430

3642

4855

6167

7480

8693

9910

611

219

27

1319

2532

3845

5258

6572

7885

9299

106

113

119

202

813

2027

3441

4855

6269

7683

9098

105

112

119

127

76

Tab.

C.4

:Krit

ické

hodn

oty

jedn

ostr

anné

hoM

ann–

Whi

tney

ova

Ute

stu

pro

𝛼=

0,01

𝑛1

|𝑛2

12

34

56

78

910

1112

1314

1516

1718

1920

1 20

00

00

01

13

00

11

12

22

33

44

45

40

11

23

34

55

67

78

99

105

01

23

45

67

89

1011

1213

1415

166

12

34

67

89

1112

1315

1618

1920

227

01

34

67

911

1214

1617

1921

2324

2628

80

24

67

911

1315

1720

2224

2628

3032

349

13

57

911

1416

1821

2326

2831

3336

3840

101

36

811

1316

1922

2427

3033

3638

4144

4711

14

79

1215

1822

2528

3134

3741

4447

5053

122

58

1114

1721

2428

3135

3842

4649

5356

6013

02

59

1216

2023

2731

3539

4347

5155

5963

6714

02

610

1317

2226

3034

3843

4751

5660

6569

7315

03

711

1519

2428

3337

4247

5156

6166

7075

8016

03

712

1621

2631

3641

4651

5661

6671

7682

8717

04

813

1823

2833

384t

4955

6066

7177

8288

9318

04

914

1924

3036

4147

5359

6570

7682

8894

l00

191

49

1520

2632

3844

5056

6369

7582

8894

101

107

201

510

1622

2834

4047

5360

6773

8087

9310

010

711

4

77

Tab.

C.5

:Krit

ické

hodn

oty

dvou

stra

nnéh

oM

ann–

Whi

tney

ova

Ute

stu

pro

𝛼=

0,01

𝑛1

|𝑛2

12

34

56

78

910

1112

1314

1516

1718

1920

1 20

03

00

01

11

22

22

33

40

01

12

23

34

55

66

78

50

11

23

45

67

78

910

1112

136

01

23

45

67

910

1112

1315

1617

187

01

34

67

910

1213

1516

1819

2122

248

12

46

79

1113

1517

1820

2224

2628

309

01

35

79

1113

1618

2022

2427

2931

3336

100

24

69

1113

1618

2124

2629

3134

3739

4211

02

57

1013

1618

2124

2730

3336

3941

4548

121

36

912

1518

2124

2731

3437

4144

4751

5413

13

710

1317

2024

2731

3438

4245

4953

5660

141

47

1115

1822

2630

3438

4246

5054

5863

6715

25

812

1620

2429

3337

4246

5155

6064

6973

162

59

1318

2227

3136

4145

5055

6065

7074

7917

26

1015

1924

2934

3944

4954

6065

7075

8186

182

611

1621

2631

3742

4753

5864

7075

8187

9219

03

712

1722

2833

3945

5156

6369

7481

8793

9920

03

813

1824

3036

4248

5460

6773

7986

9299

105

78

D OBSAH PŘILOŽENÉHO DVD• adresář System obsahuje soubory naprogramovaného systému v jazyce MATLAB

ve verzi 2010b 7.11.0– podadresář base obsahuje základní funkce systému pro načítání řečových

vzorků, vykreslení výsledků, export výsledných parametrů apod.– podadresář spch obsahuje funkce předzpracování a parametrizace řečo-

vých vzorků– podadresář stats obsahuje funkce pro výpočet parametrů statistické ana-

lýzy– podadresář wav obsahuje řečové vzorky ve formátu WAV– soubor _file_list.txt obsahuje cesty řečových vzorků– soubor arr.mat obsahuje uložené buňky se strukturami načtených a zpra-

covaných řečových vzorků– soubor System.m je určený pro spuštění systému

• soubor DP_bijota.pdf obsahuje diplomovou práci

79


Recommended