VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ
Fakulta elektrotechnikya komunikačních technologií
DIPLOMOVÁ PRÁCE
Brno, 2016 Bc. Jan Bijota
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚBRNO UNIVERSITY OF TECHNOLOGY
FAKULTA ELEKTROTECHNIKYA KOMUNIKAČNÍCH TECHNOLOGIÍFACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
ÚSTAV TELEKOMUNIKACÍDEPARTMENT OF TELECOMMUNICATIONS
APLIKACE STATISTICKÉ ANALÝZY ŘEČI PACIENTŮ SPARKINSONOVOU NEMOCÍAPPLICATION OF STATISTICAL ANALYSIS OF SPEECH IN PATIENTS WITH PARKINSON'S DISEASE
DIPLOMOVÁ PRÁCEMASTER'S THESIS
AUTOR PRÁCEAUTHOR
Bc. Jan Bijota
VEDOUCÍ PRÁCESUPERVISOR
Ing. Zoltán Galáž
BRNO 2016
Fakulta elektrotechniky a komunikačních technologií, Vysoké učení technické v Brně / Technická 3058/10 / 616 00 / Brno
Diplomová prácemagisterský navazující studijní obor Telekomunikační a informační technika
Ústav telekomunikacíStudent: Bc. Jan Bijota ID: 128755Ročník: 2 Akademický rok: 2015/16
NÁZEV TÉMATU:
Aplikace statistické analýzy řeči pacientů s Parkinsonovou nemocí
POKYNY PRO VYPRACOVÁNÍ:
Parkinsonova nemoc je druhým nejčastějším neurodegenerativním onemocněním na světě. Jedním z příznakůParkinsonovy nemoci je také tzv. Hypokinetická dysartrie, která se vyznačuje špatnou funkčností řečových orgánůa významně snižuje kvalitu života takto postižených pacientů. V rámci diplomové práce bude provedenaparametrizace sady řečových cvičení: fonace samohlásek /a / – /u/. Vypočtené parametry, kvantifikující řečovédysfunkce, budou následně analyzovány pomocí statistických metod jako: korelační analýza, informační analýza,parametrické a neparametrické statistické testy atd. s důrazem na diskriminaci zdravých řečníků a pacientůs Parkinsonovou nemocí. Uvedené postupy budou naprogramovány v jazyce MATLAB.
DOPORUČENÁ LITERATURA:
[1] D. J. Sheskin, Handbook of Parametric and Nonparametric Statistical Procedures, Chapman & Hall/CRC,2007.
[2] SMÉKAL, Z. Číslicové zpracování řeči (MZPR). Elektronická skripta pro magisterská studia, Ústavtelekomunikací, FEEC, VUT Brno, 2009.
[3] PSUTKA, J.; et al. Mluvíme s počítačem česky. Praha: Academia, 2006. 752 s. ISBN 80-200-1309-1.
Termín zadání: 1.2.2016 Termín odevzdání: 25.5.2016
Vedoucí práce: Ing. Zoltán GalážKonzultant diplomové práce:
doc. Ing. Jiří Mišurec, CSc., předseda oborové rady
UPOZORNĚNÍ:Autor diplomové práce nesmí při vytváření diplomové práce porušit autorská práva třetích osob, zejména nesmí zasahovat nedovolenýmzpůsobem do cizích autorských práv osobnostních a musí si být plně vědom následků porušení ustanovení § 11 a následujících autorskéhozákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníkuč.40/2009 Sb.
ABSTRAKTTato diplomová práce se zabývá zpracováním řečového signálu osob postižených Parkin-sonovou nemocí za účelem vytvoření statistického vzorku řečových parametrů, pomocíněhož bude možno rozdělit zkoumané osoby na parkinsoniky a neparkinsoniky. Tento sta-tistický vzorek je tvořen na základě detekce hypokinetické dysartrie u osob postiženýchParkinsonovou nemocí. V práci je rozebíráno předzpracování řečového signálu pomocímetody ustřednění a preemfáze a jeho rozdělení na části (segmentace). Následně jepopsáno parametrické vyjádření zpracovávaného vzorku pomocí fonačních parametrů,MFCC a PLP koeficientů. Dále jsou rozebírány možnosti statistické analýzy pomocízmíněného parametrického vyjádření. V přípádě této práce statistická analýza sestáváz výpočtu Pearsonova a Spearmanova korelačního koeficientu, vzájemné informace aparametrického Studentova t-testu a neparametrického Mann-Whitneyova U testu. Vý-sledkem práce je soubor řečových parametrů pro jednotlivé dlouhé české samohlásky,které dokáží dle provedené statistické analýzy nejlépe vyjádřit rozdíl mezi zdravým řeč-níkem a parkinsonikem. Tyto výsledky mohou napomoci při diagnóze osoby, u níž jepodezření na Parkisonovu nemoc.
KLÍČOVÁ SLOVAParkinsonova nemoc, hypokinetická dysartrie, řečový signál, předzpracování signálu, pa-rametrizace signálu, statistická analýza, MFCC, PLP, korelační analýza, Pearson, Spear-man, vzájemná informace, Studentův t-test, Mann-Whitneyův U test
ABSTRACTThis thesis deals with speech analysis of people who suffer from Parkinson’s disease.Purpose of this thesis is to obtain statistical sample of speech parameters which helps todetermine if examined person is suffering from Parkinson’s disease. Statistical sample isbased on hypokinetic dysarthria detection. For speech signal pre-processing DC-offset re-moval and pre-emphasis are used. The next step is to divide signal into frames. Phonationparameters, MFCC and PLP coefficients are used for characterization of framed speechsignal. After parametrization the speech signal can be analyzed by statistical methods.For statistical analysis in this thesis Spearman’s and Pearson’s correlation coefficients,mutual information, Mann-Whitney U test and Student’s t-test are used. The thesisresults are the groups of speech parameters for individual long czech vowels which arethe best indicator of the difference between healthy person and patient suffering fromParkinson’s disease. These result can be helpful in medical diagnosis of a patient.
KEYWORDSParkinson’s disease, hypokinetic dysarthria, speech signal, signal pre-processing, signalparameterization, statistical analysis, MFCC, PLP, correlation analysis, Pearson, Spear-man, mutual information, Student’s t-test, Mann-Whitney U Test
BIJOTA, Jan Aplikace statistické analýzy řeči pacientů s Parkinsonovou nemocí: diplo-mová práce. Brno: Vysoké učení technické v Brně, Fakulta elektrotechniky a komuni-kačních technologií, Ústav telekomunikací, 2016. 79 s. Vedoucí práce byl Ing. ZoltánGaláž.
Vysázeno pomocí balíčku thesis verze 2.61; http://latex.feec.vutbr.cz
PROHLÁŠENÍ
Prohlašuji, že svou diplomovou práci na téma „Aplikace statistické analýzy řeči pacientůs Parkinsonovou nemocí“ jsem vypracoval(a) samostatně pod vedením vedoucího diplo-mové práce a s použitím odborné literatury a dalších informačních zdrojů, které jsouvšechny citovány v práci a uvedeny v seznamu literatury na konci práce.
Jako autor(ka) uvedené diplomové práce dále prohlašuji, že v souvislosti s vytvoře-ním této diplomové práce jsem neporušil(a) autorská práva třetích osob, zejména jsemnezasáhl(a) nedovoleným způsobem do cizích autorských práv osobnostních a/nebo ma-jetkových a jsem si plně vědom(a) následků porušení ustanovení S 11 a následujících au-torského zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právemautorským a o změně některých zákonů (autorský zákon), ve znění pozdějších předpisů,včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavyVI. díl 4 Trestního zákoníku č. 40/2009 Sb.
Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)
PODĚKOVÁNÍ
Rád bych poděkoval vedoucímu diplomové práce panu Ing. Zoltánovi Galážovi za odbornévedení, konzultace, trpělivost a podnětné návrhy k práci.
Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)
PODĚKOVÁNÍ
Výzkum popsaný v této diplomové práci byl realizován v laboratořích podpořených z pro-jektu SIX; registrační číslo CZ.1.05/2.1.00/03.0072, operační program Výzkum a vývojpro inovace.
Brno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .podpis autora(-ky)
Faculty of Electrical Engineeringand CommunicationBrno University of TechnologyPurkynova 118, CZ-61200 BrnoCzech Republic
http://www.six.feec.vutbr.cz
OBSAH
Úvod 12
1 Zpracování řečového signálu 131.1 Řeč jako prostředek komunikace . . . . . . . . . . . . . . . . . . . . . 131.2 Jazykovědní disciplíny . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Fonetika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.2 Fonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Morfonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Tvorba a vnímání řeči . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.1 Vztah mluvčí-posluchač . . . . . . . . . . . . . . . . . . . . . . 141.3.2 Fyziologie řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Parkinsonova nemoc 172.1 Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Historie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Příčiny vzniku PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4 Příznaky PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Průběh PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6 Léčba PN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Hypokinetická dysartrie 193.1 Dysartrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Poruchy u HD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Poruchy fonorespirace . . . . . . . . . . . . . . . . . . . . . . 193.2.2 Poruchy faciokineze . . . . . . . . . . . . . . . . . . . . . . . . 203.2.3 Poruchy fonetiky . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Řečová analýza HD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4 Předzpracování řečového signálu 224.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Ustřednění . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.3 Preemfázová filtrace signálu . . . . . . . . . . . . . . . . . . . . . . . 234.4 Segmentace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5 Parametrizace řečového signálu 255.1 Fonační parametry . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.2 Koeficienty zohledňující vlastnosti sluchového ústrojí . . . . . . . . . 26
5.2.1 Melovské kepstrální koeficienty . . . . . . . . . . . . . . . . . 26
5.2.2 Percepční lineární predikční koeficienty . . . . . . . . . . . . . 275.3 Formanty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6 Post-processing parametrů 32
7 Statistická analýza parametrů 337.1 Korelační analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7.1.1 Pearsonův korelační koeficient . . . . . . . . . . . . . . . . . . 337.1.2 Spearmanův korelační koeficient . . . . . . . . . . . . . . . . . 34
7.2 Vzájemná informace . . . . . . . . . . . . . . . . . . . . . . . . . . . 347.3 Parametrické a neparametrické statistické
testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367.3.1 Studentův t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 377.3.2 Mann–Whitneyův U test . . . . . . . . . . . . . . . . . . . . . 38
8 Blokové schéma systému 40
9 Praktická část 419.1 Vstupní data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419.2 Předzpracování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419.3 Parametrizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429.4 Post-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429.5 Statistická analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
9.5.1 Hodnoty statistických parametrů samohlásek . . . . . . . . . . 439.6 Optimalizace zdrojového kódu . . . . . . . . . . . . . . . . . . . . . . 46
10 Závěr 48
Literatura 50
Seznam symbolů, veličin a zkratek 54
Seznam příloh 56
A Histogramy řečových parametrů 57
B Statistiky řečových parametrů 67
C Doplňkové informace pro statistickou analýzu 73
D Obsah přiloženého DVD 79
SEZNAM OBRÁZKŮ1.1 Produkce a vnímání řeči. . . . . . . . . . . . . . . . . . . . . . . . . . 151.2 Průřez hlasovým ústrojím [30] . . . . . . . . . . . . . . . . . . . . . . 164.1 Základní schéma AČ převodu. . . . . . . . . . . . . . . . . . . . . . . 224.2 Srovnání pravoúhlého a Hammingova okna. . . . . . . . . . . . . . . . 245.1 Křivky stejné hlasitosti podle normy ISO 226:2003 [12] . . . . . . . . 295.2 Hellwagův trojúhelník . . . . . . . . . . . . . . . . . . . . . . . . . . 307.1 Nízké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s . . . . . . . . . . . . 357.2 Vysoké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s . . . . . . . . . . . 357.3 Vztah mezi vzájemnou informací a entropií . . . . . . . . . . . . . . . 368.1 Blokové schéma systému statistického zpracování . . . . . . . . . . . 40A.1 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé
samohlásky „a“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57A.2 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé
samohlásky „e“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58A.3 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé
samohlásky „i“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59A.4 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé
samohlásky „o“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60A.5 Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé
samohlásky „u“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.6 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky
„A“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62A.7 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky
„E“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.8 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky
„I“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64A.9 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky
„O“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65A.10 Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky
„U“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
SEZNAM TABULEK5.1 Převodní tabulka mezi 𝑓Hz a 𝑓bark [6] . . . . . . . . . . . . . . . . . . 289.1 Hodnoty statistických parametrů dlouhé samohlásky „á“ . . . . . . . 449.2 Hodnoty statistických parametrů dlouhé samohlásky „é“ . . . . . . . 449.3 Hodnoty statistických parametrů dlouhé samohlásky „í“ . . . . . . . 459.4 Hodnoty statistických parametrů dlouhé samohlásky „ó“ . . . . . . . 469.5 Hodnoty statistických parametrů dlouhé samohlásky „ú“ . . . . . . . 46B.1 Vybrané popisné statistiky samohlásky „á“ . . . . . . . . . . . . . . . 68B.2 Vybrané popisné statistiky samohlásky „é“ . . . . . . . . . . . . . . . 69B.3 Vybrané popisné statistiky samohlásky „í“ . . . . . . . . . . . . . . . 70B.4 Vybrané popisné statistiky samohlásky „ó“ . . . . . . . . . . . . . . . 71B.5 Vybrané popisné statistiky samohlásky „ú“ . . . . . . . . . . . . . . . 72C.1 Kritické hodnoty Studentova t-testu . . . . . . . . . . . . . . . . . . . 74C.2 Kritické hodnoty jednostranného Mann–Whitneyova U testu pro 𝛼 =
0, 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75C.3 Kritické hodnoty dvoustranného Mann–Whitneyova U testu pro 𝛼 =
0, 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76C.4 Kritické hodnoty jednostranného Mann–Whitneyova U testu pro 𝛼 =
0, 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77C.5 Kritické hodnoty dvoustranného Mann–Whitneyova U testu pro 𝛼 =
0, 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
ÚVODParkinsonova nemoc (PN) je druhé nejčastější neurodegenerativní onemocnění nasvětě. V České republice trpí tímto onemocněním zhruba 25 tisíc lidí. Kvalita životapacientů s PN je snížena jednak kvůli motorickým projevům (např. klidový třes), aletaké kvůli psychickým problémům či kognitivním poruchám [20]. Jedním z moto-rických příznaků této nemoci je zhoršená řeč postižené osoby. Tento příznak se na-zývá hypokinetická dysartrie (HD). Parkinsonik – osoba postižená PN – u kteréhose HD projevuje, má ztíženou verbální komunikaci s okolím. Obtížněji vyslovuje,má sníženou sílu hlasu, jeho řeč se zrychluje a věty zkracují. Také mimika, kterátvoří nedílnou součást komunikace, je narušena. Jelikož má HD své specifické rysy,je předpokladem, že pomocí důkladné analýzy řeči parkinsoniků s touto dysfunkcílze získat soubor statistických dat, který by napomohl určit, zda zkoumaná osobatrpí PN či nikoliv. Tato semestrální práce se zabývá procesem, který vede k získánírelevantních dat – vzorků řečových signálů – a jejich dalšímu zpracování pomocístatistických metod.
První kapitola se zabývá komunikací z pohledu mluvčího a posluchače, jsou zdezmíněny jazykovědní disciplíny a je zde popsána tvorba řeči. V kapitole druhé jepopsaná historie PN. Také jsou zde zmíněny příznaky nemoci, její průběh a léčba.Hypokinetická dysartrie je tématem třetí kapitoly. HD je zde definována a jsouzde rozebrány poruchy fonorespirace, faciokineze a fonetiky. Kapitola čtvrtá popi-suje proces předzpracování signálu, konkrétně ustřednění, preemfázi a segmentaciřečového signálu. Parametrizací nasegmentovaného signálu se zaobírá pátá kapi-tola. Jsou zde popsány postupy pro získání jak fonačních parametrů, tak MFCC aPLP koeficientů. Následující kapitola se zabývá nutností post-processingu získanýchparametrů. Kapitola sedmá rozebírá statistickou analýzu parametrů z pohledu ko-relační analýzy, vzájemné informace a také popisuje parametrické a neparametrickéstatistické testy, konkrétně Studentův t-test a Mann-Whitneyův U test. V kapitoleosmé je znázorněno blokové schéma systému. Poslední kapitola popisuje praktickoučást diplomové práce, tzn. pomocí poznatků předchozích kapitol vytvořit systém prostatistickou analýzu řeči v programu MATLAB.
12
1 ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLUTato kapitola se zabývá řečí a jejím vztahem s předáváním informace. Rozebírátvorbu a vnímání řeči z pohledu mluvčího a posluchače a popisuje fyziologii řeči.
1.1 Řeč jako prostředek komunikaceŘeč se řadí mezi prostředky verbální komunikace, kdy se informace přenáší pomocízměn tlaku vzduchu mezi zdrojem (mluvčím) a cílem (posluchačem). Z hlediskazákladního dělení řeči existuje v každém kulturním jazyce řeč psaná, spojovaná sespisovným jazykem, a historicky starší řeč mluvená.
Kromě verbální komunikace existuje také komunikace neverbální, mezi jejíž pro-středky patří gesta rukou, mimika obličeje nebo také postoj těla [30].
1.2 Jazykovědní disciplínyNíže uvedené vědní disciplíny zkoumající zvuk řeči spolu vzájemně souvisí. Základnírozdělení na fonetiku, fonologii a morfonologii, stejně jako stručný popis těchto dis-ciplín, vychází z [16].
1.2.1 Fonetika
Původně bývala fonetika chápana jako fyziologie mluvy. V průběhu času, zejménadíky technologickému pokroku, přibývaly nové poznatky a z dnešního pohledu zkou-má fonetika zejména tři oblasti řeči. Jsou jimi artikulační stránka řeči (tvorba řeči),percepční stránka řeči (vnímání řeči) a akustická stránka řeči (přenos řeči). Fonetikataké definuje základní jednotku popisu jazyka – hlásku, což je nejmenší zvukovájednotka řeči.
1.2.2 Fonologie
Nauka o funkci hlásek se nazývá fonologie. Zkoumá lidskou řeč z pohledu význa-motvornosti takových prostředků, jenž se prosazují při změně významu nějakéhovýznamového úseku (např. změna intonace změní konstatování v otázku). Základníjednotka – foném – je nejmenší zvukový prostředek, který je schopný rozlišit morfém.Morfémem označujeme minimální jednotku věcného či gramatického významu, častomenší než slovo.
13
1.2.3 Morfonologie
Při komunikaci může docházet ke zobecnění přijímaného zvukového signálu takovýmzpůsobem, že se změní forma slova (morfém kořene nebo kmene slova), ale tatozměna znění není účastníky vyložena jako nová významová jednotka. K takovýmsituacím dochází při změnách hlásek (tzv. hláskových alternacích) uvnitř jednohomorfému (viz podkapitolu 1.2.2). Třída fonémů, které se takto střídají, tvoří jedenmorfoném. Morfoném tvoří základní jednotku vědní disciplíny morfologie.
Hláskové alternace se vyskytují v ohebných (flektivních) jazycích, tj. v jazycích,které používají skloňování, časování, předpony a přípony, pomocí nichž vyjádří čas,pád či rod. Mezi takové jazyky řadíme např. češtinu. Do jazyků neohebných patřínapř. čínština.
1.3 Tvorba a vnímání řeči
1.3.1 Vztah mluvčí-posluchač
Proces tvorby řeči a její vnímaní je naznačen na obrázku 1.1. Mluvčí (zdroj komu-nikace) převede myšlenky, jež chce vyjádřit, do jazykové formy. Mozek mluvčíhovytvoří impulzy přenášené pohybovými nervy, které mají za úkol ovládání svalůmluvních orgánů1. Tyto svaly se pohybují dle nervových impulzů tak, aby v okol-ním vzduchu způsobily změny akustického tlaku a daná informace se k uchu poslu-chače šířila prostřednictvím akustické vlny, aktivující jeho sluchový aparát. Sluchovéústrojí posluchače transformuje akustické podněty zpět na nervové impulzy, a ty jsousmyslovými nervy vedeny do mozku posluchače [30].
1.3.2 Fyziologie řeči
Podklady pro tuto podkapitolu byly převzaty z [21]. Na vzniku akustického signáluse podílí několik orgánů souhrnně označovaných jako mluvidla.
Ústrojí dechové
Aby mohla řeč vzniknout, potřebuje zdroj energie. Tím je vzduch, resp. proud vzdu-chu při výdechu, který produkují plíce. Tento výdechový proud musí překonat přisvém postupu překážky, jenž vytváří různé části mluvidel. Síla tohoto proudu ovliv-ňuje sílu hlasu a částečně také jeho výšku.
1jazyk, hlasivky, čelist, rty apod.
14
MOZEK HLASOVÉ SVALYPOHYBOVÉ NERVY
MYŠLENKA
AKUSTICKÁ VLNA PŘÍJEMCE (POSLUCHAČ)
ZDROJ (MLUVČÍ)
Obr. 1.1: Produkce a vnímání řeči.
Ústrojí hlasové
Výdechový proud dále postupuje průdušnicí přes hrtan a nadhrtanové dutiny ven.Při průchodu hrtanem rozkmitá výdechový proud hlasivkové vazy (překážku). Kmi-tání vzduchový proud naruší tak, že se pravidelně střídá řidší vzduch s hustším avzniká tzv. základní tón. Základní tón prochází částí hrtanu nad hlasivkami, kde jedoplněn zesílením vyšších harmonických tónů. Tento složený zvuk nazýváme „hlas“.Průřez hlasovým ústrojím je znázorněn na obrázku 1.2.
Ústrojí artikulační
Z hrtanu prochází výdechový proud přes hrdelní a ústní dutinu ven retní štěrbinoua současně také přes dutinu nosní. Překážkami, které upravují výslednou řeč, jsouzde jazyk, rty a měkké patro. Artikulační ústrojí má dvě základní funkce:
1. Nadhrtanové dutiny slouží jako rezonanční prostor a při průchodu základníhotónu se zesílí jeho vyšší harmonické tóny. Zvuk, který vznikne, tvoří podstatusamohlásek.
2. Překážky vytvořené artikulačním ústrojím upraví průchod nadhrtanovými du-tinami a výdechový proud je pozměňován. Pohyb vzduchu není periodický atyto vzniklé šumy jsou podstatou souhlásek.
15
2 PARKINSONOVA NEMOCKapitola pojednává o Parkinsonově nemoci. Stručně rozebírá historii této nemoci,příčiny jejího vzniku, příznaky, průběh a její léčbu.
2.1 DefiniceParkinsonova nemoc (PN) je definována jako neurologické onemocnění, postihujícíextrapyramidové složky regulace hybnosti. Extrapyramidový systém (EPS) je zod-povědný za udržení svalového napětí a za koordinaci pohybů.
Jedná se o pomalu postupující onemocnění, při němž mozek postiženého jedincepřestává vyrábět neurotransmiter zvaný dopamin. Se snižující se zásobou dopaminuklesá schopnost jedince kontrolovat svůj pohyb a emoce [34].
2.2 HistorieV roce 1817 popsal ve své práci An Essay on the Shaking Palsy britský chirurg JamesParkinson léčbu tzv. třaslavé obrny, později pojmenované francouzským neurologemJeanem-Martinem Charcotem1 jako Parkinsonova nemoc.
Tato esej pojednává o Parkinsonově zkušenosti se 6ti pacienty, z nichž tři, dlesvých slov, „náhodně potkal na ulici“. Detailně v ní popisuje klinické příznaky one-mocnění a je dnes považována za klenot mezi neurologickou literaturou [5].
2.3 Příčiny vzniku PNPříčiny vzniku Parkinsonovy nemoci nejsou doposud známé. Existuje několik hy-potéz jako např. genetické předpoklady nebo vliv rozpouštědel či těkavých látek,žádná z nich však uspokojivě nevysvětluje veškeré klinické příznaky a následky spo-jené s postupem nemoci [19].
2.4 Příznaky PNVýrazným příznakem Parkinsonovy nemoci je klidový třes (tremor). Tento třes,o kmitočtu zhruba 4–6 Hz, je nejnápadnější na končetinách a projevuje se tehdy,když je osoba s PN v klidu. Při pohybu tento příznak mizí. Tremor je umocněn,pokud je postižený ve stresu či při únavě [34].
11825-1893, francouzský neurolog a profesor patologické anatomie na Pařížské univerzitě [13]
17
Dalšími příznaky PN jsou svalová ztuhlost (rigidita), pohybová chudost (hypoki-neze), problémy s chůzí a zhoršená funkce řečových orgánů (hypokinetická dysartrie,viz kapitolu 3). Dostavit se mohou také tzv. vegetativní příznaky, mezi které patřínapř. nevolnost, pocení či bušení srdce [33].
2.5 Průběh PNU Parkinsonovy nemoci je zajímavým faktem, že se nešíří lineárně v čase. Na počátkunemoci je rychlost postupu nemoci vyšší a časem se zpomaluje.
Nemoc se nejčastěji začíná projevovat ve věku mezi 60.–70. rokem. PN se pro-jevuje asymetricky – začíná na jedné končetině a postupně zasáhne celou polovinutěla, během několika let se rozšíří i na druhou polovinu. První příznaky PN jsoumotorické (klidový třes, nešikovnost postiženého apod.) [24].
2.6 Léčba PNV současnosti není možné Parkinsonovu nemoc zcela vyléčit, lze však tlumit jejípříznaky. Nejznámější léčivou látkou, užívanou v souvislosti s PN, je levodopa (L-Dopa). Tato aminokyselina je prekurzorem2 dopaminu. Z tenkého střeva se vstřebávádo krevního oběhu, a poté co se dostane do mozku je přeměněna na dopamin. Kromělevodopy se používají např. léky pro zlepšení činnosti žaludku a střev, antidepresivaapod.
Kromě medikamentů je důležitou součástí léčby parkinsoniků fyzioterapie. Fy-zioterapeutická cvičení je vhodné provádět pod vedením kvalifikovaného terapeuta.Nedílnou součástí cvičení je nácvik řeči [23].
Pro úspěšnou léčbu je rovněž podstatné, aby byl pacient v dobrém psychickémstavu [26].
2látka, která je předchůdcem jiné látky při biochemických pochodech v organismu [34]
18
3 HYPOKINETICKÁ DYSARTRIEV této kapitole je vysvětlen pojem dysartrie (resp. hypokinetická dysartrie) a jsouzde popsány poruchy, které hypokinetická dysartrie způsobuje u pacientů s Parkin-sonovou nemocí.
3.1 DysartrieDysartrie je podle [25] porucha artikulace. Tato porucha se objevuje u osob, kterémají poškozené orgány sloužící k vytváření řeči (tj. mluvidla, jazyk, rty, zuby. . . )nebo u osob s porušenou inervací1 těchto orgánů či při porušení jejich koordinacesprávného postupného zapojování do tvorby řeči.
Na rozdíl od afázie2, při dysartrii dochází pouze ke zhoršení kvality výslovnosti.Vlastní tvorba řeči zůstává neporušená a význam jednotlivých slov dává smysl. Častovzniká jako následek cévní mozkové příhody či jiných onemocnění narušujících pro-ces řeči (např. obrna lícního nervu).
Hypokineze označuje pohybovou chudost. Jedná se o nedostatek volních i re-flexních pohybů [34]. Hypokinetická dysartrie (HD) je porucha motorické stránkytvorby řeči u Parkinsonovy nemoci. Podle závažnosti rozlišujeme lehký, střední atěžký stupeň poruchy [35].
3.2 Poruchy u HDPodklady pro tuto podkapitolu byly převzaty z [35].
3.2.1 Poruchy fonorespirace
V počátku PN se obvykle projevují odchylky v oblasti tvorby hlasu (fonace). Přivyšetření pacientů byl zjištěn hlasový třes, omezené, nesouměrné či pomalé chvěníhlasivek a jejich nedokonalé sevření. Podle výzkumů klesá síla hlasu u parkinsonikůrychleji než u osob bez postižení PN a rozsah výšky hlasu postižených osob bývánižší. Při hovoru s osobou s PN vnímáme její hlas jako monotónní; objevuje sehypofonie, která se projevuje nevýrazným a tichým hlasem (sníží se síla hlasu) adysfonie, kdy je hlas zastřený, chraptivý, drsný – dochází k poklesu kvality hlasu.Pacienti obtížně zesilují nebo zeslabují svůj hlas. Vyskytuje se hypernazalita, neboli„huhňavost“, která vzniká při artikulaci. Je způsobena změnou rezonance zvukuhlásek, čili se jedná o poruchu rezonance hlasu.
1zásobování části těla nervovými vlákny prostřednictvím určitého nervu [34]2porucha tvorby a porozumění řeči [34]
19
S dýcháním (respirací) velmi úzce souvisí tvorba hlasu. Respirace je tvořenanádechem (inspiria) a výdechem (expiria). Obě zmíněné fáze dýchání jsou u parkin-soniků narušeny. Hospodaření s dechem není efektivní, pacient s PN používá krátkévěty, zvyšuje rychlost mluvy, s obtížemi koordinuje dýchání a mluvení, při řeči senenadechuje správně apod.
3.2.2 Poruchy faciokineze
Pojmem faciokineze je označována svalová činnost obličeje. Snížená mimika obličeje(hypomimie) je typickým symptomem špatně fungující faciokineze. Ovlivněn je cel-kový výraz obličeje, vyjadřování emocí je pro parkinsonika obtížnější, narušena jeneverbální komunikace. Tím je zasažen každodenní život pacientů, jejich mezilidskévztahy či sociální kontakty.
V pozdějším stádiu nemoci, kdy je faciokineze silně narušena, hovoříme u par-kinsoniků o tzv. maskovitém obličeji.
3.2.3 Poruchy fonetiky
Poruchy fonetiky (viz 1.2.1) dělíme u PN na poruchy v oblasti artikulace, prozódiea plynulosti řeči.
Správná artikulace souvisí s činností svalů úst a obličeje (tj. orofaciální oblast).Studie jež zkoumaly artikulační svalstvo zjistily snížení rozsahu artikulačního sval-stva a rychlosti jejich pohybu. U parkinsoniků je v souvislosti s artikulací přítomnapředevším narušená výslovnost souhlásek. Ať už na úrovni slov, vět či delší mluvy,poruchy artikulace můžou být u pacientů s PN lehčího až těžšího rázu. Projevují senedbalou, nepřesnou výslovností se vlivem na srozumitelnost řeči. Úplná neschop-nost artikulovat se nazývá anartrie.
Mezi prozodické činitele řeči se řadí přízvuk, melodie, rychlost a pauzy. Titočinitelé výraznou měrou přispívají k vyjádření emočního ladění mluvčího, dodávajísdělení význam či zdůrazňují obsah vyjádření. Nedostatek všech zmíněných faktorůje u parkinsoniků. Řeč se stává monotónní kvůli nepřítomnosti např. větné melo-die nebo přízvuku. Rychlost řeči bývá narušena jak ve smyslu zpomalení (bradyfe-mie) tak i zrychlení (tachyfemie). Tachyfemie snižuje schopnost správně vyslovovat,v mluveném projevu ovlivňuje umisťování pauz.
Na plynulost řeči u PN mají vliv dvě formy poruch – hezitace a palilalie.Tyto poruchy se mohou vyskytovat samostatně či souběžně. Hezitace se projevujetzv. zárazy, což jsou neúmyslné a neplánované pauzy, vyskytující se kdekoli v prů-běhu mluveného projevu. Zrychlené opakování slabik na začátku, uprostřed či nakonci jednotlivých slov nebo opakování celých slov je projevem palilalie.
20
3.3 Řečová analýza HDPro řečovou analýzu HD je v klinické praxi používán tzv. Test 3F. Tento diagnostickýnástroj, jež mapuje poruchy řeči u dysartrie, byl pro český jazyk vytvořen v roce1997. Jednalo se o subjektivně stanovenou škálu řečového projevu pacientů trpícíchdysartrií, jež byla objektivně stanovena vyšetřením řečového specialisty. Závažnostdysartrie bylo poté možné pomocí Testu 3F kvantifikovat. Původní verze testu bylazjednodušena a v současnosti existuje 3. revize, která obsah testu dělí na tři soubory:faciokinezi, fonorespiraci a fonetiku [15].
21
4 PŘEDZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLUTato kapitola objasňuje důvody předzpracování řečového signálu. Popisuje metoduustřednění signálu, preemfázi a segmentaci signálu. Hlavními podklady jsou [3] a[30].
4.1 ÚvodV současnosti, zejména kvůli rychlému rozmachu internetu a informačních technolo-gií obecně, se mluvená řeč (resp. řečový signál) zpracovává výhradně číslicově. Signálse do číslicové podoby musí nejprve převést pomocí analogově-číslicového (AČ) pře-vodu (viz obr. 4.1) [29].
VZORKOVÁNÍ KVANTOVÁNÍ KÓDOVÁNÍ y[n]x(t)
Obr. 4.1: Základní schéma AČ převodu.
Při takovém převodu se vstupní spojitý signál nejprve navzorkuje, tj. převedese na signál s diskrétním časem. Diskrétní signál je poté nakvantován – jednotlivédiskrétní vzorky jsou vyjádřeny pomocí konečné množiny čísel. Při kvantizaci signáluvzniká kvantizační šum. Pomocí kódování je nakonec kvantovaný signál vyjádřenv binárním kódu (doplňkovém, inverzním aj.).
Před samotným AČ převodem je třeba signál upravit (předzpracovat), aby bylojeho další zpracování jednodušší a byl tak lépe uzpůsoben analýze. Předzpracovánířečového signálu je v anglicky psané literatuře označováno jako pre-processing.
Výsledný signál ovlivňuje mj. kvalita použitých přístrojů a jejich vlastnosti,např. odstup signálu od šumu (SNR) u mikrofonu, nebo také prostředí a jeho kmi-točtová charakteristika.
4.2 UstředněníUstřednění je chápáno jako odstranění stejnosměrné složky (DC-offset) signálu. Tatosložka nenese žádnou užitečnou informaci a může být pro další zpracování signálurušivá.
22
Ustřednění se provádí odečtením střední hodnoty od vstupního signálu. Středníhodnotu je možné vypočítat dvěma způsoby:
1. Off-line střední hodnota se použije v případě, kdy je signál, z nějž se středníhodnota počítá, konečný. Hodnota stejnosměrné složky se vypočítá jako prů-měr signálu následovně:
𝑠 = 1𝑁
·𝑁∑
𝑛=1𝑠 [𝑛] , (4.1)
kde 𝑁 značí počet vzorků signálu.2. Pokud je signál dlouhý či není ukončený a jeho hodnoty neustále přibývají,
můžeme odhadnout on-line střední hodnotu rekurzivně:
𝑠 [𝑛] = γ · 𝑠 [𝑛] − 1 + (1 + γ) · 𝑠 [𝑛] , (4.2)
kde γ → 1.
4.3 Preemfázová filtrace signáluV kmitočtovém pásmu leží značná část energie řečového signálu pod hranicí 300 Hz,avšak užitečná informace se vyskytuje nad tímto kmitočtem. Kvantizační šum, jenžvzniká při kvantizaci navzorkovaného signálu, má zhruba rovnoměrné spektrum.Jeho negativní vliv se tedy projevuje na vyšších kmitočtech složek spektra. Prvníformant 𝐹1 (viz podkapitolu 5.3) u znělých hlásek1 má navíc větší energii než ostatníformanty.
Pro kompenzaci těchto vlivů se používá filtr typu horní propusti s konečnouimpulsní odezvou (FIR), jehož přenosová funkce může být například rovna:
𝐻 (𝑧) = 1 − 𝑎1 · 𝑧−1, (4.3)
kde 𝑎1 ∈ ⟨0, 9; 1⟩.
4.4 SegmentaceSignál řeči je považován za náhodný. To může být při jeho zpracování problém, pro-tože pro metody odhadu parametrů signálu jsou potřeba signály stacionární, tedytakové signály, jejíž libovolné statistické charakteristiky nejsou závislé na umístěnípočátku časové osy. Je proto nezbytné signál rozdělit na kratší úseky (rámce, seg-menty), ve kterých můžeme signál za stacionární považovat.
1např. samohlásky, jedinečné souhlásky
23
U rámců je sledována jejich délka (typicky 20–25 ms), překrytí (to u rámců můžeči nemusí být) a posun rámce. Pro získání jednotlivých rámců ze signálu je nutné po-užít okénkové funkce (windowing function). V pre-processingu se používá pravoúhléokno (rectangular), jež signál nijak neupravuje (pouze jej „vystřihne“) nebo Ham-mingovo okno (dochází k utlumení signálu na jeho okrajích). Hammingovo okno jedefinováno následovně [9]:
ℎh [𝑛] = 0, 54 − 0, 46 · cos(2 · π · 𝑛
𝑁
)pro 0 ≤ 𝑛 < 𝑁, (4.4)
kde 𝑛 je aktuální vzorek a 𝑁 značí délku okna.Funkce Hammingova i pravoúhlého okna v čase je zobrazena na obr. 4.2.
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
t [ms]
ampl
ituda
[−]
pravoúhlé oknoHammingovo okno
Obr. 4.2: Srovnání pravoúhlého a Hammingova okna.
Nasegmentovaný signál je nutno složit pokud má být dále upravován. Syntézase provádí buď metodou odstranění přesahu nebo metodou přičtení přesahu – ta sepoužívá častěji.
24
5 PARAMETRIZACE ŘEČOVÉHO SIGNÁLUKapitola se věnuje parametrům, jež dokáží vyjádřit vlastnosti řečového signálu apopisuje jejich výpočet. Kromě fonačních parametrů se zabývá koeficienty MFCC aPLP, které berou v úvahu vlastnosti lidského sluchu.
5.1 Fonační parametryAby bylo možné řečový signál analyzovat, je nutné jej parametricky vyjádřit. K tomuslouží tzv. fonační parametry. Nejvýznamějším fonačním parametrem je základní tónřeči [22].
Základní tón řeči je reprezentován fundamentálním kmitočtem 𝐹0, který vyja-dřuje výšku hlasu mluvčího. Tento kmitočet se nalézá obvykle v kmitočtovém pásmu60–400 Hz [30]. Pro získání jeho hodnoty v časové oblasti se užívá metoda krátko-dobé autokorelační funkce (ACF) a její modifikace. Vzorec pro výpočet ACF vypadánásledovně:
𝑅𝑛 (𝑚) =∞∑
𝑘=−∞𝑠 (𝑘) · 𝑤 (𝑛 − 𝑘) · 𝑠 (𝑘 + 𝑚) · 𝑤 (𝑛 − 𝑘 − 𝑚) , (5.1)
kde 𝑤(𝑛) je pravoúhlé nebo Hammingovo okno. Fundamentální kmitočet základníhotónu řeči může být u některých jedinců nižší než 100 Hz a proto je vhodné použítdostatečně široké okno (cca 20–40 ms). Funkce ACF využívá periodičnosti signálu;dosahuje maximálních hodnot v časech 𝑚 = 𝑇0
𝑇, 2·𝑇0
𝑇, 3·𝑇0
𝑇. . . , a proto je možné vy-
počítat 𝐹0 následovně:𝐹0 = 𝑓vz
𝐾(Hz) , (5.2)
kde 𝐾 označuje polohu prvního vrcholu. Kromě časové oblasti lze detekovat funda-mentální kmitočet 𝐹0 také ve spektrální nebo kepstrální oblasti. Pro obě oblasti sevyužívá algoritmu FFT.
Dalším parametrem je intenzita (příp. amplituda či energie), reprezentující hla-sitost mluvčího. Pro výpočet krátkodobé energie signálu lze využít vztahu:
𝐸 = 1𝑁
·𝑁−1∑𝑛=0
|𝑥[𝑛]|2 . (5.3)
Rovnice 5.3 platí pro jeden rámec řečového signálu. Pro výpočet intenzity lze takévyužít Teagerův Kaiserův energetický operátor (TKO) [14], který je počítán procelý signál následovně:
Ψ (𝑥 [𝑛]) = 𝑥2 [𝑛] − 𝑥 [𝑛 + 1] · 𝑥 [𝑛 − 1] . (5.4)
25
Mezi fonační parametry se také řadí doba trvání, která představuje délku jed-notlivých řečových segmentů jako např. hlásek či fonémů.
Vlastnosti hlasového traktu, které výše uvedené parametry vyjadřují, se označujítermínem prozódie. Jedná se o tzv. suprasegmentální vlastnosti, které se zaobírajídelšími úseky řeči (v řádu stovek ms).
5.2 Koeficienty zohledňující vlastnosti sluchovéhoústrojí
Mezi parametry, které při výpočtu berou v potaz vlastnosti sluchového ústrojí jsouřazeny Melovské kepstrální koeficienty (MFCC) a Percepční lineární predikční koefi-cienty (PLP) [30]. Tyto parametry vyjadřují segmentální vlastnosti hlasového traktua pro jejich výpočet se užívá krátkých řečových úseků (20–30 ms).
MFCC i PLP zohledňují tzv. maskování. Kmitočtové maskování je způsobenorozdílem intenzit dvou zvuků, které současně přicházejí do sluchového orgánu. Zvuks vyšší intenzitou zasytí smyslové buňky na určitém kmitočtu, které tak nejsouschopné přijmout další podráždění. Vjem zvuku s nižší intenzitou je poté zeslabenči úplně potlačen. Jev maskování je možné pozorovat také chvíli před zazněnímmaskovacího zvuku a také chvíli po jeho odznění. Tento typ se nazývá jako dočasnémaskování [28].
Níže uvedené koeficienty berou v potaz také subjektivní výšku tónu vzniklou nazákladě pozorování. Její jednotkou je mel a na kmitočtu je nelineárně závislá. Harmo-nický signál s kmitočtem 1000 Hz a hladině hlasitosti 40 fónů odpovídá subjektivnívýšce 1000 melů.
5.2.1 Melovské kepstrální koeficienty
K získání Melovských kepstrálních koeficientů je třeba převést kmitočtovou osu spek-tra řečového signálu z jednotek Hz na jednotky mel. Z takto upraveného spektra sepoté vypočítá reálné kepstrum. Postup pro výpočet MFCC je následující [9]:
Nejprve na signál aplikujeme segmentaci signálu (viz podkapitolu 4.4) s vhodnězvoleným typem okna. Délka rámce závisí na typu zpracování (obvykle 10–30 ms).Použití preemfázové filtrace signálu (viz podkapitolu 4.3) není vyžadováno.
Na jeden rámec 𝑥 [𝑛] je použita rychlá Fourierova transformace (FFT), díky nížse získá obraz diskrétní Fourierovy transformace (DFT) rámce:
𝑋 [𝑘] =𝑁−1∑𝑛=0
𝑥 [𝑛] · e−j·𝑘 · 2·π𝑁
·𝑛, (5.5)
kde 𝑘 = 0, 1, ..., 𝑁 − 1.
26
Pomocí banky kmitočtových filtrů jsou vyjádřeny nelineární vlastnosti řečovéhosignálu a maskování. Tyto filtry mají trojúhelníkovou modulovou kmitočtovou cha-rakteristiku. Zpracovávané kmitočtové pásmo je nejdříve převedeno ze stupnice v Hzna stupnici v melech [11]:
𝑓m = 2595, 0375 · log(
1 + 𝑓
700
)(mel) , (5.6)
a poté jsou do tohoto kmitočtového pásma rovnoměrně rozmístěny trojúhelníkovéfiltry. Díky převodu na melovskou stupnici je banka filtrů nerovnoměrně rozložena naHz škále a rovnoměrně na melovské škále. Kmitočtové charakteristiky jednotlivýchfiltrů je možné definovat následovně:
𝐻m [𝑘] =
⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩0, pro 𝑘 < 𝑓 [𝑚 − 1] ∨ 𝑘 > 𝑓 [𝑚 − 1]1, pro 𝑓 [𝑚 − 1] ≤ 𝑘 ≤ 𝑓 [𝑚]2, pro 𝑓 [𝑚] ≤ 𝑘 ≤ 𝑓 [𝑚 + 1]
, (5.7)
kde 𝑓 [𝑚] značí hraniční kmitočty filtrů zvolené banky.Dále je nutné stanovit výkonové spektrum spektra řečového signálu |𝑋[𝑘]|2.
Spektrum násobíme postupně filtry 𝐻m [𝑘] z banky filtrů. Výkon spektra pro jed-notlivé filtry lze získat zlogaritmováním filtrovaného výkonového spektra:
𝑌 [𝑚] = ln[
𝑁−1∑𝑘=0
|𝑋 [𝑘]|2 · 𝐻m [𝑘]]
, 0 < 𝑚 ≤ 𝑀. (5.8)
Pro získání výsledných koeficientů MFCC je třeba na výkon spektra 𝑌 [𝑚] použítzpětnou DFT:
𝑐 [𝑛] =𝑀−1∑𝑚=0
𝑌 [𝑚] · cos[π · 𝑛
𝑀·(
𝑚 − 12
)], 𝑛 = 0, 1, . . . 𝑀 − 1. (5.9)
Počet melovských kepstrálních koeficientů, které je možné ve zpracování signálureálně využít se liší podle toho, k čemu budou využity. K rozpoznávání řeči se užíváprvních 13 koeficientů MFCC [22].
5.2.2 Percepční lineární predikční koeficienty
Při výpočtu Percepčních lineárních predikčních koeficientů dochází k předzpraco-vání řečového signálu podobně, jako tomu je u lidského sluchu. Jsou zde zahrnutymaskování, subjektivní hlasitost zvuku a křivky stejné hlasitosti. Samotný výpočetkoeficientů vychází z lineární predikční analýzy [8].
Stejným způsobem jako u MFCC (viz podkapitolu 5.2.1) je řečový signál nejprvesegmentován a poté je pro získání spektra jednoho rámce 𝑥 [𝑛] nejprve provedena
27
FFT dle vzorce 5.5. Dále je třeba odhadnout krátkodobé výkonové spektrální hustotyjednoho rámce:
𝑃 [𝑘] = |𝑋 [𝑘]|2 = Re2{𝑋 [𝑘]} + Im2{𝑋 [𝑘]}, 𝑘 = 0, 1, ..., 𝑁 − 1. (5.10)
Index 𝑘 zde označuje diskrétní hodnotu kmitočtu 𝜔 · 𝑘 = 2 · π · 𝑓 · 𝑘, kde 𝑘 =0, 1, . . . , 𝑁 − 1.
Pro zohlednění vlivů maskování je nezbytné převést pomocí nelineání transfor-mace kmitočtovou osu z hodnot v Hz na hodnoty tzv. barkovy stupnice, jejíž základníjednotkou je bark. Na bazilární membráně existují tzv. kritická kmitočtová pásma,na kterých dochází k maximálnímu rozkmitu membrány. V oblasti slyšitelnosti exis-tuje takových pásem 24 a barková stupnice určuje podle dolních kmitočtů 𝑓d pásemjejich pořadí. Převodní funkce 𝑓bark = 𝑓 (𝑓Hz) bývá označována jako critical-bandrate a má tvar:
𝑓bark = 13 · arctan(7, 6 · 10−4 · 𝑓Hz
)+ 3, 5 · arctan
[(𝑓
7, 5 · 103
)](bark) . (5.11)
V tabulce 5.1 jsou vypočítány odpovídající hodnoty dolních pásem barkové stupnicev Hz [6].
Tab. 5.1: Převodní tabulka mezi 𝑓Hz a 𝑓bark [6]
𝑧 (bark) 𝑓d (Hz) 𝑧 (bark) 𝑓d (Hz)0 0 13 20001 100 14 23202 200 15 27003 300 16 31504 400 17 37005 510 18 44006 630 19 53007 770 20 64008 920 21 77009 1080 22 950010 1270 23 1200011 1480 24 1550012 1720
Banka filtrů u PLP, kterou je potřeba podobně jako u výpočtu MFCC vytvořit,obsahuje filtry typu pásmová propust s lichoběžníkovou modulovou kmitočtovoucharakteristikou, které jsou umístěny lineárně v barkové stupnici. Lidské ucho je
28
různě citlivé pro různé oblasti kmitočtového spektra řečového signálu. Z toho důvoduje třeba provést vážení modulů barkových filtrů pomocí křivek stejné hlasitosti (vizobr. 5.1)1. Potom budou jednotlivé pásmové propusti mít tvar:
𝐻′
𝑚 (𝜔p) = 𝐸 (𝜔) · 𝐻𝑚 (𝜔bark − 𝜔bark,stř) , (5.12)
kde 𝜔bark −𝜔bark,stř = 2 ·π ·𝑓bark,stř je střední kmitočet v barcích 𝑚–tého filtru kritic-kého pásma a 𝐻𝑚 je přenosová funkce původního filtru. Funkce 𝐸 (𝜔) je aproximacícitlivosti lidského sluchu na různých frekvencích, která simuluje citlivost sluchu naúrovni 40 dB a má tvar:
𝐸 (𝜔) = (𝜔2 + 56, 8 · 106) · 𝜔4
(𝜔2 + 6, 3 · 106)2 · (𝜔2 + 0, 38 · 109). (5.13)
102
103
104
0
20
40
60
80
100
120
f [Hz]
hlad
ina
inte
nzity
aku
stic
kého
tlak
u [d
B]
20 fonu
30 fonu
40 fonu
50 fonu
60 fonu
70 fonu
80 fonu
Obr. 5.1: Křivky stejné hlasitosti podle normy ISO 226:2003 [12]
Pro získání nového odhadu výkonové spektrální hustoty se výkonová (krátko-dobá) spektrální hustota jednoho rámce (vypočtená pomocí vztahu 5.10) vynásobíjednotlivými přenosovými funkcemi barkových filtrů. Jednotlivé filtry poté budoumít tvar:
𝑃′ [𝑚] =
𝑀−1∑𝑘=0
𝑃 [𝑘] · 𝐻′
m [𝑘] , 𝑚 = 0, 1, . . . 𝑀 − 1, (5.14)
1vytvořené pomocí skriptu programu MATLAB převzatého z [10]
29
kde 𝑀značí počet barkových filtrů a 𝑁 počet složek krátkodobé výkonové spektrálníhustoty jednoho rámce řečového signálu. Před výpočtem zpětných časových vzorkůjednoho rámce řeči je třeba vzít v potaz vztah mezi intenzitou zvuku a vnímanouhlasitostí:
𝑆 [𝑚] =(𝑃
′ [𝑚]) 1
3 , 𝑚 = 0, 1, . . . 𝑀 − 1, (5.15)a poté je už možné zmíněné vzorky vyjádřit pomocí DFT:
𝑠 [𝑛] = 1𝑀
·𝑀−1∑𝑘=0
𝑆 [𝑘] · ej·𝑘· 2·π𝑀
·𝑚, 𝑚 = 0, 1, . . . 𝑀 − 1. (5.16)
Konečně lze provést samotný výpočet koeficientů PLP. K výpočtu je možné užítnormální rovnice, resp. jejich řešení pomocí autokorelační posloupnosti 𝛾 [𝑛]:
𝑝∑𝑖=0
𝑎𝑝 [𝑖] · 𝛾 [𝑗 − 𝑖] = 𝐸𝑓𝑝 pro 𝑗 = 0, (5.17)
𝑝∑𝑖=0
𝑎𝑝 [𝑖] · 𝛾 [𝑗 − 𝑖] = 0 pro 𝑗 = 1, 2, . . . 𝑝, 𝑎𝑝 [0] = 1. (5.18)
5.3 FormantyFormanty patří mezi segmentální parametry. Jedná se o kmitočty na kterých docházík rezonanci v nadhrtanových dutinách. Různé hlásky mají různá umístění formantů.Na obrázku 5.2 je znázorněn Hellwagův trojúhelník, který zobrazuje rozdělení sa-mohlásek dle svislého a vodorovného pohybu jazyka. Na obrázku je také zaznačeno,jak pohyb jazyka ovlivňuje první tři formanty 𝐹1, 𝐹2 a 𝐹3.
I U
E O
A
F2, F3
F1
Obr. 5.2: Hellwagův trojúhelník
Pro kmitočty formantů se provádí odhad pomocí pólů syntetizujícího filtru 𝐻(𝑧).Přenosová funkce 𝐻(𝑧) je tvořena pomocí lineárně predikčních koeficientů (LPC):
𝐻 (𝑧) = 1
1 +𝑝∑
𝑖=1𝑎𝑝 [𝑖] · 𝑧−1
, (5.19)
30
kde 𝑝 označuje řád lineární predikce. Optimální řád predikce lze vypočíst pomocívztahu:
𝑝 =⌊
𝑓𝑣𝑧
1000
⌋+ 2. (5.20)
Odhadovaný formant (tj. pól) má komplexní tvar:
𝑧 = |𝑧| · e𝑗·𝜙, (5.21)
kde 𝜙 značí argument pólu a nabývá hodnot ⟨−π;π⟩. Pro kmitočet odhadovanéhoformantu platí následující rovnice:
𝐹𝑥 = 𝜙
2 · π· 𝑓𝑣𝑧 (Hz) , (5.22)
kde 𝑥 značí číslo formantu a šířku pásma lze vypočíst podle:
𝐹𝑥BW = − ln |𝑧|2 · π
· 𝑓𝑣𝑧 (Hz) . (5.23)
Pro odhadovaný pól 𝑧 musí platit, že leží v kladné poloose jednotkové kružnice.Další možností je použití metody založené na vyhledávání vrcholu spektrální
obálky [30].
31
6 POST-PROCESSING PARAMETRŮNěkteré z parametrů, získaných analýzou řeči (viz kapitolu 5), mohou být ve vek-torovém či maticovém formátu. Takto vyjádřená data jsou ovšem ve vektorovém čimaticovém formátu (kvůli segmentaci signálu atd.) a proto jsou nevhodná pro dalšízpracování – statistickou analýzu dat. Proto je nezbytné vyjádřit statistické vlast-nosti těchto parametru pomocí jednoduchých popisných statistik. Zpracovaná databudou vyjádřena pomocí následujících popisných statistik:
• střední hodnota (��),• medián (𝑥),• směrodatná odchylka (𝜎),• rozptyl (𝜎2),• střední absolutní odchylka (MAD),• maximum (max),• minimum (min),• mezikvartilové rozpětí (IQR),• 1. kvartil (Q1),• 3. kvartil (Q3),• koeficient šikmosti (𝛾1),• koeficient špičatosti (𝛾2).Výše uvedené statistiky jsou pouhými odhady hodnot, protože jsou počítány
z omezeného vzorku dat.
32
7 STATISTICKÁ ANALÝZA PARAMETRŮV této kapitole jsou rozebrány poznatky z oblasti statistické analýzy. Základnímpramenem pro tuto kapitolu je [27].
7.1 Korelační analýzaKorelační analýza vyjadřuje sílu vztahu mezi dvěma (či více) proměnnými. Jejím cí-lem je určit do jaké míry lze předpovědět hodnocení subjektu dané proměnné, pokudje známé hodnocení subjektu jiné proměnné. Výsledná hodnota korelační analýzy –korelační koeficient – leží obvykle v intervalu ⟨0; 1⟩, kde hodnota 0 značí, že mezitestovanými proměnnými neexistuje žádný statistický vztah a hodnota 1 indikujemaximální míru vztahu testovaných proměnných. Čím více se hodnota korelace blížík 1, tím přesněji může být předpovězeno hodnocení subjektu jedné proměnné z hod-nocení subjektu druhé proměnné.
7.1.1 Pearsonův korelační koeficient
Pearsonův korelační koeficient 𝑟p vyjadřuje míru lineární závislosti mezi dvěma pro-měnnými. Nabývá hodnot z intervalu ⟨−1; 1⟩. Čím větší je absolutní hodnota Pear-sonova korelačního koeficientu, tím jsou více jsou na sobě proměnné lineárně závislé(resp. nezávislé). Znaménko korelačního koeficientu určuje, zda je vztah mezi pro-měnnými lineární („+“) či nelineární („−“).
Pokud dvě proměnné 𝑋 a 𝑌 mají 𝑛 hodnot, lze Pearsonův korelační koeficientvypočítat následovně:
𝑟p =
𝑛∑𝑖=1
𝑋𝑖 · 𝑌𝑖 −
𝑛∑𝑖=1
𝑋𝑖 · 𝑌𝑖
𝑛⎯⎸⎸⎸⎸⎸⎸⎸⎸⎷
⎡⎢⎢⎢⎢⎢⎣𝑛∑
𝑖=1𝑋2
𝑖 −
(𝑛∑
𝑖=1𝑋𝑖
)2
𝑛
⎤⎥⎥⎥⎥⎥⎦ ·
⎡⎢⎢⎢⎢⎢⎣𝑛∑
𝑖=1𝑌 2
𝑖 −
(𝑛∑
𝑖=1𝑌𝑖
)2
𝑛
⎤⎥⎥⎥⎥⎥⎦
. (7.1)
Vypočtená hodnota 𝑟p z rovnice 7.1 je pouze odhadem skutečného Pearsonovakorelačního koeficientu. Pro zjištění existence korelačního vztahu mezi testovanýmiproměnnými je třeba koeficient 𝑟p testovat (viz podkapitolu 7.3).
Na obrázku 7.1 je zobrazení hodnot dvou testovaných souborů 𝑋 a 𝑌 pro nízkouhodnotu Pearsonova korelačního koeficientu. Hodnoty souborů pro vysoký Pearso-nův korelační koeficient jsou na obrázku 7.2.
33
7.1.2 Spearmanův korelační koeficient
Z Pearsonova korelačního koeficientu vychází další korelační koeficient - Spearmanůvkorelační koeficient 𝑟s - jež vyjadřuje míru monotónnosti mezi dvěma proměnnými.Hodnota Spearmanova korelačního koeficientu spadá do intervalu ⟨−1; 1⟩ a, podobnějako u Pearsonova korelačního koeficientu, značí absolutní hodnota koeficientu síluvazby (tj. monotónnost). Dle znaménka koeficientu lze určit, zda je vztah mezi pro-měnnými monotónně vzrůstající („+“) nebo monotónně klesající („−“).
Nechť jsou hodnoty každé z proměnných 𝑋 a 𝑌 seřazeny vzestupně a každéhodnotě je přiděleno pořadí. Za předpokladu, že 𝑑𝑖 značí rozdíl ohodnocení 𝑖–týchhodnot, platí pro výpočet Spearmanova korelačního koeficientu rovnice:
𝑟s = 1 −6 ·
𝑛∑𝑖=1
𝑑2𝑖
𝑛 · (𝑛2 − 1) , (7.2)
kde 𝑛 je počet hodnot proměnných. Vypočtená hodnota 𝑟s je porovnána s kritickýmihodnotami Spearmanova korelačního koeficientu 𝑟s(𝛼,𝑛) pro dané 𝑛 a zvolenou chybu𝛼. V případě, že platí |𝑟s| > 𝑟s(𝛼,𝑛) je Spearmanův korelační koeficient významný nachybové hladině 𝛼, tzn. že byla prokázána vzájemná korelace zkoumaných proměn-ných.
Obrázek 7.1 znázorňuje rozložení hodnot dvou testovaných souborů 𝑋 a 𝑌 s níz-kou hodnotou Spearmanova korelačního koeficientu. Na obrázku 7.2 je zobrazeníhodnot souborů pro vysoký Spearmanův korelační koeficient.
7.2 Vzájemná informaceVzájemná informace (angl. mutual information) je množství informace, kterou ná-hodně zvolená proměnná obsahuje o jiné náhodné proměnné. Jedná se o sníženínejistoty (neurčitosti) náhodné proměnné vzhledem ke znalosti jiné proměnné. Vzá-jemná informace úzce souvisí s entropií (mírou neurčitosti systému), resp. s relativníentropií, která vyjadřuje vzdálenost mezi dvěma rozděleními pravděpodobnosti. En-tropie diskrétní náhodné proměnné 𝑋 je definována:
𝐻 (𝑋) = −𝑁∑
𝑛=1𝑝(𝑛) · log2 𝑝(𝑛) (bit), (7.3)
kde 𝑁 značí počet vzorků proměnné 𝑋 a 𝑝(𝑛) je pravděpodobnostní funkce pro-měnné 𝑋. Relativní entropii lze vyjádřit následovně:
𝐷 (𝑝||𝑞) = 𝐸𝑝 · log 𝑝(𝑋)𝑞(𝑋) , (7.4)
34
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pearson r=−0.0864, Spearman rs=−0.084
X1
X2
Obr. 7.1: Nízké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s
−2 −1 0 1 2 3 4 5−4
−2
0
2
4
6
8
10
Pearson r=0.9194, Spearman rs=0.8978
X1
X2
Obr. 7.2: Vysoké hodnoty Pearsonova 𝑟p a Spearmanova 𝑟s
kde 𝐸𝑝 je střední hodnota rozdělení pravděpodobnosti.Vzájemná informace je pomocí rovnice 7.4 definována jako:
𝐼 (𝑋; 𝑌 ) = 𝐸𝑝(𝑥,𝑦) · log 𝑝 (𝑋, 𝑌 )𝑝 (𝑋) · 𝑝 (𝑌 ) , (7.5)
kde 𝑋 a 𝑌 značí náhodné proměnné, a 𝑝(𝑋, 𝑌 ) je sdružená pravděpodobnostní
35
funkce proměnných 𝑋 a 𝑌 . Pro vyjádření souvislosti mezi vzájemnou informací aentropií lze vztah 7.5 přepsat do tvaru:
𝐼 (𝑋; 𝑌 ) =∑𝑥,𝑦
𝑝 (𝑥, 𝑦) · log 𝑝 (𝑋, 𝑌 )𝑝 (𝑋) · 𝑝 (𝑌 ) , (7.6)
a po numerických úpravách rovnice 7.6 je možné získat vztah mezi vzájemnou in-formací a entropií:
𝐼 (𝑋; 𝑌 ) = 𝐻 (𝑋) − 𝐻 (𝑋|𝑌 ) . (7.7)
H(X|Y) H(Y|X)I(X;Y)
H(X) H(Y)
H(X, Y)
Obr. 7.3: Vztah mezi vzájemnou informací a entropií
Na obrázku 7.3 je pomocí Vennova diagramu znázorněn vztah mezi vzájemnouinformací a entropií [2].
7.3 Parametrické a neparametrické statistickétesty
Hypotéza je definována jako tvrzení o rozdělení pozorované náhodné veličiny. Pokudje takové rozdělení známé, je možno formulovat hypotézu jako tvrzení o hodnotěparametru příslušného rozdělení. Hypotéza se týká celého základního souboru ježje zkoumán. Statistický test je postup, který na vybrané (testované) podmnožinězákladního souboru zjišťuje platnost statistické hypotézy [31].
Vstupní data statistických testů mají formát určité škály. Nominální škála třídídata do jednotlivých, vzájemně se vylučujících, kategorií. Tato škála poskytuje mini-mum informací. Seřadit měřené jevy lze pomocí pořadové škály. U takto seřazenýchdat je možné pouze porovnat, zda je jev A větší než jev B. Větší množství informaceposkytují metrická škálování. Intervalové škálování přiřazuje jevům číselné hodnoty.Toto škálování umožňuje lineární transformaci jako jedinou povolenou transformaci;číselná hodnota nemůže být vyjádřena jako zlomek či násobek. Nejvyšší forma mě-ření je umožněna poměrovou škálou, u níž je jedinou povolenou transformací náso-bení konstantou [30].
36
Statistické testy, jež používají data v intervalové či poměrové škále, jsou označo-vány jako parametrické testy. Tyto testy předpokládají Gaussovo normální roz-ložení dat. Hypotézy se týkají parametrů normálního rozdělení střední hodnoty 𝜇 arozptylu 𝜎.
Naproti tomu testy pracující se vstupními daty v nominální (jmenovité) nebov pořadové škále jsou nazývány neparametrickými testy. Pracují se soubory dat,které mají neznáme rozdělení. U takových souborů je testována tzv. nulová hypotéza,jež vyjadřuje nulový rozdíl mezi testovanými soubory dat.
7.3.1 Studentův t-test
Studentův t-test je parametrický statistický test, užívaný pro testování rozdílu dvoustředních hodnot 𝜇. Dle typu vstupních dat se Studentův t-test dělí na:
• Jednovýběrový t-test – předpokládá známou střední hodnotu 𝜇 u základ-ního souboru hodnot, která je považována za konstantu. Poté je ověřovánahypotéza 𝐻0 : 𝜇 = konst., zda náhodný výběr hodnot z testovaného souborumá střední hodnotu shodnou s danou konstantou.Pro výpočet kritéria t jednovýběrového t-testu je třeba vypočítat odhad smě-rodatné odchylky výběru hodnot testovaného souboru:
𝜎 =
⎯⎸⎸⎸⎸⎸⎸⎸⎸⎷𝑛∑
𝑖=1𝑋𝑖
2 −
(𝑛∑
𝑖=1𝑋𝑖
)2
𝑛
𝑛 − 1 , (7.8)
kde 𝑛 je počet členů výběrového souboru a 𝑋𝑖 je hodnota 𝑖–tého člena výběro-vého souboru. Dále je třeba zjistit standardní chybu průměru výběru hodnottestovaného souboru pomocí vztahu:
𝑠�� = 𝜎√𝑛
. (7.9)
Pro kritérium t jednovýběrového t-testu poté platí rovnice:
𝑡 = �� − 𝜇
𝑠��
, (7.10)
kde �� označuje aritmetický průměr výběrového souboru.• Dvouvýběrový t-test – jedná se o porovnání dvou výběrových souborů, kdy
není známa střední hodnota základního výběru. Tento typ testu se dále dělína párový pro dvě měření jednoho výběrového souboru (typicky před a poaplikaci pokusného zásahu) a nepárový, kdy jsou porovnávány dva nezávislévýběrové soubory. Testuje se hypotéza 𝐻0 : 𝜇1 = 𝜇2. Postup je analogický
37
k jednovýběrovému t-testu, je nezbytné dle vztahu 7.8 vypočítat hodnoty 𝜎1
a 𝜎2 a dle vztahu 7.9 hodnoty 𝑠𝑋1 a 𝑠𝑋2 . Poté pro kritérium t dvouvýběrovéhopárového t-testu platí:
𝑡 = 𝑋1 − 𝑋2√𝜎2
1𝑛1
+ 𝜎22
𝑛2
, (7.11)
a pro kritérium t dvouvýběrového nepárového t-testu platí:
𝑡 = 𝑋1 − 𝑋2√[ (𝑛1−1)·𝜎21+(𝑛2−1)·𝜎2
2𝑛1+𝑛2−2
]·[
1𝑛1
+ 1𝑛2
] . (7.12)
Pokud je při výpočtu jakákoliv hodnota 𝜎 nebo 𝑠�� menší než 0, nastala přivýpočtu chyba a výsledná hodnota kritéria t je neplatná.
Pro vyhodnocení Studentova t-testu je nutné vypočítat stupeň volnosti:
𝑑𝑓 = 𝑛 − 1, (7.13)
kde 𝑛 značí počet hodnot výběrového souboru. Vypočtené kritérium t je poté porov-náno s kritickou tabulkovou hodnotou Studentova t-testu 𝑡1− 𝛼
2 ,𝑑𝑓 (viz přílohu C.1),kde 𝛼 značí hladinu významnosti volenou z hodnot 0, 01 nebo 0, 05. Pokud platí𝑡 ≤ 𝑡1− 𝛼
2 ,𝑑𝑓 mají testované parametry statisticky nevýznamný rozdíl a hypotéza𝐻0 je platná. V případě, že 𝑡 > 𝑡1− 𝛼
2 ,𝑑𝑓 je mezi testovanými parametry statistickyvýznamný rozdíl při 𝛼 = 0, 05 a statisticky vysoce významný rozdíl při 𝛼 = 0, 01a hypotézu 𝐻0 nelze proto přijmout [1].
7.3.2 Mann–Whitneyův U test
Neparametrický Mann–Whitneyův U test zkoumá hypotézu, zda 1. veličina odpo-vídající pokusnému zásahu „A“ a 2. veličina odpovídající pokusnému zásahu „B“mají shodná rozdělení pravděpodobností. Jedná se o párový test – jsou porovnáványdva výběrové soubory.
Nejprve je nutné uspořádat měření obou veličin (tzv. směsný výběr) podle ve-likosti vzestupně a poté jsou měřením přiřazena pořadí od 1 do 𝑛, kde 𝑛 je početčlenů směsného výběru. V případě shody hodnot směsného výběru je takovýmtohodnotám přiřazeno průměrné pořadí. Pro zjednodušení je vhodné vypočítat součtypořadí jednotlivých veličin:
𝑅𝐴 =𝑛1∑𝑖=1
𝑅1𝑖, 𝑅𝐵 =
𝑛2∑𝑖=1
𝑅2𝑖, (7.14)
38
kde 𝑛1 (resp. 𝑛2) je počet členů 1. veličiny (resp. 2. veličiny) a 𝑅1𝑖(resp. 𝑅2𝑖
) je 𝑖–tépořadí 1. veličiny (resp. 2.veličiny). Pro výpočet dílčích U kritérií platí vztahy:
𝑈1 = 𝑛1 · 𝑛2 + 𝑛1 · (𝑛1 + 1)2 − 𝑅𝐴, 𝑈2 = 𝑛1 · 𝑛2 + 𝑛2 · (𝑛2 + 1)
2 − 𝑅𝐵. (7.15)
Z dílčích kritérií 𝑈1 a 𝑈2 je třeba zvolit testovací kritérium U následovně:
𝑈 = min (𝑈1, 𝑈2) . (7.16)
Podobně jako u Studentova t-testu (viz podkapitolu 7.3.1) je nezbytné zvolit hladinuvýznamnosti 𝛼. Hodnota kritéria U je poté porovnávána s tabulkovou hodnotouMann-Whitneyova U testu 𝑈(𝛼,𝑛1,𝑛2) (viz přílohyC.2, C.3, C.4 a C.5). Pokud platí𝑈 < 𝑈(𝛼,𝑛1,𝑛2) je hypotéza 𝐻0 o shodnosti rozdělení veličin 𝑋 a 𝑌 zamítnuta. Pro𝑈 > 𝑈(𝛼,𝑛1,𝑛2) není možné hypotézu 𝐻0 zamítnout [1].
39
8 BLOKOVÉ SCHÉMA SYSTÉMUNávrh systému uvedený na obr. 8.1 vychází z poznatků předchozích kapitol.
PRE-PROCESSING(USTŘEDNĚNÍ, PREEMFÁZE)
SEGMENTACE
PARAMETRIZACEPOST-PROCESSING(PRŮMĚROVÁNÍ,
MEDIÁN )
STATISTICKÁ ANALÝZA (KORELAČNÍ,
INFORMAČNÍ, (NE)PARAMETRICKÉ
METODY )
VSTUPNÍ DATA
VÝSTUPNÍ DATA
Obr. 8.1: Blokové schéma systému statistického zpracování
Na vstupní data (sada řečových cvičení ve formátu WAV) je aplikováno předzpra-cování signálu pomocí ustřednění a preemfáze. Předzpracovaný signál je dále seg-mentován – rozdělen na rámce dané velikosti. Jednotlivé rámce řečového signálujsou poté vyjádřeny pomocí parametrů (fonačních, MFCC, PLP atd.) a parametryve vícerozměrném formátu, tj. vektory či matice, jsou převedeny na formát jedno-rozměrný. Upravené parametry jsou poté podrobeny metodám statistické analýzy,jejichž výsledky jsou výstupní data systému.
40
9 PRAKTICKÁ ČÁSTKapitola popisuje zpracování řešeného problému, čili vytvoření systému pro zpra-cování řečového signálu. Tento systém (viz blokové schéma na obrázku 8.1) bylvytvořen pomocí programu MATLAB. Hlavní skript systému je soubor System.m.
9.1 Vstupní dataJako vstupní data byly použity nahrávky poskytnuté vedoucím práce Ing. ZoltánemGalážem. Jednalo se o nahrávky z 3F testu (viz podkapitolu 3.3), konkrétně na-hrávky prodloužených fonací samohlásek, tzn. á, é, í, ó, ú.
Databáze byla nahrávaná na 1. neurologické klinice Lékařské fakulty Masarykovyuniverzity a Fakultní nemocnice u sv. Anny v Brně v České Republice. Mateřský ja-zyk všech řečníků je čeština. Databáze obsahuje celkem 152 nahrávek, z toho je 53zdravých řečníků a 101 pacientů s PN. U zdravých řečníků je 27 žen a 26 mužů,u pacientů s PN je 41 žen a 60 mužů. Vzorkovací kmitočet nahrávek je 16 kHz.Z důvodu nedokonalosti nahrávek, způsobenými např. hlukem na pozadí, byly ně-které nahrávky z databáze vyřazeny. Počet takovýchto nahrávek se pohyboval v řádujednotek.
Fonace samohlásek patří mezi nejpoužívanější řečová cvičení, sloužící pro popisHD, protože do procesu tvorby hlasu nevstupují lingvistické charakteristiky řeči.Pro účely tvorby robustního a lingvisticky nezávislého popisu HD bylo v této prácivybráno pět prodloužených fonací českých samohlásek a-u.
9.2 PředzpracováníVstupní data byla ustředněna funkcí x = offsetRemoval(x) a poté byla na ně po-užita preemfázová filtrace (funkce x = preemphasis(x)). Pro preemfázový filtr bylazvolena hodnota parametru 𝛼 = 0, 92. Takto předzpracovaná data byla nasegmen-tována funkcí X = segmentation(x, winlen, winover) s délkou okna 20 ms, překrytíoken bylo 50 % délky okna (tj. 10 ms). Jako okénková funkce bylo použito Hammin-govo okno získané pomocí funkce [winlen, winover] = windowFunc(𝑓vz). Vstupní(příp. výstupní) parametry funkcí jsou následující: 𝑥 – řečový vektor, 𝑋 – maticenasegmentovaných signálů, 𝑤𝑖𝑛𝑙𝑒𝑛 – počet vzorků délky okna, 𝑤𝑖𝑛𝑜𝑣𝑒𝑟 – početvzorků překrytí oken.
Toto nastavení pro předzpracování a segmentaci řečového signálu je standardempři zpracovaní patologické řeči [9].
41
9.3 ParametrizaceParametrizace byla provedena pro všechny segmentální a suprasegmentální parame-try z kapitoly 5. Fundamentální frekvence 𝐹0 byla vypočtena pomocí autokorelačnífunkce 𝐹0 = f0autocorr(X, 𝑓vz). Výpočty okamžité energie E a TKO byly prove-deny se standardními hodnotami použitých funkcí E = energy(X), resp. TKO =teagerKaiser(x). Hodnoty koeficientů PLP byly vypočteny pomocí funkce programuMATLAB PLP = rastaplp(x, 𝑓vz, 0, coeff_no), převzatého ze stránek Kolumbijskéuniverzity [4]. Třetí parametr funkce rastaplp říká, že funkce pouze spočítá PLPkoeficienty, parametr coeff_no označuje řád PLP koeficientů.
Řád PLP koeficientů byl podle [17] zvolen na 12 (tj. 13 PLP koeficientů), řádMFCC byl zvolen dle podkapitoly 5.2.1 na 12 (odpovídá 13ti MFCC) a počet for-mantů byl stanoven na 3 základní. Na jejich výpočet byly použity funkce MFCC= mfcc(X, 𝑓vz) a formants = formants(X, 𝑓vz). Výpočty parametrů (kromě PLPkoeficientů) byly převzaty z laboratorních cvičení kurzu MZPR (viz [30]).
Vstupní a výstupní parametry výše uvedených funkcí označují x – řečový vektora X – matici nasegmentovaných signálů.
Použité parametry jsou standardně využívané ve více oblastech zpracování řeči,jako např. popis patologického hlasu, rozpoznání řečníka, rozpoznání emocí z řečiatd.
9.4 Post-processingPro post-processing vypočtených parametrů byly použity všechny popisné statistikyz kapitoly 6, tj. 12 uvedených popisných statistik. Tyto popisné statistiky byly vy-počtený pro každý z výše uvedených parametrů a posloužily jako vstupní údaje prostatistickou analýzu.
9.5 Statistická analýzaStatistická analýza řečových parametrů sestávala z výpočtu Spearmanova a Pearso-nova korelačního koeficientu, dále z výpočtu vzájemné informace a z parametrickéhoStudentova t testu a neparametrického Mann-Whitneyova U testu.
Vstupní parametry Mann-Whitneyova U testu – popisné statistiky – byly rozdě-leny do skupin zdravých řečníků (vstupní vektor HC ) a řečníků s PN (vstupní vektorPD) pro každou samohlásku, celkem do 10ti skupin. Mann-Whitneyův U test bylproveden jednotlivě pro každou samohlásku; vstupními parametry byly vektory po-pisných statistik daného řečového parametru zdravých řečníků a řečníků s PN. Pro
42
výpočet byla použita funkce programu MATLAB U = ranksum(HC, PD), jež jeekvivalentem výpočtu Mann-Whitneyova U testu.
U parametrického Studentova t-testu se postupovalo obdobně jako u Mann-Whitneyova U testu; vstupní parametry byly identické. Funkce [~, t] = ttest2(HC,PD), která je obsažena v programu MATLAB, obstarala výpočet parametru t.
Vstupní data výpočtu vzájemné informace a korelačních koeficientů sestávalaz vektoru aktuálně testovaných parametrů (parametr act_vec) a vektoru odpovída-jící zdravotním stavům testovaný osob – 0 pro zdravého řečníka a 1 pro pacientas PN (parametr stat_vec).
Pro výpočet vzájemné informace byly použity funkce programu MATLAB pře-vzaté z [18] ve tvaru [mi, ~, ~, ~] = information(act_vec’, stat_vec’).
Korelační analýza se dělila na výpočet Pearsonova a Spearmanova korelačníhokoeficientu. MATLAB funkce [r, p] = corr(act_vec, stat_vec, ’type’, ’pearson’) bylapoužita pro výpočet parametrů 𝑟p a parametru p Pearsonova korelačního koefi-cientu; pro výpočet Spearmanova korelačního koeficientu byl parametr určující typkorelačního koeficientu (tj. 4. parametr funkce corr) nahrazen vstupním parametrem’spearman’ ; výstupní parametr r v tomto případě odpovídá hodnotě 𝑟s.
9.5.1 Hodnoty statistických parametrů samohlásek
Jako hlavní řadící kritérium byly zvoleny výsledné parametry Mann-Whitneyova Utestu. V přílohách A.1, A.2, A.3, A.4 a A.5 jsou k nalezení histogramy prodlouže-ných fonací českých samohlásek pro šest řečových parametrů, u kterých byla vypoč-tena nejmenší U hodnota. Většina parametrů vykazuje spíše nenormální rozdělenía proto byl upřednostněn neparametrický test. Řečové parametry, které odpovídajínejmenším vypočteným U hodnotám, by podle předpokladu měly být stěžejní prourčení stavu zkoumaného řečníka. Mann-Whitneyův U test byl použitý v předběžnéstatistické analýze výzkumu HD, viz [7].
Pro porovnání byl jako řadící kritérium použitý také Studentův t-test. Histo-gramy šesti řečových parametrů s nejmenší vypočtenou t hodnotou, jsou zobrazenyv přílohách A.6, A.7, A.8, A.9 a A.10.
Dlouhá samohláska „á“
Pro dlouhou samohlásku „á“ dosahovaly nejmenších U hodnot zejména popisnéstatistiky MFCC (4. ,7. a 1. koeficientu). Nejmenší U hodnotu měl rozptyl 4. MFCC;v tabulce B.1 lze vypozorovat rozdíl tří setin mezi průměrnou hodnotou rozptylu4. MFCC u zdravého řečníka a parkinsonika. Mezi vybrané popisné statistiky se takéřadí třetí kvartil 1. formantu. Hodnota p Pearsonova korelačního koeficientu roz-ptylu 4. MFCC jako jediná z uvedených přesahuje hodnotu 0, 05, tzn. že z hlediska
43
korelační analýzy pomocí výpočtu Pearsonova korelačního koeficientu není statis-ticky významná. V tabulce 9.1 jsou shrnuté výsledky statistické analýzy řečovýchparametrů vypočítané pro prodlouženou fonaci samohlásky „a“. V této tabulce jeuvedených šest parametrů s nejnižší hodnotou parametru U, histogram samohláskyje v příloze A.1.
Tab. 9.1: Hodnoty statistických parametrů dlouhé samohlásky „á“
𝑈 𝑟p 𝑟𝑠 𝐼 𝑡
4. MFCC 𝜎 0, 0077 −0, 2165 −0, 1827 −0, 0524 0, 02384. MFCC 𝜎2 0, 0077 −0, 2165 −0, 153 −0, 0688 0, 05897. MFCC 𝛾2 0, 0118 −0, 2043 −0, 1651 −0, 0417 0, 04141. MFCC 𝛾1 0, 0124 −0, 2031 −0, 221 −0, 0422 0, 0064. MFCC MAD 0, 0129 −0, 2018 −0, 1702 −0, 0434 0, 03551. formant Q3 0, 0129 −0, 2018 −0, 2135 −0, 0312 0, 008
Dlouhá samohláska „é“
Nejmenších U koeficientů dlouhé samohlásky „é“ dosahovaly popisné statistiky ře-čových parametrů zohledňujících vlastnosti sluchového ústrojí, tedy 13. ,11. a 2. PLPkoeficientu a také 7. MFCC. Průměrné maximum 13. PLP koeficientu je u parkin-sonika vyšší o necelou setinu (viz tabulka B.2). Všechny uvedené parametry jsouz hlediska korelační analýzy statisticky významné. V tabulce 9.2 jsou shrnuté vý-sledky statistické analýzy řečových parametrů vypočítané pro prodlouženou fonacisamohlásky „e“. V této tabulce je uvedených šest parametrů s nejnižší hodnotouparametru U. Histogram samohlásky je v příloze A.2.
Tab. 9.2: Hodnoty statistických parametrů dlouhé samohlásky „é“
𝑈 𝑟p 𝑟𝑠 𝐼 𝑡
13. PLP max 0, 0051 0, 2283 0, 2165 −0, 0406 0, 00747. MFCC IQR 0, 0066 0, 2213 0, 2023 −0, 0387 0, 012411. PLP min 0, 0128 −0, 2028 −0, 1996 −0, 0557 0, 01372. PLP 𝜎 0, 0139 0, 2003 0, 1909 −0, 0476 0, 01852. PLP 𝜎2 0, 0139 0, 2003 0, 1711 −0, 0503 0, 0357. MFCC MAD 0, 0153 0, 1974 0, 1734 −0, 0473 0, 0327
44
Dlouhá samohláska „í“
Okamžitá energie E byla řečovým parametrem, jejž koeficient špičatosti měl nejmenšíU hodnotu při testování dlouhé samohlásky „í“. Dalšími řečovými parametry s nej-menšími U hodnotami popisných statistik byly koeficient šikmosti okamžité energieE, 6. a 8. PLP koeficient a 11. MFCC. Průměrná hodnota koeficientu špičatosti oka-mžité energie, nacházející se v příloze B.3, je u zdravých řečníků výrazně vyšší nežu pacientů s PN – hodnota rozdílu je zhruba 0, 3. Jako statisticky nevýznamnýz pohledu Pearsonova korelačního koeficientu se jeví maximum 6. PLP koeficientu.V tabulce 9.3 jsou shrnuté výsledky statistické analýzy řečových parametrů vypo-čítané pro prodlouženou fonaci samohlásky „i“. V této tabulce je uvedených šestparametrů s nejnižší hodnotou parametru U. Histogram samohlásky je v přílozeA.3.
Tab. 9.3: Hodnoty statistických parametrů dlouhé samohlásky „í“
𝑈 𝑟p 𝑟𝑠 𝐼 𝑡
E 𝛾2 0, 0069 −0, 2188 −0, 1391 −0, 0589 0, 085211. MFCC Q1 0, 009 −0, 2114 −0, 21 −0, 0504 0, 00896. PLP max 0, 0113 −0, 2049 −0, 1991 −0, 054 0, 0133E 𝛾1 0, 0118 −0, 2037 −0, 1774 −0, 0431 0, 027811. MFCC �� 0, 0153 −0, 1963 −0, 1985 −0, 0537 0, 01368. PLP 𝛾1 0, 0156 −0, 1957 −0, 2025 −0, 0463 0, 0118
Dlouhá samohláska „ó“
Dominantním řečovým parametrem dlouhé samohlásky „ó“ s nejmenšími popisnýmistatistiky byl 9. PLP koeficient. Kromě něj se mezi parametry s nejmenší U hodnotoupopisných statistik řadí 9. MFCC. Vypočtené hodnoty jmenovitých statistik 9. PLPkoeficientu v tabulce B.4 jsou u parinsoniků nižší (v řádech setin) než u zdravýchřečníků. Z hlediska korelační analýzy jsou statisticky významné všechny uvedené pa-rametry. V tabulce 9.4 jsou shrnuté výsledky statistické analýzy řečových parametrůvypočítané pro prodlouženou fonaci samohlásky „o“. V této tabulce je uvedenýchšest parametrů s nejnižší hodnotou parametru U. Histogram samohlásky je v přílozeA.4.
Dlouhá samohláska „ú“
Nejmenší U hodnotu popisných statistik dlouhé samohlásky „ú“, konkrétně koefi-cient špičatosti, měl parametr TKO. Za ním se řadí popisné statistiky 8. a 4. PLP
45
Tab. 9.4: Hodnoty statistických parametrů dlouhé samohlásky „ó“
𝑈 𝑟p 𝑟𝑠 𝐼 𝑡
9. PLP Q3 0, 0107 −0, 2071 −0, 206 −0, 058 0, 01069. PLP �� 0, 0108 −0, 2068 −0, 2044 −0, 0505 0, 01129. PLP 𝑥 0, 0116 −0, 205 −0, 1986 −0, 0529 0, 01399. PLP max 0, 013 −0, 2015 −0, 2102 −0, 0357 0, 00919. PLP Q1 0, 0163 −0, 195 −0, 196 −0, 0583 0, 01529. MFCC 𝛾2 0, 0191 0, 1903 0, 2018 −0, 0446 0, 0124
koeficientu a dále 9. a 11. MFCC. Koeficient špičatosti TKO má průměrnou hod-notu vyšší u parkinsoniků než u zdravých řečníků. V tabulce jmenovitých statistikdlouhé samohlásky „ú“ (viz B.5) je mezi těmito dvěma hodnotami rozdíl cca 5 %.Zmíněná hodnota popisné statistiky parametru TKO je, stejně jako koeficient špiča-tosti 4. PLP koeficientu, statisticky nevýznamná z pohledu Pearsonova korelačníhokoeficientu. V tabulce 9.5 jsou shrnuté výsledky statistické analýzy řečových pa-rametrů vypočítané pro prodlouženou fonaci samohlásky „u“. V této tabulce jeuvedených šest parametrů s nejnižší hodnotou parametru U. Histogram samohláskyje v příloze A.5.
Tab. 9.5: Hodnoty statistických parametrů dlouhé samohlásky „ú“
𝑈 𝑟p 𝑟𝑠 𝐼 𝑡
TKO 𝛾2 0, 0048 −0, 229 0, 0084 −0, 0728 0, 91788. PLP max 0, 0083 −0, 2143 −0, 1626 −0, 0435 0, 04464. PLP 𝛾2 0, 0086 −0, 2134 −0, 1299 −0, 0409 0, 10949. MFCC 𝑥 0, 0092 −0, 2115 −0, 2035 −0, 0548 0, 01169. MFCC Q1 0, 0098 −0, 2096 −0, 2046 −0, 0406 0, 011211. MFCC 𝛾1 0, 0111 0, 2062 0, 224 −0, 0374 0, 0054
9.6 Optimalizace zdrojového kóduFunkce programu MATLAB byly optimalizovány dle [32]. Optimalizace spočívalazejména v prealokaci používaných proměnných, omezení cyklů a jejich nahrazenítzv. vektorizací1 a používání sloupcových vektorů místo řádkových. Jednotlivé funkcemají v hlavičce (v komentáři) uvedený popis, tzn. co daná funkce provádí, její vstupní
1přidělování rozsahu hodnot dané proměnné pomocí „:“, např. A(:,1) = B(:,1) přiřadí proměnnéA první sloupec proměnné B
46
a výstupní proměnné. Při vytváření kódu byla snaha o dodržování konceptu modu-lárního programování, čili rozdělení většího množství kódu do jednotlivých funkcí.
47
10 ZÁVĚRCílem diplomové práce bylo nastudovaní funkce řečového ústrojí při tvorbě řeči, Par-kinsonovy nemoci a hypokinetické dysartrie. Dále obeznámení se s číslicovým zpra-cováním řečového signálu, tj. předzpracováním, parametrizací a post-processingema poté nastudování problematiky statistického zpracování dat, konkrétně korelačníanalýzy, vzájemné informace, parametrických a neparametrických testů. Tyto po-znatky měly být použity pro vytvoření systému, určeného k vyhodnocení použitel-nosti řečových parametrů k diskriminaci zdravých řečníků a pacientů s Parkinsono-vou nemocí, naprogramovaného v jazyce MATLAB.
V diplomové práci byla popsána řeč jako prostředek komunikace a fyziologieřeči. Stručně byla představena Parkinsonova nemoc, její historie, příznaky a léčba.Dále byl vysvětlen pojem hypokinetická dysartrie, jeho souvislost s Parkinsonovounemocí a byly popsány poruchy, jež způsobuje u pacientů s Parkinsonovou nemocí.Pro předzpracování signálu byly popsány metody ustřednění signálu, preemfáze asegmentace signálu. Parametrizace signálu byla rozebrána z pohledu fonačních pa-rametrů, tj. fundamentálního kmitočtu hlasu, energie hlasu a doby trvání řečovéhosegmentu a z pohledu koeficientů, které zohledňují lidský sluchový orgán. Z těchtokoeficientů byly naznačeny výpočty MFCC a PLP koeficientů. Byla zmíněna nutnosttzv. post-processingu takových parametrů, jež mají nevhodný formát pro další statis-tické zpracování. Dále byly rozebrány možnosti korelační analýzy, konkrétně výpočetPearsonova korelačního koeficientu a Spearmanova korelačního koeficientu. Také bylpopsán postup výpočtu vzájemné informace. Z parametrických statistických testůbyl zmíněn Studentův t-test a z neparametrických Mann-Whitneyův U test. Nazákladě výše uvedených poznatků bylo vytvořeno blokové schéma systému, kteréposloužilo jako základ pro naprogramování systému v jazyce MATLAB. Naprogra-movaný systém sestává z hlavního skriptu řídícího celý proces zpracování řečovéhosignálu pomocí funkcí (vytvořených či vnitřních) pro načtení a uložení řečových sig-nálů, jejich zpracování pomocí předzpracování, parametrizace a post-processingu,statistickou analýzu parametrů a jejich uložení.
Realizace systému byla založená na parametrizaci prodloužené fonace pěti čes-kých samohlásek a–u. Řečové nahrávky poskytla 1. neurologická klinika Lékařskéfakulty Masarykovy univerzity a Fakultní nemocnice u sv. Anny v Brně. Použití re-álných nahrávek má klinický dopad na interpretovatelnost a reprezentaci výsledků.Statistická analýza byla zaměřena na vhodnost použití jak konvenčních řečových pa-rametrů (tj. klinicky interpretovatelných jako např. fundamentální kmitočet či oka-mžitá energie hlasu), tak nekonvenčních parametrů (MFCC a PLP koeficientů) po-užívaných v jiných oblastech zpracování řeči. Vhodnost řečových parametrů v tétodiplomové práci popisuje schopnost řečového parametru popsat patologickou řeč a
48
oddělit ji od řeči zdravé, což má v současné medicíně uplatnění při výzkumu a apli-kaci tzv. neinvazivních metodách analýzy.
Výstupem diplomové práce je soubor hodnot popisných statistik řečových pa-rametrů získaný metodami statistické analýzy. Pro interpretaci výsledků byl jakořadící metoda zvolen Mann-Whitneyův U test. Tento test našel uplatnění při ana-lýze HD (viz [7]) a při pohledu na histogramy parametrů v přílohách A.1–A.5 lzepozorovat, že parametry nesplňují podmínku normality a tím pádem bylo vhodnějšípoužít neparametrický test.
V práci bylo ukázáno, že vypočítané MFCC pro realizaci prodloužené fonacesamohlásky „a“ jsou pro popis poškození hlasu nejvhodnější. V případě samohlásky„e“ nejlépe popisují rozdíl mezi zdravým řečníkem a parkinsonikem nekonveční pa-rametry – PLP koeficienty a MFCC. Hodnoty okamžité energie, spolu s MFCC aPLP koeficienty, jsou vhodným indikátorem poškození řeči pro realizaci prodlou-žené fonace samohlásky „i“. PLP koefienty (zejména 9. PLP koeficient) jsou prorealizaci prodloužené fonace samohlásky „o“ nejvhodnější k popisu poškození hlasu.Pro prodlouženou fonaci samohlásky „u“ se jeví Teagarův-Kaiserův operátor, spo-lečně s MFCC a PLP koeficienty, jako nejvhodnější kritéria pro determinaci zdra-vého řečníka a pacienta s PN. V tabulkách 9.1–9.5 jsou hodnoty vybraných řečovýchparametrů všech pěti testovaných samohlásek pro všechny použité statistické testy.Hodnoty řečových parametrů, resp. jejich popisné statistiky, pro obě skupiny řečníkůtj. pacientů s Parkinsonovou nemocí a zdravých řečníků jsou uvedeny v tabulkáchB.1–B.5. Z popisných statistik byly vybrány 1. kvartil, medián, aritmetický průměr a3. kvartil. Z důvodu omezené velikosti dat jsou tyto popisné statistiky pouze hrubýmodhadem skutečných hodnot vyskytujících se v populaci.
Diplomová práce má několik omezujících faktorů. I když má použitý řečový kor-pus v dané oblasti, co se týká počtu řečníků a řečových cvičení, až nadstandardnívelikost, je stále značně omezený, jelikož se diplomová práce zabývala pouze částíkorpusu – konkrétně prodlouženými fonacemi českých samohlásek. Proto je klinickýpopis HD neúplný (chybí např. informace o artikulaci, tempu řeči apod.). Zvýšenípočtu pozorování by po statistické stránce přineslo relevantnější výsledky použitýchmetod. Z tohoto důvodu by v rámci dalšího výzkumu mělo být prioritou rozšířeníkorpusu o další řečové nahrávky a také použití více řečových cvičení.
V této práci bylo dokázáno, že analýza řeči pacientů s PN má význam a poten-ciál do budoucna poskytnout doktorům cenné informace při diagnostice, hodnocení,léčbě a pozorování Parkinsonovy nemoci.
49
LITERATURA[1] BEDÁŇOVÁ, Iveta a Vladimír VEČEREK. Základy statistiky pro studující ve-
terinární medicíny a farmacie. Brno: Veterinární a farmaceutická univerzitaBrno, 2007. ISBN 978-80-7305-026-9.
[2] COVER, Thomas M. a Joy A. THOMAS. Elements of Information Theory. 2nded. Hoboken, New Jersey: John Wiley & Sons, Inc., 2006, s. 19–25. ISBN 978-0-471-24195-9.
[3] ČERNOCKÝ, Jan. Zpracování řečových signálů – studijní opora. Brno: Vysokéučení technické v Brně, 2006, s. 32–37.
[4] ELLIS, Daniel P. W. PLP and RASTA (and MFCC, and inversion) in Matlab.Columbia University in the City of New York [online]. New York: Colum-bia University in the City of New York, 2005 [cit. 2016-05-13]. Dostupné z:http://www.ee.columbia.edu/ dpwe/resources/matlab/rastamat/
[5] FACTOR, Stewart A. a William J. WEINER. Parkinson’s disease diagnosis andclinical management. 2nd ed. New York: Demos, 2008. ISBN 978-193-4559-871.
[6] FASTL, Hugo a Eberhard ZWICKER. Psychoacoustics: Facts and Models. Ber-lin: Springer-Verlag Berlin Heidelberg, 2007. ISBN 978-3-540-23159-2.
[7] GALÁŽ, Zoltán, Jiří MEKYSKA, Zdeněk MŽOUREK, et al. Prosodic ana-lysis of neutral, stress-modified and rhymed speech in patients with Parkin-son’s disease. Computer Methods and Programs in Biomedicine. Elsevier, 127,301–317. DOI: 10.1016/j.cmpb.2015.12.011. ISSN 01692607. Dostupné také z:http://dx.doi.org/10.1016/j.cmpb.2015.12.011
[8] HERMANSKY, Hynek. Perceptual linear predictive (PLP) analysis of spe-ech. The Journal of the Acoustical Society of America. 1990, 87(4),1738–1752. DOI: 10.1121/1.399423. ISSN 00014966. Dostupné také z:http://scitation.aip.org/content/asa/journal/jasa/87/4/10.1121/1.399423
[9] HUANG, Xuedong, Alex ACERO a Hsiao-Wuen HON. Spoken Language Pro-cessing: A Guide to Theory, Algorithm and System Development. New Jersey:Prentice Hall, 2001. ISBN 978-0-13-022616-7.
[10] HUMMERSONE, Christopher. ISO 226:2003 Normal equal-loudness-level con-tours - File Exchange - MATLAB Central. MathWorks -– Makers of MATLABand Simulink [online]. Natick: The MathWorks, c1994-2016 [cit. 2016-05-12].Dostupné z: http://www.mathworks.com/matlabcentral/fileexchange/50348-iso-226-2003-normal-equal-loudness-level-contours
50
[11] CHAUHAN, Paresh M. a Nikita P. DESAI. Mel Frequency Cepstral Coeffi-cients (MFCC) based speaker identification in noisy environment using wi-ener filter. 2014 International Conference on Green Computing Communi-cation and Electrical Engineering (ICGCCEE). IEEE, 2014, : 1–5. DOI:10.1109/ICGCCEE.2014.6921394. ISBN 978-1-4799-4982-3. Dostupné také z:http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=6921394
[12] ISO 226:2003. Acoustics – Normal equal-loudness-level contours. Geneva: Inter-national Organization for Standardization, 2003.
[13] Jean-Martin Charcot. Whonamedit – dictionary of me-dical eponyms [online]. [cit. 2015-10-17]. Dostupné z:http://www.whonamedit.com/doctor.cfm/19.html
[14] KAISER, J. F. On a simple algorithm to calculate the ’energy’ of a sig-nal. International Conference on Acoustics, Speech, and Signal Processing.IEEE, 1990, (1), 381–384. DOI: 10.1109/ICASSP.1990.115702. Dostupné takéz: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=115702
[15] KOŠŤÁLOVÁ, M., M. MRÁČKOVÁ, R. MAREČEK, et al. Test 3F Dysartrickýprofil – normativní hodnoty řeči v češtině. Cesk Slov Neurol N. 2013, 76/109(5),614–618. ISSN 1802-4041.
[16] KRČMOVÁ, Marie. Fonetika a fonologie [online]. 3 vyd. Brno: Masarykovauniverzita, 2009 [cit. 2016-05-14]. Elportál. ISSN 1802-128X. Dostupné z:http://is.muni.cz/elportal/?id=852835
[17] LILEIKYTE, R. a L. TELKSNYS. Quality Estimation Methodology of SpeechRecognition Features. Elektronica ir Elektrotechnika. 2011, 110(4), 113–116.ISSN 1392-1215.
[18] Matlab library of Rudy Moddemeijer. Top 100 University | University of Gro-ningen [online]. Groningen: University of Groningen, 2001 [cit. 2016-05-15]. Do-stupné z: http://www.cs.rug.nl/ rudy/matlab/
[19] Merritt’s neurology. 12th ed. Philadelphia: Wolters Kluwer, 2010, xxi, 1172 s.ISBN 978-0-7817-9186-1.
[20] NEVRLÝ, Martin, Renata COUFALOVÁ, Eva ČECHÁKOVÁ a Petr KAŇOV-SKÝ. Zlepšení kvality života v pokročilé fázi Parkinsonovy nemoci intraduode-nálními infuzemi levodopy. Neurologie pro praxi. 2014, 15(5). ISSN 1213-1814.
[21] PALKOVÁ, Zdena. Fonetika a fonologie češtiny s obecným úvodem do proble-matiky oboru. 1.vyd. Praha: Karolinum, 1994, 366 s. ISBN 80-706-6843-1.
51
[22] PSUTKA, Josef. Mluvíme s počítačem česky. Vyd. 1. Praha: Academia, 2006,746 s. Česká matice technická (Academia). ISBN 80-200-1309-1.
[23] REKTOR, Ivan. Léčba Parkinsonovy nemoci. Neurologie pro praxi. 2009, 10(6):340–346. ISSN 1213-1814.
[24] REKTOROVÁ, Irena. Současné možnosti diagnostiky a terapie Parkinsonovynemoci. Neurológia pre prax: Suplement 2. 2009, 10(S2). ISSN 1335-9592.
[25] ROKYTA, Richard. Fyziologie a patologická fyziologie: pro klinickou praxi.1. vydání. Praha: Grada Publishing, 2015, s. 533. ISBN 978-80-247-4867-2.
[26] ROTH, Jan, Marcela SEKYROVÁ a Evžen RŮŽIČKA. Parkinsonova nemoc.4. přeprac. a rozš. vyd. Praha: Maxdorf, 2009, 222 s. Medica. ISBN 978-80-7345-178-3.
[27] SHESKIN, David. Handbook of Parametric and Nonparametric Statistical Pro-cedures: Second Edition. Chapman and Hall/CRC, 2000. 2nd Edition. ISBN978-1-58488-133-9.
[28] SCHIMMEL, Jiří. Elektroakustika. Brno: Vysoké učení technické v Brně, 2014.ISBN 978-80-214-4716-5.
[29] SMÉKAL, Zdeněk. Analýza signálů a soustav – BASS. Brno: Vysoké učenítechnické v Brně, 2012, s. 90. ISBN 978-80-214-4453-9.
[30] SMÉKAL, Zdeněk. Zpracování řeči. Brno: Vysoké učení technické v Brně, 2013.ISBN 978-80-214-4896-4.
[31] SOUKUP, Petr. Nesprávná užívání statistické významnosti a jejich možná ře-šení. Data a výzkum — SDA Info. 2010, 4(2), 77-104. ISSN 1802-8152.
[32] Techniques to Improve Performance – MATLAB & Simulink.MathWorks – Makers of MATLAB and Simulink [online]. Na-tick: The MathWorks, c1994–2016 [cit. 2016-05-14]. Dostupné z:http://mathworks.com/help/releases/R2015b/matlab/matlab_prog/techniques-for-improving-performance.html
[33] VOKURKA, Martin a Jan HUGO. Praktický slovník medicíny.5. rozš. vyd. Praha: Maxdorf, 1998, s. 334. ISBN 80-85800-81-0.
[34] VOKURKA, Martin a Jan HUGO. Velký lékařský slovník.5. aktualiz. vyd. Praha: Maxdorf, 2005. Jessenius. ISBN 80-7345-058-5.
52
[35] ZAMIŠKOVÁ, Gabriela, Pavel RESSNER, Jana DLOUHÁ a Dana ŠIGU-TOVÁ. Poruchy řeči u Parkinsonovy nemoci. Neurologie pro praxi. 2010, 11(2),112–116. ISSN 1213-1814.
53
SEZNAM SYMBOLŮ, VELIČIN A ZKRATEKPN Parkinsonova nemoc
EPS Extrapyramidový systém
L-dopa levodopa
HD Hypokinetická dysartrie
AČ analogově-číslicový
SNR odstup signálu od šumu
FIR konečná impulsní odezva
ACF krátkodobá autokorelační funkce
𝐹0 fundamentální kmitočet
E okamžitá energie
TKO Teagerův Kaiserův energetický operátor
MFCC Melovské kepstrální koeficienty
PLP Percepční lineární predikční koeficienty
FFT rychlá Fourierova transformace
DFT diskrétní Fourierova transformace
𝑓m kmitočet v melovské škále
𝑓bark kmitočet v barkové škále
𝑓Hz kmitočet v hertzové škále
𝑓d kmitočet dolního pásma
𝐹1 první formant
𝐹2 druhý formant
𝐹3 třetí formant
LPC lineární predikční koeficienty
𝑓vz vzorkovací kmitočet
54
�� aritmetický průměr
𝑥 medián
𝜎 směrodatná odchylka
𝜎2 rozptyl
MAD střední absolutní odchylka
max maximum
min minimum
IQR mezikvartilové rozpětí
Q1 1. kvartil
Q3 3. kvartil
𝛾1 koeficient šikmosti
𝛾2 koeficient špičatosti
𝑟p Pearsonův korelační koeficient
𝑟s Spearmanův korelační koeficient
𝐼 vzájemná informace
𝑡 koeficient Studentova t-testu
𝑈 koeficient Mann-Whitneyova U testu
WAV Waveform audio file format
55
SEZNAM PŘÍLOH
A Histogramy řečových parametrů 57
B Statistiky řečových parametrů 67
C Doplňkové informace pro statistickou analýzu 73
D Obsah přiloženého DVD 79
56
A HISTOGRAMY ŘEČOVÝCH PARAMETRŮ
0 5 10 15 200
20
40MFCC_4_std HC
0 5 10 15 20 250
50
100MFCC_4_std PD
0 5 10 15 200
50
100MFCC_4_var HC
0 5 10 15 20 250
100
200MFCC_4_var PD
0 5 10 15 200
50
100MFCC_7_kurtosis HC
0 5 10 15 20 250
100
200MFCC_7_kurtosis PD
0 5 10 15 200
20
40
60MFCC_1_skewness HC
0 5 10 15 20 250
50
100MFCC_1_skewness PD
0 5 10 15 200
20
40
60MFCC_4_mad HC
0 5 10 15 20 250
50
100
150MFCC_4_mad PD
0 5 10 15 200
10
20
30formants_1_3q HC
0 5 10 15 20 250
20
40
60formants_1_3q PD
Obr. A.1: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „a“
57
0 5 10 15 200
20
40PLP_13_max HC
0 5 10 15 20 250
20
40
60PLP_13_max PD
0 5 10 15 200
20
40MFCC_7_iqr HC
0 5 10 15 20 250
50
100MFCC_7_iqr PD
0 5 10 15 200
20
40
60PLP_11_min HC
0 5 10 15 20 250
20
40
60PLP_11_min PD
0 5 10 15 200
20
40
60PLP_2_std HC
0 5 10 15 20 250
50
100PLP_2_std PD
0 5 10 15 200
50
100PLP_2_var HC
0 5 10 15 20 250
100
200PLP_2_var PD
0 5 10 15 200
20
40
60MFCC_7_mad HC
0 5 10 15 20 250
50
100MFCC_7_mad PD
Obr. A.2: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „e“
58
0 5 10 15 200
100
200E_kurtosis HC
0 5 10 15 20 250
100
200E_kurtosis PD
0 5 10 15 200
20
40MFCC_11_1q HC
0 5 10 15 20 250
50
100MFCC_11_1q PD
0 5 10 15 200
20
40PLP_6_max HC
0 5 10 15 20 250
20
40
60PLP_6_max PD
0 5 10 15 200
50
100E_skewness HC
0 5 10 15 20 250
50
100E_skewness PD
0 5 10 15 200
20
40MFCC_11_mean HC
0 5 10 15 20 250
50
100MFCC_11_mean PD
0 5 10 15 200
20
40PLP_8_skewness HC
0 5 10 15 20 250
20
40
60PLP_8_skewness PD
Obr. A.3: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „i“
59
0 5 10 15 200
20
40
60PLP_9_3q HC
0 5 10 15 20 250
20
40
60PLP_9_3q PD
0 5 10 15 200
20
40
60PLP_9_mean HC
0 5 10 15 20 250
20
40
60PLP_9_mean PD
0 5 10 15 200
20
40
60PLP_9_median HC
0 5 10 15 20 250
50
100PLP_9_median PD
0 5 10 15 200
20
40
60PLP_9_max HC
0 5 10 15 20 250
20
40
60PLP_9_max PD
0 5 10 15 200
20
40
60PLP_9_1q HC
0 5 10 15 20 250
20
40
60PLP_9_1q PD
0 5 10 15 200
20
40
60MFCC_9_kurtosis HC
0 5 10 15 20 250
50
100
150MFCC_9_kurtosis PD
Obr. A.4: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „o“
60
0 5 10 15 200
100
200
300TKO_kurtosis HC
0 5 10 15 20 250
200
400
600TKO_kurtosis PD
0 5 10 15 200
20
40PLP_8_max HC
0 5 10 15 20 250
50
100PLP_8_max PD
0 5 10 15 200
50
100PLP_4_kurtosis HC
0 5 10 15 20 250
100
200PLP_4_kurtosis PD
0 5 10 15 200
20
40
60MFCC_9_median HC
0 5 10 15 20 250
50
100MFCC_9_median PD
0 5 10 15 200
20
40
60MFCC_9_1q HC
0 5 10 15 20 250
20
40
60MFCC_9_1q PD
0 5 10 15 200
20
40
60MFCC_11_skewness HC
0 5 10 15 20 250
20
40
60MFCC_11_skewness PD
Obr. A.5: Histogram řečových parametrů dle Mann-Whitneyova U testu dlouhé sa-mohlásky „u“
61
0 5 10 15 200
20
40
60MFCC_1_skewness HC
0 5 10 15 20 250
50
100MFCC_1_skewness PD
0 5 10 15 200
20
40
60formants_1_median HC
0 5 10 15 20 250
50
100formants_1_median PD
0 5 10 15 200
20
40formants_1_mean HC
0 5 10 15 20 250
20
40
60formants_1_mean PD
0 5 10 15 200
10
20
30formants_1_3q HC
0 5 10 15 20 250
20
40
60formants_1_3q PD
0 5 10 15 200
20
40
60PLP_12_std HC
0 5 10 15 20 250
20
40
60PLP_12_std PD
0 5 10 15 200
20
40
60PLP_12_var HC
0 5 10 15 20 250
50
100PLP_12_var PD
Obr. A.6: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„A“
62
0 5 10 15 200
20
40PLP_13_max HC
0 5 10 15 20 250
20
40
60PLP_13_max PD
0 5 10 15 200
20
40MFCC_7_iqr HC
0 5 10 15 20 250
50
100MFCC_7_iqr PD
0 5 10 15 200
100
200F0_max HC
0 5 10 15 20 250
200
400F0_max PD
0 5 10 15 200
20
40
60PLP_11_min HC
0 5 10 15 20 250
20
40
60PLP_11_min PD
0 5 10 15 200
50
100
150formants_3_kurtosis HC
0 5 10 15 20 250
100
200formants_3_kurtosis PD
0 5 10 15 200
20
40
60PLP_2_std HC
0 5 10 15 20 250
50
100PLP_2_std PD
Obr. A.7: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„E“
63
0 5 10 15 200
20
40MFCC_11_1q HC
0 5 10 15 20 250
50
100MFCC_11_1q PD
0 5 10 15 200
50
100PLP_4_kurtosis HC
0 5 10 15 20 250
100
200PLP_4_kurtosis PD
0 5 10 15 200
20
40PLP_8_skewness HC
0 5 10 15 20 250
20
40
60PLP_8_skewness PD
0 5 10 15 200
20
40
60MFCC_11_median HC
0 5 10 15 20 250
50
100MFCC_11_median PD
0 5 10 15 200
20
40PLP_6_max HC
0 5 10 15 20 250
20
40
60PLP_6_max PD
0 5 10 15 200
20
40MFCC_11_mean HC
0 5 10 15 20 250
50
100MFCC_11_mean PD
Obr. A.8: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„I“
64
0 5 10 15 200
20
40
60PLP_8_mad HC
0 5 10 15 20 250
20
40
60PLP_8_mad PD
0 5 10 15 200
20
40
60PLP_9_max HC
0 5 10 15 20 250
20
40
60PLP_9_max PD
0 5 10 15 200
20
40
60PLP_8_iqr HC
0 5 10 15 20 250
50
100PLP_8_iqr PD
0 5 10 15 200
50
100PLP_8_var HC
0 5 10 15 20 250
50
100PLP_8_var PD
0 5 10 15 200
20
40
60PLP_9_3q HC
0 5 10 15 20 250
20
40
60PLP_9_3q PD
0 5 10 15 200
20
40
60PLP_9_mean HC
0 5 10 15 20 250
20
40
60PLP_9_mean PD
Obr. A.9: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„O“
65
0 5 10 15 200
20
40
60MFCC_11_skewness HC
0 5 10 15 20 250
20
40
60MFCC_11_skewness PD
0 5 10 15 200
20
40formants_2_std HC
0 5 10 15 20 250
20
40
60formants_2_std PD
0 5 10 15 200
20
40
60formants_2_var HC
0 5 10 15 20 250
50
100
150formants_2_var PD
0 5 10 15 200
20
40
60MFCC_9_1q HC
0 5 10 15 20 250
20
40
60MFCC_9_1q PD
0 5 10 15 200
20
40
60MFCC_9_median HC
0 5 10 15 20 250
50
100MFCC_9_median PD
0 5 10 15 200
20
40formants_2_mad HC
0 5 10 15 20 250
50
100formants_2_mad PD
Obr. A.10: Histogram řečových parametrů dle Studentova t-testu dlouhé samohlásky„U“
66
Tab.
B.1:
Vybr
ané
popi
sné
stat
istik
ysa
moh
lásk
y„á
“
1.kv
artil
med
ián
prům
ěr3.
kvar
tilH
CPD
HC
PDH
CPD
HC
PD4.
MFC
C𝜎
0,30
20,
3004
0,40
80,
3684
0,43
320,
407
0,51
50,
4666
4.M
FCC
𝜎2
0,09
120,
0902
0,16
640,
1358
0,21
690,
1913
0,26
520,
2177
7.M
FCC
𝛾2
2,46
212,
3751
2,88
712,
8209
3,12
763,
089
3,56
533,
4682
1.M
FCC
𝛾1
−1,
4817
−1,
5765
−1,
1297
−1,
2376
−1,
0886
−1,
2371
−0,
7026
−0,
8945
4.M
FCC
MA
D0,
2365
0,23
350,
3146
0,28
420,
3398
0,31
90,
4044
0,37
141.
form
ant
Q3
386,
2234
1,22
548,
8752
1,49
582,
0254
9,78
725,
2470
1,61
68
Tab.
B.2:
Vybr
ané
popi
sné
stat
istik
ysa
moh
lásk
y„é
“
1.kv
artil
med
ián
prům
ěr3.
kvar
tilH
CPD
HC
PDH
CPD
HC
PD13
.PLP
max
0,06
130,
0686
0,11
080,
1176
0,11
520,
1229
0,16
270,
1677
7.M
FCC
IQR
0,25
380,
2719
0,32
170,
3379
0,35
130,
3658
0,41
510,
4378
11.P
LPm
in−
0,29
84−
0,31
86−
0,23
11−
0,23
59−
0,22
57−
0,24
24−
0,15
2−
0,15
862.
PLP
𝜎0,
0657
0,06
80,
081
0,08
490,
0858
0,09
080,
1028
0,10
792.
PLP
𝜎2
0,00
430,
0046
0,00
660,
0072
0,00
820,
0094
0,01
060,
0117
7.M
FCC
MA
D0,
1642
0,17
160,
1965
0,20
530,
212
0,21
850,
247
0,25
46
69
Tab.
B.3:
Vybr
ané
popi
sné
stat
istik
ysa
moh
lásk
y„í
“
1.kv
artil
med
ián
prům
ěr3.
kvar
tilH
CPD
HC
PDH
CPD
HC
PDE
𝛾2
1,98
81,
9761
2,50
182,
3797
3,29
552,
865
3,46
153,
0744
11.M
FCC
Q1
−0,
2038
−0,
2804
−0,
0321
−0,
112
−0,
0418
−0,
1241
0,12
10,
0503
6.PL
Pm
ax−
0,04
91−
0,05
270,
0857
0,06
580,
0938
0,09
350,
2281
0,25
44E
𝛾1
0,19
24−
0,01
480,
5893
0,42
230,
6825
0,48
791,
0526
0,86
311
.MFC
C𝑥
−0,
0773
−0,
1542
0,06
830,
0061
0,07
60,
0047
0,23
370,
1613
8.PL
P𝛾
1−
0,16
89−
0,25
240,
2173
0,15
490,
2463
0,18
190,
632
0,57
61
70
Tab.
B.4:
Vybr
ané
popi
sné
stat
istik
ysa
moh
lásk
y„ó
“
1.kv
artil
med
ián
prům
ěr3.
kvar
tilH
CPD
HC
PDH
CPD
HC
PD9.
PLP
Q3
−0,
0744
−0,
1089
0,00
43−
0,02
070,
0105
−0,
0215
0,08
440,
0746
9.PL
P𝑥
−0,
1333
−0,
171
−0,
0509
−0,
0822
−0,
0504
−0,
0842
0,03
480,
0098
9.PL
P 𝑥
−0,
1271
−0,
1678
−0,
0453
−0,
077
−0,
0462
−0,
0815
0,04
170,
0151
9.PL
Pm
ax0,
0633
0,02
30,
1375
0,11
330,
1427
0,11
850,
2288
0,21
489.
PLP
Q1
−0,
1876
−0,
2309
−0,
1053
−0,
1391
−0,
1067
−0,
1438
−0,
0228
−0,
0461
9.M
FCC
𝛾2
2,38
552,
4588
2,77
232,
8522
2,95
043,
0995
3,28
583,
4407
71
Tab.
B.5:
Vybr
ané
popi
sné
stat
istik
ysa
moh
lásk
y„ú
“
1.kv
artil
med
ián
prům
ěr3.
kvar
tilH
CPD
HC
PDH
CPD
HC
PDT
KO
𝛾2
22,1
7319
,457
36,7
3629
,054
99,8
0210
4,18
75,7
5450
,395
8.PL
Pm
ax−
0,02
06−
0,06
820,
0689
0,03
0,07
180,
049
0,14
320,
1521
4.PL
P𝛾
22,
5806
2,43
13,
1269
2,94
13,
6391
3,44
674,
2401
3,91
919.
MFC
C 𝑥
−0,
1575
−0,
2706
0,02
67−
0,01
70,
035
−0,
0198
0,24
10,
2111
9.M
FCC
Q1
−0,
3129
−0,
4272
−0,
1085
−0,
1493
−0,
1021
−0,
1585
0,12
480,
0726
11.M
FCC
𝛾1
−0,
4371
−0,
3163
−0,
0533
0,03
76−
0,05
050,
032
0,27
830,
4288
72
Tab. C.1: Kritické hodnoty Studentova t-testu
Dvoustranný 0,8 0,5 0,2 0,1 0,05 0,02 0,01 0,001Jednostranný 0,4 0,25 0,1 0,05 0,025 0,01 0,005 0,0005𝑑𝑓 | 𝑝 0,6 0,75 0,9 0,95 0,975 0,99 0,995 0,99951 0,325 1 3,078 6,314 12,706 31,821 63,657 636,6192 0,289 0,816 1,886 2,92 4,303 6,965 9,925 31,5983 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,9244 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,615 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,8696 0,265 0,718 1,44 1,943 2,447 3,143 3,707 5,9597 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,4088 0,262 0,706 1,397 1,86 2,306 2,896 3,355 5,0419 0,261 0,703 1,383 1,833 2,262 2,821 3,25 4,78110 0,26 0,7 1,372 1,812 2,228 2,764 3,169 4,58711 0,26 0,697 1,363 1,796 2,201 2,718 3,106 4,43712 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,31813 0,259 0,694 1,35 1,771 2,16 2,65 3,012 4,22114 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,1415 0,258 0,691 1,341 1,753 2,131 2,602 2,947 4,07316 0,258 0,69 1,337 1,746 2,12 2,583 2,921 4,01517 0,257 0,689 1,333 1,74 2,11 2,567 2,898 3,96518 0,257 0,688 1,33 1,734 2,101 2,552 2,878 3,92219 0,257 0,688 1,328 1,729 2,093 2,539 2,861 3,88320 0,257 0,687 1,325 1,725 2,086 2,528 2,845 3,8521 0,257 0,686 1,323 1,721 2,08 2,518 2,831 3,81922 0,256 0,686 1,321 1,717 2,074 2,508 2,819 3,79223 0,256 0,685 1,319 1,714 2,069 2,5 2,807 3,76724 0,256 0,685 1,318 1,711 2,064 2,492 2,797 3,74525 0,256 0,684 1,316 1,708 2,06 2,485 2,787 3,72526 0,256 0,684 1,315 1,706 2,056 2,479 2,779 3,70727 0,256 0,684 1,314 1,703 2,052 2,473 2,771 3,6928 0,256 0,683 1,313 1,701 2,048 2,467 2,763 3,67429 0,256 0,683 1,311 1,699 2,045 2,462 2,756 3,65930 0,256 0,683 1,31 1,697 2,042 2,457 2,75 3,64640 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,55160 0,254 0,679 1,296 1,671 2 2,39 2,66 3,46120 0,254 0,677 1,289 1,658 1,98 2,358 2,617 3,373INF 0,253 0,674 1,282 1,645 1,96 2,326 2,576 3,291
74
Tab.
C.2
:Krit
ické
hodn
oty
jedn
ostr
anné
hoM
ann–
Whi
tney
ova
Ute
stu
pro
𝛼=
0,05
𝑛1
|𝑛2
12
34
56
78
910
1112
1314
1516
1718
1920
1 20
00
11
11
22
23
33
44
43
00
12
23
34
55
67
78
99
1011
40
12
34
56
78
910
1112
1415
1617
185
01
24
56
89
1112
1315
1618
1920
2223
256
02
35
78
1012
1416
1719
2123
2526
2830
327
02
46
811
1315
1719
2124
2628
3033
3537
398
13
58
1013
1518
2023
2628
3133
3639
4144
479
13
69
1215
1821
2427
3033
3639
4245
4851
5410
14
711
1417
2024
2731
3437
4144
4851
5558
6211
15
812
1619
2327
3134
3842
4650
5457
6165
6912
25
913
1721
2630
3438
4247
5155
6064
6872
7713
26
1015
1924
2833
3742
4751
5661
6570
7580
8414
27
1116
2126
3136
4146
5156
6166
7177
8287
9215
37
1218
2328
3339
4450
5561
6672
7783
6894
100
163
814
1925
3036
4248
5460
6571
7783
8995
101
107
173
915
2026
3339
4551
5764
7077
8389
9610
210
911
518
49
1622
2835
4148
5561
6875
8288
9510
210
911
612
319
04
1017
2330
3744
5158
6572
8087
9410
110
911
612
313
020
04
1118
2532
3947
5462
6977
8492
100
107
115
123
130
138
75
Tab.
C.3
:Krit
ické
hodn
oty
dvou
stra
nnéh
oM
ann–
Whi
tney
ova
Ute
stu
pro
𝛼=
0,05
𝑛1
|𝑛2
12
34
56
78
910
1112
1314
1516
1718
1920
1 20
00
01
11
11
22
22
30
11
22
33
44
55
66
77
84
01
23
44
56
78
910
1111
1213
135
01
23
56
78
911
1213
1415
1718
1920
61
23
56
810
1113
1416
1719
2122
2425
277
13
56
810
1214
1618
2022
2426
2830
3234
80
24
68
1013
1517
1922
2426
2931
3436
3841
90
24
710
1215
1720
2326
2831
3437
3942
4548
100
35
811
1417
2023
2629
3336
3942
4548
5255
110
36
913
1619
2326
3033
3740
4447
5155
5862
121
47
1114
1822
2629
3337
4145
4953
5761
6569
131
48
1216
2024
2833
3741
4550
5459
6367
7276
141
59
1317
2226
3136
4045
5055
5964
6774
7883
151
510
1419
2429
3439
4449
5459
6470
7580
8590
161
611
1521
2631
3742
4753
5964
7075
8186
9298
172
611
1722
2834
3945
5157
6367
7581
8793
9910
518
27
1218
2430
3642
4855
6167
7480
8693
9910
611
219
27
1319
2532
3845
5258
6572
7885
9299
106
113
119
202
813
2027
3441
4855
6269
7683
9098
105
112
119
127
76
Tab.
C.4
:Krit
ické
hodn
oty
jedn
ostr
anné
hoM
ann–
Whi
tney
ova
Ute
stu
pro
𝛼=
0,01
𝑛1
|𝑛2
12
34
56
78
910
1112
1314
1516
1718
1920
1 20
00
00
01
13
00
11
12
22
33
44
45
40
11
23
34
55
67
78
99
105
01
23
45
67
89
1011
1213
1415
166
12
34
67
89
1112
1315
1618
1920
227
01
34
67
911
1214
1617
1921
2324
2628
80
24
67
911
1315
1720
2224
2628
3032
349
13
57
911
1416
1821
2326
2831
3336
3840
101
36
811
1316
1922
2427
3033
3638
4144
4711
14
79
1215
1822
2528
3134
3741
4447
5053
122
58
1114
1721
2428
3135
3842
4649
5356
6013
02
59
1216
2023
2731
3539
4347
5155
5963
6714
02
610
1317
2226
3034
3843
4751
5660
6569
7315
03
711
1519
2428
3337
4247
5156
6166
7075
8016
03
712
1621
2631
3641
4651
5661
6671
7682
8717
04
813
1823
2833
384t
4955
6066
7177
8288
9318
04
914
1924
3036
4147
5359
6570
7682
8894
l00
191
49
1520
2632
3844
5056
6369
7582
8894
101
107
201
510
1622
2834
4047
5360
6773
8087
9310
010
711
4
77
Tab.
C.5
:Krit
ické
hodn
oty
dvou
stra
nnéh
oM
ann–
Whi
tney
ova
Ute
stu
pro
𝛼=
0,01
𝑛1
|𝑛2
12
34
56
78
910
1112
1314
1516
1718
1920
1 20
03
00
01
11
22
22
33
40
01
12
23
34
55
66
78
50
11
23
45
67
78
910
1112
136
01
23
45
67
910
1112
1315
1617
187
01
34
67
910
1213
1516
1819
2122
248
12
46
79
1113
1517
1820
2224
2628
309
01
35
79
1113
1618
2022
2427
2931
3336
100
24
69
1113
1618
2124
2629
3134
3739
4211
02
57
1013
1618
2124
2730
3336
3941
4548
121
36
912
1518
2124
2731
3437
4144
4751
5413
13
710
1317
2024
2731
3438
4245
4953
5660
141
47
1115
1822
2630
3438
4246
5054
5863
6715
25
812
1620
2429
3337
4246
5155
6064
6973
162
59
1318
2227
3136
4145
5055
6065
7074
7917
26
1015
1924
2934
3944
4954
6065
7075
8186
182
611
1621
2631
3742
4753
5864
7075
8187
9219
03
712
1722
2833
3945
5156
6369
7481
8793
9920
03
813
1824
3036
4248
5460
6773
7986
9299
105
78
D OBSAH PŘILOŽENÉHO DVD• adresář System obsahuje soubory naprogramovaného systému v jazyce MATLAB
ve verzi 2010b 7.11.0– podadresář base obsahuje základní funkce systému pro načítání řečových
vzorků, vykreslení výsledků, export výsledných parametrů apod.– podadresář spch obsahuje funkce předzpracování a parametrizace řečo-
vých vzorků– podadresář stats obsahuje funkce pro výpočet parametrů statistické ana-
lýzy– podadresář wav obsahuje řečové vzorky ve formátu WAV– soubor _file_list.txt obsahuje cesty řečových vzorků– soubor arr.mat obsahuje uložené buňky se strukturami načtených a zpra-
covaných řečových vzorků– soubor System.m je určený pro spuštění systému
• soubor DP_bijota.pdf obsahuje diplomovou práci
79