Extrakce melodie z audio signálu
Ladislav Vincourek5.12.2006
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
2
Úvod
• Co je to melodie, audio signál, tón.
• Short-Time Fourier transform
• Support Vector Machine
• Multi-track, MIDI soubor
• Testovací data ISMIR 2004.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
3
Extrakce melodie
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
4
Audio signál
• signál (z latinského signalis - dávat znamení)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
5
Zvukové vlnění
• Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz).
• Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk.
• Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
6
Šířka pásma pro různé zdroje zvuku
Zdroj zvuku Šířka pásmaradio (FM) 50Hz - 15 kHzradio (AM) 80Hz - 5 kHzCD přehrávač 20 Hz - 20 kHzzvuková karta SB16 30 Hz - 20 kHz(levný ) mikrofon 80 Hz - 12 kHztrubka 180 Hz - 8 kHztelefon 300 Hz - 3 kHzdětské uši 20 Hz - 20 kHzuši příznivce rocku 50 Hz - 10 kHzmužský hlas 120 Hz - 7 kHzženský hlas 200 Hz - 9 kHz
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
7
Melodie
• Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce.
• Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
8
Tón
• je v akustice považován každý zvuk se stálou frekvencí.
• v hudbě je tón základním stavebním kamenem.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
9
Základní vlastnosti tónu
• výška – ta je dána především frekvencí,
• délka – jak dlouho tón zní,
• síla – ta je dána amplitudou,
• barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
10
Další
• Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
11
Decibel dB síly zvuku
zvuk síla (dB)12́ ́dělo 220raketový motor 190tryskový motor 150hranice bolesti 140letištní dráha 130rocková skupina 100nákladní auto 90křik 80hlučná ulice 70řeč 60tichý domov 40nahrávací studio 20šepot 10
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
12
Využití extrakce melodie
• Melodie poskytuje důležité shrnutí z polyfonní hudba.
• Její aplikace je důležitá pro analýzu struktury hudby.
• Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
13
Melodie x Audio signál
• Melodie poskytuje konzistentní a přirozený popis hudby.
• Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání.
• Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
14
Typy extrakce melodie
• Většina převádí jen specifický audio signál– Každá část hudby je realizována
harmonickou sadou základních tónů.– Např.: automatické rozpoznávání hlasů
• Předchozí znalost štítků– Rozpoznávací mechanismus není schopen
rozpoznat bez předchozí znalosti reprezentantů.
• Přes dominantní melodii
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
15
Postup
1. Vstupní audio signál transformujeme na charakteristickou reprezentaci(short-time magnitude spectrum).
2. Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
16
Zvukové rysy
• Originální zvuk musíme převést na mono o max. rozpětí 8 kHz
• Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
17
STFT
• Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka
po 10ms)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
18
STFT (2)
• Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků).
• Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
19
Support Vector Machine (SVM)
• Zabývá se řešením úloh vyhledávání v znalostních databázích.
• Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
20
SVM (2)
• Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria.
• Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
21
Trénovací data
• Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou.
• Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení.
• Problém najít vhodná tréninková data.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
22
Trénovací data (2)
• Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování.
• Zdroje mohou být:– Multi-track záznamy– MIDI soubory
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
23
Multi-track záznamy
• Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami.
• Základní četnost melodie je odhadována YIN fundamental frequency estimator (de
Cheveigne and Kawahara, 2002).
• 10 ms omezená
• 100 hodnot na 1kHz
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
24
YIN
• Určuje pravidelný rozsah.
• PPERIODIC je celková síla harmonického kmitu objeveného pravidelně.
• PTOT je celková síla v rámu.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
25
Jistota tónu
• Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu).
• Data se musí ručně ověřit pro integritu tréninku.
• Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
26
MIDI soubory
• Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV).
• Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie.
• Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
27
MIDI soubory (2)
• V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace.
• Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
28
Půltónové posuny
• Při omezeném tréninku.– Kvalita, kvantita a různorodost
• Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu.
• multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
29
ISMIR 2004 Melody Contest
• 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů.
• 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem.
• 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou.
• 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou.
• 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem.
• 2 úryvky z populární hudby se zpěvákem.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
30
Hodnocení ISMIR 2004
• Jsou navržené tři možné metriky:1. Správná výška. Okamžité srovnání mezi
odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení).
2. Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné.
3. Edituje vzdálenost mezi odhadovanou a správnou melodií.
• Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
31
Melodie zpěváka
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
32
Melodie opery
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
33
Úspěšnost
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
34
Zdroje 1/2
• Články– Audio Melody Extraction Based on
TimbralSimilarity of Melodic Fragments
(www.ieeexplore.ieee.org/ )– A CLASSIFICATION APPROACH TO
MELODY TRANSCRIPTION(www.ee.columbia.edu/~dpwe/pubs/ismir05-
melody.pdf)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
35
Zdroje 1/2
• RNDr. Tomáš Dvořák, CSc.– http://ksvi.mff.cuni.cz/~dvorak/
• Zvuk• Kvantizace
• Internet– http://cs.wikipedia.org/– http://en.wikipedia.org/– http://www.gbl.cz/seminarky/– http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)