+ All Categories
Home > Documents > Extrakce melodie z audio signálu

Extrakce melodie z audio signálu

Date post: 10-Jan-2016
Category:
Upload: neylan
View: 52 times
Download: 0 times
Share this document with a friend
Description:
Extrakce melodie z audio signálu. Ladislav Vincourek 5.12.2006. Úvod. Co je to melodie , audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004. Extrakce melodie. Audio signál. - PowerPoint PPT Presentation
35
Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006
Transcript
Page 1: Extrakce melodie z audio signálu

Extrakce melodie z audio signálu

Ladislav Vincourek5.12.2006

Page 2: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

2

Úvod

• Co je to melodie, audio signál, tón.

• Short-Time Fourier transform

• Support Vector Machine

• Multi-track, MIDI soubor

• Testovací data ISMIR 2004.

Page 3: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

3

Extrakce melodie

Page 4: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

4

Audio signál

• signál (z latinského signalis - dávat znamení)

Page 5: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

5

Zvukové vlnění

• Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz).

• Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk.

• Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.

Page 6: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

6

Šířka pásma pro různé zdroje zvuku

Zdroj zvuku Šířka pásmaradio (FM) 50Hz - 15 kHzradio (AM) 80Hz - 5 kHzCD přehrávač 20 Hz - 20 kHzzvuková karta SB16 30 Hz - 20 kHz(levný ) mikrofon 80 Hz - 12 kHztrubka 180 Hz - 8 kHztelefon 300 Hz - 3 kHzdětské uši 20 Hz - 20 kHzuši příznivce rocku 50 Hz - 10 kHzmužský hlas 120 Hz - 7 kHzženský hlas 200 Hz - 9 kHz

Page 7: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

7

Melodie

• Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce.

• Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.

Page 8: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

8

Tón

• je v akustice považován každý zvuk se stálou frekvencí.

• v hudbě je tón základním stavebním kamenem.

Page 9: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

9

Základní vlastnosti tónu

• výška – ta je dána především frekvencí,

• délka – jak dlouho tón zní,

• síla – ta je dána amplitudou,

• barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.

Page 10: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

10

Další

• Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.

Page 11: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

11

Decibel dB síly zvuku

zvuk síla (dB)12́ ́dělo 220raketový motor 190tryskový motor 150hranice bolesti 140letištní dráha 130rocková skupina 100nákladní auto 90křik 80hlučná ulice 70řeč 60tichý domov 40nahrávací studio 20šepot 10

Page 12: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

12

Využití extrakce melodie

• Melodie poskytuje důležité shrnutí z polyfonní hudba.

• Její aplikace je důležitá pro analýzu struktury hudby.

• Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).

Page 13: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

13

Melodie x Audio signál

• Melodie poskytuje konzistentní a přirozený popis hudby.

• Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání.

• Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).

Page 14: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

14

Typy extrakce melodie

• Většina převádí jen specifický audio signál– Každá část hudby je realizována

harmonickou sadou základních tónů.– Např.: automatické rozpoznávání hlasů

• Předchozí znalost štítků– Rozpoznávací mechanismus není schopen

rozpoznat bez předchozí znalosti reprezentantů.

• Přes dominantní melodii

Page 15: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

15

Postup

1. Vstupní audio signál transformujeme na charakteristickou reprezentaci(short-time magnitude spectrum).

2. Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.

Page 16: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

16

Zvukové rysy

• Originální zvuk musíme převést na mono o max. rozpětí 8 kHz

• Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)

Page 17: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

17

STFT

• Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka

po 10ms)

Page 18: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

18

STFT (2)

• Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků).

• Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.

Page 19: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

19

Support Vector Machine (SVM)

• Zabývá se řešením úloh vyhledávání v znalostních databázích.

• Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin

Page 20: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

20

SVM (2)

• Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria.

• Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.

Page 21: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

21

Trénovací data

• Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou.

• Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení.

• Problém najít vhodná tréninková data.

Page 22: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

22

Trénovací data (2)

• Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování.

• Zdroje mohou být:– Multi-track záznamy– MIDI soubory

Page 23: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

23

Multi-track záznamy

• Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami.

• Základní četnost melodie je odhadována YIN fundamental frequency estimator (de

Cheveigne and Kawahara, 2002).

• 10 ms omezená

• 100 hodnot na 1kHz

Page 24: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

24

YIN

• Určuje pravidelný rozsah.

• PPERIODIC je celková síla harmonického kmitu objeveného pravidelně.

• PTOT je celková síla v rámu.

Page 25: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

25

Jistota tónu

• Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu).

• Data se musí ručně ověřit pro integritu tréninku.

• Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.

Page 26: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

26

MIDI soubory

• Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV).

• Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie.

• Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.

Page 27: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

27

MIDI soubory (2)

• V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace.

• Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.

Page 28: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

28

Půltónové posuny

• Při omezeném tréninku.– Kvalita, kvantita a různorodost

• Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu.

• multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.

Page 29: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

29

ISMIR 2004 Melody Contest

• 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů.

• 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem.

• 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou.

• 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou.

• 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem.

• 2 úryvky z populární hudby se zpěvákem.

Page 30: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

30

Hodnocení ISMIR 2004

• Jsou navržené tři možné metriky:1. Správná výška. Okamžité srovnání mezi

odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení).

2. Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné.

3. Edituje vzdálenost mezi odhadovanou a správnou melodií.

• Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.

Page 31: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

31

Melodie zpěváka

Page 32: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

32

Melodie opery

Page 33: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

33

Úspěšnost

Page 34: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

34

Zdroje 1/2

• Články– Audio Melody Extraction Based on

TimbralSimilarity of Melodic Fragments

(www.ieeexplore.ieee.org/ )– A CLASSIFICATION APPROACH TO

MELODY TRANSCRIPTION(www.ee.columbia.edu/~dpwe/pubs/ismir05-

melody.pdf)

Page 35: Extrakce melodie z audio signálu

5.12.2006 Vyhledávání v multimediálních databázích - DBI030

35

Zdroje 1/2

• RNDr. Tomáš Dvořák, CSc.– http://ksvi.mff.cuni.cz/~dvorak/

• Zvuk• Kvantizace

• Internet– http://cs.wikipedia.org/– http://en.wikipedia.org/– http://www.gbl.cz/seminarky/– http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)


Recommended