NMI13 Václav Novák - Vizualizace blízkosti sledovaných témat

Post on 05-Dec-2014

425 views 5 download

description

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

transcript

Vizualizace blızkosti sledovanych temat

Vaclav NovakMemepower

vaclav@memepower.cz

New Media Inspiration, leden 2013

Mapa temat

2 z 10

Mapa temat

3 z 10

Mapa kandidatu

4 z 10

Mapu chceme

• Kde jsme?

• Kam smerujeme?

• Kam chceme?

• Co pro to muzeme delat?

5 z 10

Mapa jako tabulka vzdalenostı

6 z 10

Prevedenı mapy M na tabulku T

M

As 50,22 12,20Bor 49,71 12,78Cep 48,92 14,81Dul 49,45 15,03Es 49,44 15,00Hat’ 49,95 18,26Kly 50,31 14,50

TAs Bor Cep Dul Es Hat’ Kly

As 0.0 0.8 2.9 2.9 2.9 6.1 2.3Bor 0.8 0.0 2.2 2.3 2.2 5.5 1.8Cep 2.9 2.2 0.0 0.6 0.6 3.6 1.4Dul 2.9 2.3 0.6 0.0 0.0 3.3 1.0Es 2.9 2.2 0.6 0.0 0.0 3.3 1.0Hat’ 6.1 5.5 3.6 3.3 3.3 0.0 3.8Kly 2.3 1.8 1.4 1.0 1.0 3.8 0.0

• tij = ‖mj −mi‖, kde mi je radek M odpovıdajıcı tematu i .

7 z 10

Prevedenı tabulky na mapu

• Mnohorozmerne skalovanı (Multidimensional scaling, MDS)

• Transformace matice T (n × n) do matice M (n × 2)

• Chceme:

min∑i<j

‖mi −mj‖2

tij

• Aby nebylo ∀ij : mi = mj , omezıme M takto:∑i<j

‖mi −mj‖ = 1

• Ruzne metody nalezenı hodnot M:◦ Stress Majorization (SMACOF)◦ Nonlinear Mapping (Sammon mapping)◦ Principal Component Analysis (PCA)

8 z 10

Jak spocıtat vzdalenosti temat?

•”Vzdalenost“ temat tij je opakem

”podobnosti temat“ sij

• tij = 1sij

• sij muze byt pocet diskusnıch prıspevku obsahujıcıch temata i a j

• sij muze byt pocet hlasovacıch lıstku obsahujıcıch kandidaty i a j

• sij muze byt pocet hlasovanı, kde i a j hlasovali shodne

9 z 10

Cely proces vizualizace souvyskytu

• Vyskyty → TMDS−−−→ M →

10 z 10