+ All Categories
Home > Technology > NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do...

NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do...

Date post: 05-Dec-2014
Category:
Upload: new-media-inspiration
View: 512 times
Download: 2 times
Share this document with a friend
Description:
Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
11
New Media Inspiration 2013 Martin Petrášek, eMerite.cz Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
Transcript
Page 1: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

New Media Inspiration 2013 Martin Petrášek, eMerite.cz

Softwarová analýza dat z monitoringu internetových diskusí:

Cesta do pekel

Page 2: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11

Případová studie: Srovnání výsledků Softwarová analýza dat nástrojem pro Social Media Monitoring versus Obsahová analýza týchž dat nástrojem Homo Sapiens

po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers

Page 3: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11

Klíčová slova k vyhledávání:

jména šesti největších českých pojišťoven

zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna)

pojišťovna, pojištění, pojistka, pojistit se, apod.

povinné ručení (POV), životko, cestovko, atp.

Prohledány byly:

příspěvky na Facebooku, Twitteru, Google Plus apod.

komentáře pod články

samostatná diskusní fóra

blogy, a diskuse na dalších typech webových stránek

Zdroj dat:

kombinace softwarů, určených k monitoringu sociálních médií

Page 4: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11

celkem nalezeno příspěvků

22 981

nerelevantní, bezcenné

91 % (20 901)

relevantní

9 % (2 080)

Pouze 9 % z příspěvků vyhledaných softwarem obsahovalo nějaký názor či smysluplné konstatování hodné analýzy. 91 % tvořily irelevantní výskyty klíčových slov a bezobsažné plky.

Výsledek?

Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %), „Souhlasím“, „Nesouhlasím“ apod.

Page 5: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11

Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %) Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to proplácí“ apod.

Page 6: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11

Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %) Proč irelevantní? ½ ve smyslu „číslo popisné“ ½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat)

Page 7: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11

Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly „asi nema rada generaly“ (Karolína Peak)

klíčové slovo: ČPP „miluju ČPP Ostrava“ (florbalový klub)

klíčové slovo: Uniqa/Unika/Uniqua „mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně)

Plus stovky a tisíce tweetů a facebookových upoutávek na články zpravodajských serverů, s burzovními informacemi, atp. Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít. Diskutéři nepíšou celými větami, správné tvary slov.

Page 8: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11

Software nechápe souvislosti, kontext. příspěvek negativní vůči České pojišťovně příspěvek není negativní vůči České podnikatelské pojišťovně

Page 9: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11

Software nepozná sentiment. příspěvek negativní vůči (nejmenované) Kooperativě příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovně Objem diskusí o firmě/značce není roven počtu výskytů jejího jména. Kontextové příspěvky bez klíčových slov totiž tvoří až ¼.

Page 10: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 10. z 11

Podíly na diskusích dle softwaru: Skutečnost po očištění dat:

1. Česká poj. 27,8 % 2. Allianz 17,1 % 3. Generali 11,2 % 4. Kooperativa 10,4 % 5. ČS 8,3 % 6. ČPP 5,6 % 7. Uniqa 5,6 % 8. ČSOB poj. 3,5 % 9. AXA 2,7 % ostatní 7,7 %

1. ČSOB poj. 36,3 % 2. Uniqa 19,0 % 3. Allianz 16,7 % 4. Generali 13,6 % 5. Česká poj. 8,5 % 6. Kooperativa 2,1 % 7. ostatní 2,1 % 8. ČPP 1,4 % 9. ČS 0,6 % AXA nenalezena

Page 11: NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11

Závěry?

Softwarová analýza obsahu diskusí poskytuje většinou zkreslená, resp. zcela chybná data.

Účelem softwaru je monitoring, tzn. sběr dat. Smysluplně zanalyzovat obsah a emoční vyznění textu může jedině člověk.

A co teprve rozdíly v parametrech: nejdiskutovanější témata v souvislosti s pojišťovnami sentiment u jednotlivých témat nejčastější servery s diskusemi nejaktivnější autoři příspěvků

…v nepročtených datech jen samá hausnumera.


Recommended