Date post: | 04-Jul-2015 |
Category: |
Technology |
Upload: | vaclav-novak |
View: | 357 times |
Download: | 5 times |
Yeseter: Sledovanı a analyza v prostredı socialnıch mediı
Vaclav NovakMemepower.cz, Yeseter Now
Aplikace NLP, MFF UK, brezen 2013
Obsah prezentace
• Funkce Yeseteru
• Uzivatele
• Technologie a jejich problemy
2 z 27
Strategie monitoringu socialnıch mediı
• Listen / Naslouchej
• Measure / Mer
• Understand / Porozumej
• Engage / Zapoj se
3 z 27
Nastroje pro monitoring socialnıch mediı
• Globalnı nastroje◦ Radian6◦ Alterian SM2◦ Sysomos
• Nastroje pro cestinu◦ Yeseter (Jaroslav Minha) / WLIP◦ BuzzBoot (Tomas Zeman)◦ eMerite (Martin Petrasek, Czech Power, SE) / VOBID◦ Ataxo (tez Oxata, Peter Wiedemann, s nizozemskym vlastnıkem)/ ASI
4 z 27
Sber vybranych diskuzı, blogu, for a socialnıch sıtı
• Zpravodajske servery: clanky a diskuze◦ lidovky.cz, finmag.cz, lupa.cz, aktualne.cz,komorkomania.pl
• Blogy a jejich diskuze◦ blog.respekt.cz, blogatu.ro, akka-xx.blogspot.com,dan-blog.ro
• Diskuznı fora◦ htc-club.ro, forum.ngs.ru, hojko.com, diskuze.libimseti.cz
• Socialnı sıte◦ LinkedIn, Facebook, Google+, Twitter, iWiW, YouTube
5 z 27
Zpusoby extrakce potrebnych informacı
• RSS kanaly◦ Resenı pro blogy, zpravodajske servery◦ Problem se zkracovanım prıspevku
• XPath skripty◦ Diskuznı fora, zpravodajske servery bez RSS◦ Oblıbena platforma phpBB casto RSS neposkytuje
• API◦ Facebook, Twitter, YouTube, Google+◦ Problem s kvotami a pokrytım relevantnıch statusu
• Skripty pouzıvajıcı autentifikaci◦ LinkedIn, iWiW
6 z 27
Zpracovanı nalezenych dokumentu
Zmínka● detekce jazyka● stemming● analýza sentimentu● identifikace témat
Projekt ProjektProjekt Projekt
7 z 27
Trıdenı zmınek do temat a tematickych skupin
Skupiny
Témata
Klíčová slova
Banky Produkty
ČSOB KB Hypotéky Europlatby
ČSOB Komerční banka komerčka Mojehypotéka
ČSOB KB Hypotéky Europlatby
Projekt
8 z 27
Statistiky a grafy pro temata
9 z 27
Statistiky a grafy pro zdroje
10 z 27
Statistiky a grafy pro autory
11 z 27
Statistiky a grafy pro sentiment
12 z 27
Nejsdılenejsı odkazy
13 z 27
Umoznuje pokrocile vyhledavanı a exporty
• Vyhledavanı s ”?”a ”*”
• Fuzzy matchovanı podobnych slov
• Hledanı frazı
• Omezenı na vzdalenost mezi hledanymi slovy
• Logicke operatory a zavorkovanı
14 z 27
Prıdavne funkce
• Reporting (dennı reporty)
• Alerting (Uzivatelsky definovana temata)
• Workflow pro praci se zajmovymi zmınkami
• Detekce relevance (moznost rucnı anotace pro trenovanı)
• Sentiment
• Nastavitelna nastenka
• Vyrazenı zdroju pro urcity projekt
• Real-time API (JSON streaming)
15 z 27
Uzivatele
• Firmy, o kterych se mluvı
• Marketing
• Veda, politia a vyzkum (sociologie, stranicke sekretariaty)
• Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)
• Media (napr. projekt prezidentske volby s aktualne.cz)
• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz
16 z 27
Technologie
• Stroje: Virtualnı privatnı cloud v Praze (Cloud4com), instance sdistribucı Ubuntu
• Webova aplikace: Java Tomcat + MongoDB + GWT
• Vizualizace dat: Google Chart Tools + Dojo
• Ovladanı vizualizacı a vyhledavanı: Perl + Starman + Tenjin +Dojo
• Uchovanı a indexace dat: CouchDB + ElasticSearch / Lucene +MySQL
• Zpracovanı a predavanı dat: Perl/Starman, JSON
17 z 27
Uchovanı dokumentu
• Vyhledavanı v 200 milionech dokumentu, denne statisıce novych
• Dokumentova databaze CouchDB (NoSQL)
• Vyhody: obousmerna replikace, rychly zapis novych dat
• Nevyhody: velikost souboru, nezralost, nemoznost dotazovanı,obrı ID
18 z 27
Problem pro DB: chybne kodovanı na Facebooku
19 z 27
Indexace a vyhledavanı
• ElasticSearch: distribuovana Java RESTsluzba vyuzıvajıcı index Lucene
• Opensource varianta serveru IDOL odAutonomy / HP, bez prıdavnychanalytickych funkcı
• Podobne projektu SOLR, distribuovane,mısto XML JSON
• Lze pouzıt i na jednodussı statistiky, alepak prestava byt skalovatelny
• Slozitejsı statistiky vyzadujıcı SELF JOINjsou reseny specializovanymi tabulkamiv MySQL
20 z 27
Problemy rozpoznanı jazyka
• U diskuznıch for a blogu se lze rıdit domenou
• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne
Problemove zdroje
• Facebook – spousta metadat, ale chabe moznosti filtrovanı
• YouTube – nema vyhledavanı v komentarıch
• Twitter – nedostatecna metadata
• Google+
• Narecı, nespisovne tvary
• Chybejıcı diakritika
• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥21 z 27
Problemove texty
22 z 27
Rozpoznanı jazyka
• Modul pro samotne rozpoznanı jazyka: Josef Toman, UFAL
• Nenı dostatecny, je nutne pridat i model uzivatele
• Jen Twitter ma ale 500 milionu uzivatelu
23 z 27
Stemming
• Stemming umoznuje vyhledavat ruzne tvary tehoz slova
•”Nokie“,
”Nokiım“,
”Nokii“,
”Nokia“
• Nekdy nezadoucı:”Matrix“ ×
”Matrika“,
”Sportif“ ×
”Sportage“
• Pro tato slova majı uzivatele k dispozici moznost zakazanıstemmingu
• Ruzne typy jazyku (podle strukturnı typologie) vyzadujı ruznyprıstup
• Morfessor (Otakar Smrz, UFAL): nastroj pro automaticke nalezenıafixu jazyka na zaklade korpusu
24 z 27
Specifika stemmingu v socialnıch mediıch
• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (
”Ikea“ →
”Ikey“ vs.
”Nokia“ →
”Nokie“,
”HM“ →
”HMka“)
◦ Narecı (”votravujou“,
”nabızej“,
”kupujo“)
◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (
”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste
blız,to jak te miluji“)◦ Diakritika (klıcova slova (
”CS“), koncovky)
25 z 27
Smery resenı
• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (u tweetu nekdy nedokaze bez sirsıho
kontextu ani clovek)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti
Opravy a desambiguace
+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı
Fuzzy matching
− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost
26 z 27
Dalsı vyvoj Yeseteru
• Sirsı metadata
• Pokrytı globalnıch socialnıch sıtı
• Automaticka extrakce diskuznıch for
• Lepsı clustering
• Presnejsı detekce sentimentu
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• memepower.cz
• wlip.eu
27 z 27
Dalsı vyvoj Yeseteru
• Sirsı metadata
• Pokrytı globalnıch socialnıch sıtı
• Automaticka extrakce diskuznıch for
• Lepsı clustering
• Presnejsı detekce sentimentu
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• memepower.cz
• wlip.eu
27 z 27