Vysoká škola ekonomická v Praze
Fakulta informatiky a statistiky
Vyšší odborná škola informačních služeb
Kamil Jersák
Automatické doručování obsahu WWW stránek pomocí
technologie RSS
bakalářská práce
2010
Prohlášení
Prohlašuji, že jsem tuto bakalářskou práci zpracoval samostatně a že jsem uvedl všechny
použité prameny a literaturu, ze které jsem čerpal.
V Praze, dne 29. června 2010 …………………………
Kamil Jersák
Abstrakt Tato práce poskytuje informace o technologii RSS, a také o možnostech jejího
využití. Cílem práce je představit, jak lze pracovat s technologií RSS a jaký přináší užitek.
Toho je dosaženo vytvořením názorných příkladů a jejich detailním popisem. Nejprve jsou
popsány základní rysy jazyka XML, ze kterého technologie RSS vychází. Dále popsán
princip RSS, jeho nejpoužívanější formáty a jejich rozdíly, současné oblasti použití i
historický vývoj. Práce obsahuje názorné příklady možností získávání zpráv pomocí
software, založeném na této technologii. Dále jsou představeny zásady pro tvorbu RSS
zdrojů. Podle těchto zásad jsou vytvořeny příklady, které představují rozdílné možnosti,
jak zdroje zpráv vytvářet.
Klíčová slova RSS, XML, Značkovací jazyk, RSS čtečka, RSS zdroj, RSS 2.0, Atom
Abstract This bachelor thesis provides information about RSS technology, and also about
possibilities how to use it. The goal is to present how may be working with RSS
technology, and what benefit it brings. This is achieved by creating illustrative examples
and detailed descriptions. First part describes the basic features of XML, from which the
RSS is based. Subsequently is described principle of RSS, the most common formats and
their differences, the current use and historical development. The work contains visual
examples the possibility of retrieval messages using the software, based on this technology.
There are also introduced guidelines for creating RSS feeds. According to these principles
are developed examples that represent different ways to create news source.
Keywords RSS, XML, Markup language, RSS reader, RSS feed, RSS 2.0, Atom
5
Obsah 1 ÚVOD ................................................................................................................. 7
2 XML .................................................................................................................... 8
2.1 Značkovací jazyky ....................................................................................... 8
2.1.1 Procedurální značky ................................................................................. 9
2.1.2 Deklarativní značky ................................................................................. 9
2.2 Jazyk XML .................................................................................................. 9
2.2.1 Využití XML ............................................................................................ 9
2.2.2 Obecné rysy ............................................................................................ 10
2.2.3 Struktura XML dokumentu .................................................................... 10
2.3 Definice typu dokumentu ........................................................................... 11
3 Technologie RSS ............................................................................................... 12
3.1 Obecná charakteristika ............................................................................... 12
3.2 Historický vývoj ........................................................................................ 12
3.2.1 Současnost .............................................................................................. 15
3.3 Nejpoužívanější RSS formáty a jejich rozdíly ........................................... 15
3.3.1 RSS 0.9x ................................................................................................. 15
3.3.2 RSS 1.0 ................................................................................................... 15
3.3.3 RSS 2.0 ................................................................................................... 16
3.3.4 Atom ....................................................................................................... 16
3.4 Princip funkce RSS .................................................................................... 17
3.5 Agregátory ................................................................................................. 18
3.6 Rizika zneužití RSS ................................................................................... 18
3.7 Budoucnost RSS ........................................................................................ 19
4 RSS čtečky ........................................................................................................ 20
4.1 K čemu RSS čtečka slouží? ....................................................................... 20
4.2 V čem RSS čtečka nepomůže? .................................................................. 21
4.3 Jak poznat, že má nějaký web svůj kanál RSS? ........................................ 21
4.4 Čtečky integrované do webových prohlížečů ............................................ 21
4.5 RSS čtečka součástí e-mailových klientů¨ ................................................. 22
4.6 Další způsoby čtení zpráv ve formátu RSS ............................................... 23
4.7 Samostatné aplikace ................................................................................... 23
4.8 Odběr kanálu prostřednictvím FeedReader ............................................... 23
6
4.9 Webové aplikace ........................................................................................ 29
4.10 Odběr kanálu prostřednictvím Google Reader .......................................... 29
4.10.1 Zajímavosti a další funkce .................................................................... 31
5 Specifikace RSS 2.0 .......................................................................................... 34
5.1 Elementy jazyka RSS 2.0 ........................................................................... 34
6 Tvorba RSS zdroje ............................................................................................ 39
6.1 Požadavky na webové stránky a zdroje ..................................................... 40
6.2 Vzhled vytvořeného zdroje ........................................................................ 41
6.2.1 Internet Explorer .................................................................................... 41
6.2.2 Mozilla Firefox ....................................................................................... 42
6.3 Manuálně vytvořený RSS zdroj ................................................................. 42
6.4 Programy pro tvorbu RSS .......................................................................... 43
6.5 Automatizované nástroje pro tvorbu zdrojů .............................................. 45
7 Propagace RSS zdroje ....................................................................................... 48
7.1 XML tlačítko .............................................................................................. 48
7.2 Technologie autodiscovery ........................................................................ 48
7.3 Optimalizace stránky pro vyhledávání....................................................... 48
7.4 Katalogy RSS zdrojů.................................................................................. 49
8 Závěr ................................................................................................................. 50
9 Seznam literatury .............................................................................................. 51
10 Přílohy ............................................................................................................... 53
7
1 ÚVOD
V současnosti je Internet nejobsáhlejším a nejlépe přístupným zdrojem informací,
z nichž většina je volně přístupná. Každý tak má možnost získat informace v oblasti, která
ho zajímá. S přibývající množstvím informací, je však stále těžší najít ty relevantní a
aktuální. Proto bylo nutné vytvořit technologii, která by uživateli nabízela zprávy
s aktuálními informacemi, ze kterých by si mohl odebírat jen ty, které ho zajímají. Proto
byla vyvinuta technologie RSS, s jejíž pomocí lze zprávy nejen odebírat, ale i poskytovat.
Každý, kdo využívá Internet k práci, studiu zábavě či komunikaci přichází běžně do
styku s touto technologií. Ne každý ale ví, že jí používá, nebo jak by mu mohla být
užitečná.
Proto popíši princip fungování RSS, jeho význam i jednotlivé varianty. Na
příkladech popíši, jaké nástroje lze při získávání zpráv touto technologií využít i jaké
nástroje se využívají pro publikování vlastních zpráv.
Cílem této práce je čtenáři nabídnout nástroj, který mu umožní efektivněji získat
aktuální zprávy obsahující informace, které ho zajímají, a také mu umožní prezentovat své
vlastní poznatky ostatním.
8
2 XML
2.1 Značkovací jazyky Jako značkovací je definován jazyk, jehož zdrojový text obsahuje současně jak
vlastní text, tak instrukce vyjadřující jeho vlastnosti, nebo formátování. Tyto instrukce jsou
definovány jako posloupnost znaků tvořících značku nebo příkaz a nesmí se v textu
vyskytovat jinak, než právě v této roli1.
Důvod vytváření takovýchto jazyků vyplívá z potřeby uchovávat texty v přehledné a
formalizované podobě, jež je starší než historie elektronických počítačů a jejich využívání
pro zpracování textů. Ale právě využití elektronických počítačů jako nástrojů pro
zpracování textů klade velký důraz na explicitní formalizaci zpracovávaných textů. Jedním
z hlavních důvodů tohoto důrazu je neschopnost současných nástrojů "domýšlet" si
neurčitě definovanou strukturu textu. Dodržením definované formální struktury
zpracovávaného textu získají softwarové nástroje potřebné informace pro práci s
jeho logickou strukturou.
Pravděpodobně první značkovací jazyk GML (Generalized Markup Language) byl
vyvinut firmou IBM z důvodu potřeby popisovat, uchovávat a zpracovávat různé typy
právních textů. V 80-tých letech začala organizace ISO na základě tohoto jazyka
připravovat normu standardního značkovacího jazyka. Po spojení aktivity vyvíjející GML
s aktivitami pracujícími na podobných projektech byl roku 1986 definován standard
SGML (Standard Generalized Markup Language). Tento jazyk má značnou vyjadřovací
sílu a současně je velice flexibilní. Síla SGML je ale vykoupena jeho velkou složitostí a
komplikovaností. Díky tomu je nesnadné vytvořit nástroj, který pokrývá celou šíři tohoto
jazyka. Proto byly následně na základech SGML vytvořeny jednodušší jazyky (HTML,
XML), které se i přes svoji "omezenou" vyjadřovací sílu značně rozšířily.
Klasifikovat jednotlivé značkovací jazyky lze například z pohledu základní
interpretace značek2.
1 KOSEK, J., XML a PHP
2 VOCHOZKA, J., Značkovací jazyky a XML
9
2.1.1 Procedurální značky
Procedurální značka definuje akci, která se má s prvkem provést. Takovou akcí může
být například příkaz, aby se text zobrazil tučným písmem. Příkladem procedurálního
značkovacího jazyka je jazyk HTML (HyperText Markup Language) pomocí kterého je
značkovaná velká část stránek WWW nebo RTF (Rich Text Format), který se užívá jako
výměnný formát mezi textovými procesory T602, MS Word, aj.
2.1.2 Deklarativní značky
Na rozdíl od značky v procedurálním jazyku neříká deklarativní značka nic o tom,
jak se má text zpracovat, ale definuje prvek jako logickou část značkovaného textu.
Pomocí deklarativní značky lze jasně odlišit například datum narození od data nástupu do
zaměstnání. Pro finální zpracování deklarativně značkovaného textu je třeba ještě
definovat další soubor, který pro konkrétní požadovanou úlohu přiřadí každému prvku
instrukce, jak má být text zpracován. Tento soubor je závislý na nástroji, který jej bude
interpretovat a současně tak zpracovávat značkovaný text. Z toho vyplývá, že použití
deklarativních značek při zpracování textů je složitější, na druhé straně je tento způsob
mnohem flexibilnější. Při změně úlohy značky často stačí pouze přepsat její instrukce pro
zpracování textu. Příkladem deklarativního značkovacího jazyka je jazyk XML a aplikace
z něho vycházející.
2.2 Jazyk XML Extensible Markup Language (rozšiřitelný značkovací jazyk) je obecný značkovací
jazyk, který byl vyvinut a standardizován konsorciem W3C v polovině 90. let minulého
století. Jedná se zjednodušenou podobou staršího jazyka SGML. Původním plánem bylo
zcela nahradit jazyk HTML při doručování obsahu do prohlížeče. Tato myšlenka se však
ukázala jako příliš revoluční a navíc problémy spojené s jazykem XHTML a jeho
podporou v prohlížečích, přinesly rozporuplné přijetí mezi webovými vývojáři. Nicméně
technologie XML jsou dnes pevnou součástí mnoha webových technologií, formátů a
protokolů.
2.2.1 Využití XML
Syntaxi XML využívají mnohé prezentační formáty – počínaje jazykem XHTML,
přes stále populárnější vektorový formát SVG, až po jazyky pro definici uživatelského
10
rozhraní v moderních RIA (Rich Internet Application) prostředích, jako je XAML
v Silverlightu a MXML ve Flashi.
XML dnes zcela dominuje na poli publikování metainformací. Jedná se například o
formáty pro publikování přehledů nových článků, jako jsou RSS či Atom. Protože
začleňování sémantiky ve strojově čitelné podobě přímo do webových stránek je stále
v plenkách, mnoho vyhledávačů nabízí vlastní formáty, ve kterých může uživatel předávat
informace vylepšující vyhledávání – například Google Sitemap nebo Google Base3.
Další využití XML je pro komunikaci a předávání dat. XML se používá jednak pro
výměnu dat mezi backendy (část webové aplikace, která slouží k administraci webu a ke
zpracování dat) jednotlivých aplikací a dále pak v AJAXových aplikacích pro zasílání
aktualizací dat do prohlížeče. „Enterprise“ aplikace pak pro samotnou komunikaci
nevyužívají prosté XML, ale komplexnější mechanismus webových služeb4.
2.2.2 Obecné rysy
XML je jazyk založený na deklarativních značkách a jako takový poskytuje
výhody deklarativních značkovacích jazyků. XML je nezávislé na cílové platformě (Unix,
Windows,…). Tentýž dokument lze sdílet i mezi různými platformami. Pro zpracování
textů značkovaných na základě deklarativních jazyků je třeba vybudovat potřebnou SW
infrastrukturu (parsery, konvertory,…). Pro texty značkované v XML jsou tyto nástroje
často volně dostupné. Mnohé z těchto volně dostupných nástrojů mohou přímo pokrýt
jednodušší aplikační oblasti. Kompletní deklarace XML je volně dostupná na stránkách
skupiny W3C5. K dispozici jsou rovněž DTD některých (i velice rozsáhlých) aplikací.
XML se dále rozvíjí a lze předpokládat stále silnější podporu tohoto jazyka i ze strany
"velkých" dodavatelů SW.
Na druhé straně je třeba si uvědomit, že XML je nástroj a jako takový sám o sobě
nemůže vyřešit například sémantické problémy zpracování textu.
2.2.3 Struktura XML dokumentu
Jednou z podstatných výhod jazyka XML jsou lehce dostupná a obecně akceptovaná
doporučení, která jednoznačně definují strukturu XML dokumentu. Tato schémata jsou
3 Seznam značkovacích jazyků dostupný z
http://en.wikipedia.org/wiki/List_of_XML_markup_languages 4 KOSEK, J., XML a PHP 5 Dostupné http://www.w3.org/TR/xmlschema-0
11
spravována organizací W3C, která schémata nejen udržuje, ale podílí se i na dalším vývoji.
Je definováno několik základních pravidel, jak má být XML dokument správně sestaven.
Značka označující začátek prvku „nazev_prvku“ je definována ve tvaru
<nazev_prvku>, značka označující konec prvku je definována ve tvaru </nazev_prvku>.
Prvek musí mít jasně označen jak počátek, tak konec.
Pokud se v textu vyskytují znaky, které jsou vyhrazeny pro definici značky, je třeba
užít zástupných řetězců. Například znak '<' se zapíše jako <.
Prvek zapsaný s užitím otazníků <?poznamka?> není standardními XML nástroji
zpracováván. Tyto prvky se užívají buď jako prostor pro poznámky autora dokumentu,
nebo jako prostor, kam si SW nástroje třetích stran mohou zapisovat svá data.
Při vnořování není dovoleno vzájemně "křížit" značky. Křížením myšlen stav, kdy je
jedna část textu bezprostřední součástí dvou a více prvků6.
Správně definovaný dokument v XML může na nejvyšší úrovni obsahovat právě
jeden prvek. Všechny ostatní prvky do něj musí být vhodným způsobem vnořeny.
Další pravidla, která je třeba dodržet při definování XML dokumentu, je možné najít
například na stránkách organizace W3C
2.3 Definice typu dokumentu DTD (Document Type Definition) je deklarativní popis, pomocí něhož je možné
popsat třídu dokumentů, vyznačující se explicitně definovanými vlastnostmi. Samotný
pojem DTD je obecnější a je používán i pro jiné značkovací jazyky než jen pro XML.
DTD dokument je zpravidla vyjádřen zvláštním textovým souborem, který je současně
validním XML dokumentem. Také DTD popisuje dokument XML jako postupný rozklad
základního prvku XML dokumentu na jeho vnořené prvky. Pravidla, která je třeba dodržet
při tvorbě DTD dokumentu, jsou k dispozici například na zvon.org7.
6 VOCHOZKA, J., Značkovací jazyky a XML 7 http://www.zvon.org/xxl/DTDTutorial/General/book.html
12
3 Technologie RSS
3.1 Obecná charakteristika Zkratka RSS představuje moderní technologii přenosu a zpracování metadat, která
má mnoho využití. RSS je rodina XML formátů určených pro čtení novinek na webových
stránkách a obecněji syndikaci obsahu. Zkratka má tři významy, které souvisejí s verzemi,
u nichž byla zavedena. V současné době se nejčastěji používá slovní spojení Really Simple
Syndication. Technologie RSS dává uživatelům, kteří hledají na Internetu nové informace,
možnost se přihlásit k odběru novinek z webu, kde je vytvořen RSS zdroj (RSS feed, též
RSS kanál, RSS channel). Tento zdroj se většinou vyskytuje na stránkách, kde se nový
obsah mění a přidává velmi často (například zpravodajské servery).
Původně tento formát sloužil pouze k předávání aktuálních novinek mezi
jednotlivými servery, které takto velmi jednoduše mohly odkazovat na aktuální články na
jiných serverech.
Samotná zkratka má několik výkladů:
Rich Site Summary (RSS 0.91 od firmy Netscape)
Resource Description Framework Site Summary (RDF vyvinutý společností W3C)
Really Simple Syndication (RSS 2.0 – v současnosti ho spravuje Berkman Center for
Internet & Society na Právnické fakultě Harvardovy univerzity)
Really Simple Syndication 3.0 (RSS 3.0 Lite – zatím nejmladší z rodiny RSS)
Existují také další formáty se stejným účelem:
Channel Definition Format (CDF – formát od firmy Microsoft, v praxi se vůbec
neprosadil a dnes se téměř neobjevuje)
The Atom Syndication Format (ATOM 1.0 – moderní standardizovaný formát)
3.2 Historický vývoj Když se ve světě okolo poloviny devadesátých let (u nás o něco později) začaly
webové časopisy stávat stále více a více běžnou záležitostí, nabývala u nich na důležitosti
mimo jiné také reklama a vzájemná propagace. Jeden vydavatel mohl provozovat více
časopisů. Bylo v jeho zájmu, aby tyto webové listy byly nějakým způsobem provázány.
13
Běžným standardem se stalo uvádět v jejich zápatí odkazy na další "spřátelené" adresy, ale
tento systém odkazů byl málo atraktivní a nepříliš efektivní, neboť byl pasivní.
O něco větší úspěch zaznamenaly animované reklamní proužky a ikonky, avšak
vydavatelé hledali něco poutavějšího. Velmi zajímavou a účinnou možností se ukázala být
taková vzájemná reklama, kde se na nějakém místě jednoho časopisu ukazoval aktuální
obsah jiného v podobě nadpisů článků, právě vydaných zpráv a podobně. Uživatel tak,
když navštívil titulní stránku jednoho serveru, znal okamžitě obsah několika dalších a v
případě potřeby mohl přejít přímo na ten článek, který ho zajímal. Podobně atraktivní
možnost ale vyžadovala příslušné technologické řešení. Otázkou bylo, jak dostat zprávy ze
stránky A na stránku B? Řešení tohoto problému se stalo typickou aplikací nové
technologie přenosu metadat. Dnes nejběžnější standard pro tento přenos dovede ušetřit
mnoho času i námahy.
První přímí předchůdci dnešního RSS se objevili okolo roku 1995 a pocházeli z dílny
společnosti Apple Computer. Standard se jmenoval Meta Content Framework (MFC).
Později byla tato technologie přepracována na Resource Description Framework (RDF).
Již tehdy se pro popis metadat používal jazyk XML, což značně zjednodušilo jejich čtení a
přenos8.
O něco později dal nový význam metapopisu obsahu webového serveru Microsoft.
Součástí nového Internet Exploreru 4.0, který byl standardně integrován do Windows 98,
byla podpora takzvaných aktivních kanálů. Tyto kanály byly popisovány prostřednictvím
souborů CDF, v mnoha ohledech velmi podobných RDF. Pomocí CDF bylo možno
přihlásit se k nejrůznějším webovým stránkám, které publikovaly svůj obsah v tomto
formátu. IE pak tyto vydavatele pravidelně kontroloval a stahoval nová data. Formát CDF
byl uveden v roce 1997. Formát se ale neujal, stejně jako celá technologie aktivních
kanálů. Důvodů pro to bylo více, avšak jako základní se uvádí, že systém konzumoval
příliš velkou kapacitu síťového připojení v době, kdy většina uživatelů spoléhala na
pomalé a omezené vytáčené připojení. Ve stejném roce 1997 vývojář Dave Winer
představil svůj vlastní formát na bázi jazyka XML určený pro publikování jeho webového
zápisníku – Scripting News. Ten se poprvé objevil v roce 1997 a specializoval se na
software pro publikování na webu. První skutečnou verzí jazyka RSS vyvinul Dan Libly ze
společnosti Netscape. Tato verze vešla ve známost jako verze 0.90 a byla navržena pro
použití v rámci webového portálu My Netscape. V červenci 1999 došlo k její úpravě a 8 BEDNÁŘ, V. RSS (nejen) zprávy pro každého: Technologie RSS pod drobnohledem, kap. 1
14
objevila se první všeobecně známá verze s označením 0,91. V té době označovala zkratka
RSS slovní spojení Rich Site Summary (shrnutí obsahově bohatého webu). Verze 0,91
převzala některé části z formátu Scripting News a stala se jednou z hlavních verzí jazyka
RSS9.
V roce 2000 došlo k rozdělení vývoje do dvou větví The RSS-DEV Working Group
vyvíjí verzi RSS 1.0. Tato verze se od předchozích značně lišila a jejím základem se stal
XML jazyk RDF s názvem Dublin Core. Tak byl jazyk nazván RDF Site Summary. Tato
verze je rozšířena např. o podporu jmenných prostorů XML. Není však plně zpětně
kompatibilní s verzí 0.9, protože je již založena na konečném formátu RDF 1.0.
Ve vývoji druhé větve RSS formátu byl angažován UserLand Software. V roce 2000
vydal verzi RSS 0.92 a postupně další až k verzi 0.94. Všechny verze 0.9x jsou
kompatibilní s verzí 0.91. Byly provedeny menší úpravy standardu, jako uzavřen prostor
elementů, do kterého byly zavedeny elementy dovolující použít zvukové soubory
(podcastů). V roce 2002 UserLand Software vydal verzi RSS 2.0, s touto verzí byl znovu
změněn význam zkratky RSS na Really Simple Syndication. Verze 2.0 zachovává zpětnou
kompatibilitu s verzí 0.92 a byla upravena tak, aby si uživatelé mohli upravit jazyk RSS
dle vlastních potřeb.
V roce 2003 firma UserLand přenechala specifikaci RSS 2.0 Harvard University pod
licencí „Creative Commons“. Vývoj je nyní zmrazen ve verzi 2.0.1 a další verze se
vydávají pouze za účelem vyjasnění specifikace, ne pro přidávání nových funkcí.
Nástupcem formátu RSS by měl být formát Atom (plným názvem Atom Syndication
Format). Jedná se o webový standard pro publikování syndikovaného obsahu, přijatý IETF
v prosinci 2005 jako RFC 4287. Kromě něj je pod RFC 5023 v říjnu 2007 přijat také Atom
Publishing Protocol (zkráceně APP či AtomPub) umožňující vytváření a aktualizaci
webových zdrojů ve formátu Atom pomocí HTTP.
Formát Atom vznikl z důvodu nespokojenosti části internetové společnosti, která
viděla nedostatky formátu RSS a po „zmrazení“ vývoje na verzi RSS 2.0.1 nemohla s touto
skutečností nic dělat. Proto se diskutovalo o novém, čistém formátu. Vznikl projekt Atom,
který neměl přinést revoluci v syndikaci, ale kladl důraz na čistý a důsledný návrh a
otevřenost. Dále chtěl vylepšit některé vlastnosti formátu RSS. První verze Atom 0.2 vyšla
v roce 2003 a ještě do konce téhož roku vyšel update na verzi Atom 0.3. Tato verze se
setkala s kladným ohlasem také zásluhou společnosti Google, která jej zakomponovala do 9 HOLZNER, S.; ŠINDELÁŘ, J. RSS : Automatické doručování obsahu vašich WWW stránek.
15
svých produktů, a poté došlo k jejímu rozšíření do mnoha jiných aplikací. V roce 2005
vznikla verze Atom 1.0, která byla přijata jako standard mezinárodní komisí IETF.
3.2.1 Současnost
Technologie RSS se postupem času stala základem pro další funkce, které už nemusí
souviset s původním obsahem. Zatímco metadata původně shrnovala obsah webového
serveru, tedy především články, které bylo možné na daném serveru najít, v současnosti
popisují spoustu jiných typů informací. Mohou to být zvukové záznamy (RSS je základem
tzv. podcastů), popis distribuovaných souborů v systému BitTorrent nebo dalších
výměnných sítích. Analogický systém metadat se využívá rovněž v aktualizačních
službách některých softwarových produktů a dokonce při sdílení dat mezi počítači v rámci
P2P služeb. Faktem ovšem je, že pak se jedná už o mnohem více derivované systémy, než
je originál.
V každém případě se ale RSS stalo nejvyužívanějším systémem při prezentaci
obsahu webových serverů. Prakticky každý portál, časopis, nebo uživatelský blog dnes
produkuje RSS kanál, jenž slouží pro informaci a také pro přilákání čtenářů. Metadata
popisující obsah serveru lze najít na mnoha jiných místech, kde fungují jako informace o
novinkách, jako reklama, ale také jako zásadní datový zdroj pro srovnávání různých
serverů. RSS je v současnosti technologie, která v mnoha ohledech "hýbe světem".
Uživatel se s ní nemusí setkat bezprostředně, ale v každém případě je tak či onak jejím
uživatelem. Pomáhá při orientaci v obsahu webových serverů, poslechu vysílání, sdílení
dat a prezentování do světa osobních názorů.
3.3 Nejpoužívanější RSS formáty a jejich rozdíly
3.3.1 RSS 0.9x
Na rozdíl od verze RSS 2.0 je tato verze dále vyvíjena. RSS 0.9x byla vytvořená
společností Netscape Communications a všechny verze jsou zpětně kompatibilní.
3.3.2 RSS 1.0
I tato je dále vyvíjena. Verze RSS 1.0 byla vyvinuta společností UserLand Software
a není s RSS 0.9x kompatabilní z následujících důvodů.
16
Z kořenového elementu dokumentu je zřejmé, že RSS 0.9110 je založena na formátu
RSS (<rss>). kdežto RSS 1.0 na RDF (<rdf:RDF>). Dále je to organizace některých
značek (elementů). Například element <channel> je uzavřen ještě před seznamem
elementů <item>.
Verze 1.0 již umožňuje vytvářet jmenný prostor, pomocí něhož si každý může
vytvořit vlastní značky, které základní verze neobsahuje. Jmenný prostor je deklarován
v kořenovém elementu s parametrem „xmlns:“, prefixem uvádějícím název jmenného
prostoru a s odkazem na rozšiřující dokument. V textu se pak vše, co je v elementu s tímto
prefixem, bude vytvářet podle pravidel deklarovaných v otmto jmenném prostoru.
3.3.3 RSS 2.0
Kanály, jejichž počet byl ve verzi 0.91 omezen na 15 článků, již není nijak limitován.
RSS klade omezení na první znak, který nespadá do kategorie mezer (whitespace), v rámci
dat elementů <link> a <url>. URL-adresy těchto elementů musejí začínat prefixem http://,
https://, news://, mailto: nebo ftp://. Element <!DOCTYPE>, který specifikuje DTD pro
verzi 2.0, již není vyžadován. Místo kořenového elementu <rss version=“0.91“> je použit
<rss version=“2.0“>. Byly přidány nové elementy a parametry.
Pozice jednotlivých elementů v dokumentu není jasně stanovena a řídí se obecnými
zvyklostmi, které kladou důraz především na přehlednost. Struktura a hierarchie je
definována deklarací jazyka XML11 a verzí RSS12.
Verze RSS 2.0 zachovává zpětnou kompatibilitu s verzí 0.92. Vývoj je nyní zmražen
ve verzi 2.0.1 a další verze se vydávají pouze za účelem vyjasnění specifikace, ne pro
přidávání nových funkcí.
3.3.4 Atom
Některé z rozdílů oproti verzi RSS 2.0 jsou tyto:
Všechny elementy se nacházejí ve výchozím jmenném prostoru jazyka Atom. Kanál
i jednotlivé položky musí mít uvedeny svůj název, jedinečný identifikátor (URI) a datum
poslední změny. Povinné je rovněž jméno autora u každé položky, pokud není vyplněno
pro všechny z nich. Zatímco u RSS bylo možné v poli description uvést jak souhrn, tak
plný obsah, u Atomu je pro souhrn vyčleněn element summary, zatímco pro plný obsah se 10 Specifikace dostupná z http://backend.userland.com/rss091 11 Dostupné z http://www.w3.org/TR/xmlschema-0 12 WINER, D., RSS 2.0 Specification
17
používá content. V RSS nebylo možné zvolit, jaký formát obsahu je použit. Atom
rozeznává např. prostý text, escapované HTML, XHTML, XML, binární obsah v kódování
Base64 či odkaz na jiný webový zdroj.
3.4 Princip funkce RSS Aby mohl přenos metadat fungovat, musí existovat jejich producent a příjemce. V
typickém případě je producentem redakční systém webového serveru. Tento systém, jenž
se mimo jiné stará o publikaci a propagaci článků, které na serveru vyšly, sbírá a pro
vnitřní potřebu využívá jejich popis. Takovým popisem je titulek, podtitulek, informace o
tematickém zařazení, datu vydání a několik podobných údajů. Takto získané informace
jsou zakódovány do příslušné XML šablony, aby byly čitelné pro libovolný jiný systém,
který zná její podobu. Následně mohou, ale nemusí být zpřístupněny jinému počítači nebo
veřejnosti.
Pokud zpřístupněny jsou, jedná se o takzvaný RSS kanál. V moderním prohlížeči
(Internet Explorer 7, Firefox) jeho přítomnost poznáte podle unifikované ikonky vedle
adresního řádku. Z hlediska jiného systému než producenta je kanál s metadaty aktuálního
serveru běžným souborem, který může klient kdykoliv číst. Po jeho přečtení získá
informace o aktuálním obsahu serveru.
Protože klient může porovnávat současný obsah souboru, tedy kanálu, s tím, který
má uložen v paměti, dokáže upozornit uživatele (nebo například jiný program) na
přítomnost aktualizovaného obsahu. Může čtenáři sdělit, že vyšlo něco nového. Starší
metadata lze zahazovat jako neaktuální, ale mohou být také archivována pro potřebu
pozdějšího zpracování. Tato archivace je možná jak na klientské straně, tak na serveru.
Prakticky se ale množství metadat poskytovaných serverem omezuje pouze na novinky. Při
zpracování většího XML souboru větším počtem klientů by totiž mohlo docházet ke
zbytečnému přetěžování serveru s tím, že mnoho informací by bylo pro většinu klientů
zbytečných13.
Deriváty RSS se běžně používají i k jiným věcem než jen k distribuci zpráv.
Například zadáním RSS kanálu do rozhraní populárních aplikací pro BitTorrent je možné
zajistit periodické stahování nejnovějších verzí vašeho oblíbeného programu. Technologii
RSS také využívá systém internetového vysílání, běžně známý jako PodCast.
13 BEDNÁŘ, V. RSS (nejen) zprávy pro každého: Technologie RSS pod drobnohledem, kap. 2
18
3.5 Agregátory Jedná se o web, který pracuje jako RSS čtečka s předem vybranými informačními
zdroji, které jsou průběžně aktualizovány. O případné přidání dalšího zdroje je možno
požádat správce serveru.
Zřejmě nejpovedenějším webovým agregátorem na českém internetu je server Právě
dnes. Na jedné stránce umí zobrazit obsah až dvaceti kanálů s tím, že existuje větší
množství virtuálních záložek. Server zná mnoho tuzemských i zahraničních zdrojů a po
vytvoření účtu si může každý uživatel upravit jeho nastavení tak, aby pro něj bylo
přehlednější. Také je možné požádat správce serveru o přidání dalšího informačního
zdroje, který ovšem musí pro to, aby se mohl účastnit, splňovat některé podmínky.
Celkově lze Právě dnes považovat za aplikaci první volby, pokud uživatel shání on-line
snadno dostupný nástroj na zpracování zdrojů v RSS, ke kterému je možné přistupovat
odkudkoliv a který mu současně umožní alespoň nějakou míru personifikace. Aplikace
naopak nebude vyhovovat tomu, kdo požaduje zařazení méně často navštěvovaných nebo
pro naši realitu atypických serverů. To je ovšem problém nevelkého počtu uživatelů.
Jiným on-line agregátorem je server Krátce (www.kratce.cz). Nabízí velké množství
obsahu z mnoha různých zdrojů a témat. I když jeho vzhled není tak přívětivý jako u výše
jmenovaného serveru, je oproti němu jednodušší, především z hlediska zpracování
prohlížečem. Nabízí rychlou možnost vyhledávání i otevírání jednotlivých tematických
okruhů a jejich podtémat. Prohledávání kanálů může být zařazeno mezi standardní
vyhledávače v prohlížečích Mozilla. V případě, že zdroj, který uživatel požadujete, není v
agregátoru zařazen, je o jeho přidání možné požádat. I zde musí obsah splňovat určité,
především formální podmínky. Dá se říci, že prakticky každý uživatel z Česka, který
vyžaduje webový agregátor, si vystačí s některým ze dvou zde uvedených serverů.
Samozřejmě existuje větší množství agregátorů. Za zmínku stojí například zatím pouze
testovaná služba společnosti Microsoft, kde je výběr je samozřejmě ještě mnohem širší.
3.6 Rizika zneužití RSS Na internetu se objevily informace o škodlivosti RSS pro servery. Některé
implementace této technologie jsou nedokonalé a mohou být potenciálně použity jako
zdroj útoku proti poskytovateli. Takový útok by mohl vycházet především ze zahlcení
poskytovatele požadavky na čtení RSS kanálů. Existovaly firmy, které nemají či alespoň
19
na počátku jejího boomu neměly technologii RSS v lásce, a tak se ocitly v podezření, zda
výše uvedené problémy zbytečně nenafukují. V současnosti je ale implementace šíření
zpráv v naprosté většině systémů vyřešena tak, že k podobnému zahlcování nemůže
docházet (a pokud ano, tak v minimálním měřítku). RSS se jako zdroj útoku na server
neukázalo příliš praktické a hackeři se spíše soustředí na jiná místa.
Jiná obava se týkala možného zahlcení RSS kanálů reklamou. Zpravodajské servery
a ty, které poskytují atraktivní obsah, žijí z reklamy. Samotná metadata poskytovaná
pomocí RSS obsahují mnoho informací, ale žádnou reklamu. Zde vznikla obava, že
poskytovatelé obsahu se budou do metadat snažit umístit nějakou komerci, aby i tento
distribuční kanál informací "pokryli" z hlediska svých zákazníků zadavatelů. Technologie
samotná něco takového umožňuje a ve výsledku by mohla vést až k zaplavení RSS
reklamou a k omezení jeho použitelnosti. V praxi se ovšem nic takového nestalo a
pravděpodobně ani nestane. Stejně tak se nenaplní další obava, že lidé budou navštěvovat
pouze agregátory. Tedy místa, kde díky RSS získají z jedné stránky množství zpráv a tím
pádem ztratí zájem o původní poskytovatele obsahu. Prakticky je to spíše naopak.
Agregátory slouží jako výchozí místa. Plní úlohu "portálů", kde se mnoho uživatelů
rozhodne, co je zajímá a co nikoliv a na tomto základě se přesunou na patřičné servery, kde
najdou nejen kompletní informaci, ale i příslušnou reklamu.
3.7 Budoucnost RSS Je velmi těžké odhadnout, jakým směrem se využití "vysílání" metadat bude dále
ubírat. Současná podoba se zdá být naprosto dostačující jak množstvím svých funkcí, tak
využitím pro textové či zvukové informace i pro distribuci souborů. Čas od času se
objevují pokusy RSS nějakým způsobem "upgradovat", avšak nesetkávají se s přílišným
zájmem. RSS je rozhodně vynikající pomocník pro uživatele s nestabilním nebo pomalým
připojením k internetu (usnadňuje orientaci), pro osoby s potřebou zpracovat velké
množství dat (usnadňuje rozhodování) a pro mnoho dalších.
RSS zůstane v nejbližší době více méně tím, čím je v současnosti. Relativně
ustálenou a používanou technologií, která má veliké množství vědomých a ještě mnohem
více nevědomých uživatelů14.
14 BEDNÁŘ, V. RSS (nejen) zprávy pro každého: Technologie RSS pod drobnohledem, kap. 3
20
4 RSS čtečky
Software určený k práci s RSS kanály se označuje jako RSS čtečka. Může se jednat o
samostatný specializovaný program, o plugin do jiného programu (typicky webového
prohlížeče či programu pro instant messaging). Tato funkce může být v jiném programu
rovnou vestavěna, případně se může jednat o webovou aplikaci poskytující tuto funkčnost
(např. Google Reader či NetVibes).
Pokud některý webový server nabízí RSS kanály, obvykle to indikuje ikonkou, která
vede přímo na URL příslušného zdroje, který uživatel zadá do čtečky a ta poté zobrazí
seznam všech takto zpřístupněných článků (či jiných odkazů). Čtečka pak pravidelně
kontroluje toto URL a zobrazuje nové položky.
4.1 K čemu RSS čtečka slouží? V podstatě každý větší a seriózní server umožňuje odebírání novinek pomocí RSS.
Jedná se o kanál zpráv, se kterým umí pracovat RSS čtečka a k uživateli se dostane z
každého serveru jen výpis nových článků a změn na webu.
RSS čtečky se používají ke sledování toho, co je na webu nového. Každý uživatel si
po určité době oblíbí několik webů, které pravidelně sleduje. Jedná se hlavně o
zpravodajské weby a blogy, na kterých se velmi často objevuje nový obsah. Je-li takových
webů však více, může být sledování novinek na těchto serverech dosti časově náročné. A
právě RSS kanály slouží k urychlení této činnosti.
V RSS čtečce si uživatel může nastavit, který web či weby se mají sledovat a RSS
čtečka se postará o zbytek. To znamená, že pravidelně sleduje změny na webu (obsah RSS
kanálu). Potom stačí prohlédnout obsah RSS, kde se zobrazí, co je kde nového. V
závislosti na použité čtečce novinek se zobrazí název článku (příspěvku) a jeho krátká
anotace (např. úvod, začátek článku, atp.).
Jinými slovy se dá říci, že RSS čtečka pomůže uživateli zůstat v centru dění na
různých webech a vždy zobrazí aktuální informace na nich obsažené. Autoři webů přitom
často na svém webu nezůstávají jen u jednoho RSS kanálu a tak si uživatel múže vybrat
zda chce sledovat např. nové články nebo příspěvky ve fóru a další.
21
4.2 V čem RSS čtečka nepomůže? Pokud uživatel sleduje dění na více webech a jejich množství se souběžně s dalšími
požadavky zvyšuje, dříve či později nastane okamžik, kdy nebude schopen z časových
důvodů vše projít, pročíst, nebo prohlédnout. V tomto okamžiku často nastupuje RSS
čtečka, která pomůže informace vytřídit do přehledné formy. Jakmile se však zvýší
množství informací zobrazovaných touto čtečkou, bude její přidaná hodnota jen velmi
malá. Z tohoto důvodu je doporučeno sledovat obsah jen na pro uživatele důležitých
webech a zbytek nechat stranou.
4.3 Jak poznat, že má nějaký web svůj kanál RSS? Na daném webu je třeba vyhledat slovo RSS nebo ikonu RSS. Weby mají také často
ikonu RSS v uživatelově prohlížeči. Ne-li všechny, pak jistě většina dnes běžných
prohlížečů (např. Firefox, Opera, Internet Explorer) podporují čtení kanálů RSS. Jakmile
tedy v prohlížeči na takovou ikonu RSS uživatel klikne, bude si internetový prohlížeč s
kanálem RSS vědět rady a dál uživatele procesem přidání sledování RSS kanálu provede.
4.4 Čtečky integrované do webových prohlížečů Podpora RSS je integrována do nových webových prohlížečů. Standardně ji obsahuje
Mozilla Firefox a Internet Explorer 7.0, najdeme ji i v prohlížeči Opera a dalších. RSS je
ale možné využívat, aniž bychom měli v počítači speciální aplikaci. Existují webové
servery, známé jako news agregátory, které se chovají jako RSS čtečka s tím, že výsledná
data jsou uživateli prezentována prostřednictvím standardního HTML. Díky tomu odpadá
potřeba vlastnit speciální aplikaci, abychom mohli s její pomocí používat služeb RSS
kanálů. Faktem ovšem je, že tyto služby se využívají nejčastěji na veřejných počítačích,
protože RSS čtečku v té či oné podobě obsahuje prakticky každý moderní prohlížecí nebo
komunikační software.
Pokud má právě otevřený server funkci exportu kanálu, pak se tato informace objeví
na obrazovce prohlížeče v podobě ikonky. Zajímavostí je, že tato ikonka by měla být
napříč různými webovými prohlížeči standardizována. S její stejnou podobou se setkáte
nejen ve Firefoxu, ale také v Internet Exploreru 7 nebo v Opeře. Jiným faktem ovšem je, že
jakmile dojde na praktické zpracování RSS, různé aplikace se chovají odlišným způsobem.
V praxi to znamená, že kanál (respektive jeho URL) může být definován jako odkaz ve
složce záložek nebo na panelu osobních odkazů v prohlížeči. Zatímco běžný odkaz
(záložka) funguje tak, že po klepnutí na něj je uživatel přesměrován na danou stránku, RSS
22
kanál je jiný. Jeho záložka se totiž chová, jako by šlo o složku s dalšími záložkami. Její
obsah je po klepnutí na ikonu načten z obsahu aktuálního RSS kanálu a následně zobrazen
uživateli. Jednotlivé položky (tedy hlavičky článků na serveru) vypadají, jako by to byly
odkazy v běžné složce záložek, dané příslušným kanálem. Pokud uživatel na některý ze
zobrazených nadpisů klepne myší, je přesměrován běžným způsobem na patřičný článek.
Toto řešení má obrovskou výhodu v tom, že je velmi intuitivní. Uživatelé jsou zvyklí
pracovat se složkami záložek a tato se chová stejně, pouze s tím rozdílem, že se její obsah
mění. Nedostatkem je nemožnost archivovat starší zprávy.
Naproti tomu prohlížeč Opera přistupuje k RSS kanálům tak, jako kdyby se jednalo o
"zprávy". Jejich obsluha je z hlediska uživatelského rozhraní integrována stejným
způsobem jako práce s e-maily. Stejné je nejen zobrazení jednotlivých položek, ale také
systém upozorňování na ně nebo uživatelská integrace jednotlivých prvků ovládání
položek. Předností tohoto řešení je jednak funkční shoda s technologií, kterou je uživatel
tak jako tak zvyklý používat, jednak fakt, že "zprávy", tedy položky v kanálu, se v
prohlížeči archivují. Za předpokladu, že jsou odkazy na jednotlivé články stále aktuální, se
tedy uživatel můžem vrátit k starším kusům, aniž by je musel složitě hledat na serveru.
Mezi odkazy je přímo v rozhraní prohlížeče možné vyhledávat, dají se třídit, je možné s
nimi pracovat mnoha jinými způsoby, ale přitom intuitivně.
RSS je integrováno i do Internet Exploreru, a to velmi zajímavým způsobem. Obsah
kanálu je prohlížečem převeden z XML do HTML podoby a následně zobrazen. Výsledek
se tedy podobá webovému agregátoru, avšak ke zpracování dat dochází v místním počítači.
4.5 RSS čtečka součástí e-mailových klientů¨ RSS čtečka může být součástí jiného softwaru. Z tohoto důvodu je nejen možné, ale
také časté integrování RSS do e-mailových klientů. Čtení zdrojů může být buď součástí
jejich standardní výbavy, jako v případě aplikace Mozilla Thunderbird, nebo volitelně
doinstalovatelným doplňkem (Microsoft Outlook). Rozdíl spočívá především v politice
příslušného výrobce, nicméně podpora RSS je tak či onak k dispozici pro všechny v
současnosti nejpoužívanější e-mailové programy. V případě použití s e-mailovým klientem
jsou zachovány výhody plynoucí z možnosti archivace zpráv a jejich třídění mechanizmy,
původně vyvinutými pro potřeby elektronické pošty. Na druhé straně ale tento přístup není
ideální, pokud chceme pouze znát aktuální události.
23
4.6 Další způsoby čtení zpráv ve formátu RSS RSS čtečku lze zabudovat i do jiného softwaru než do prohlížeče či e-mailového
programu. Příkladem může být například "postranní lišta" pro starší typy operačních
systémů Microsoftu, Windows Sidebar15. Tato freewarová aplikace nabízí kromě jiných
funkcí také možnost integrace RSS. Nejnovější zprávy jsou pak periodicky zobrazovány
přímo na ploše uživatele. Pokud uživatel ukáže myší na některý z titulků, aplikace mu
nabídne podrobnější popis položky a pokud na tento popis nebo jeho titulek klepne, otevře
se standardní okno webového prohlížeče s odpovídajícím článkem. Nejnovější informace
jsou tak velice snadno a rychle dostupné hned v několika úrovních. Uživatel se může
spokojit s málem (titulek), s něčím více (titulek a podtitulek), nebo s kompletní informací.
Toto velmi elegantní řešení můžeme najít pochopitelně i u dalších aplikací podobného
typu.
Existují další způsoby, jak dostat čtení zpráv ve formátu RSS na plochu počítače.
Čtečky mohou být součástí rozšíření průzkumníka, "aktivním" prvkem plochy a podobně.
Existuje množství produktů, které rozšiřují možnosti počítače tímto směrem, od
jednoúčelových až po relativně komplikované a univerzálnější nástroje.
4.7 Samostatné aplikace Specializovaná čtečka může být nenahraditelným pomocníkem. Má to několik příčin.
Především čtečka nabízí funkce, které jakkoliv inteligentní klient zabudovaný do jiné
aplikace nabídnout nemůže. Poradí si s velkým množstvím záznamů, umí mezi nimi
filtrovat pokročilým způsobem, prohledávat je a archivovat. Zkrátka není určena ani tak
pro obyčejného uživatele, který chce mít přehled o aktuálních zprávách, jako spíše pro
profesionála, jenž potřebuje najednou získat přístup k obrovskému množství informací z
různých zdrojů a potřebuje tyto informace vyhodnocovat současně16.
4.8 Odběr kanálu prostřednictvím FeedReader Čtečky RSS určené pro instalaci do počítače sice nenabídnou možnost přístupu
odkudkoli, na druhou stranu zase nabízejí větší komfort při práci se zprávami v režimu
offline.
15 Viz. http://www.windowssidebar.com 16 DVOŘÁK, J. Na internetu již žádnou informaci nezmeškáte
24
Mezi nejpoužívanější RSS čtečky patří opensource aplikace nazvaná FeedReader17.
Tato aplikace má spletitou minulost, její vývoj se na určitou dobu prakticky zastavil a
uživatelům zůstal program, který sice byl plně použitelný, avšak nebyl dostatečně stabilní a
na některých počítačích způsoboval problémy. V současnosti ovšem existuje podstatně
inovovaná verze 3, která nejen odstraňuje velké množství známých problémů z verzí
předchozích (včetně ukládání kanálů na disk, což je ale spíše expertní záležitost), ale nabízí
i nové vlastnosti a především pak nové uživatelské rozhraní. FeedReader uspokojí právě
toho uživatele, který potřebuje mít přehled o velkém množství zpráv z různých zdrojů a po
dlouhou dobu. Byl použit dokonce již i pro vědecký výzkum. Současně je ale jeho
používání dosti jednoduché a přehledné takřka pro každého.
Instalace programu spočívá v klasickém potvrzení jednotlivých kroků instalačního
průvodce. FeedReader je možno používat i na přenosném disku bez nutnosti instalace.
Při prvním spuštění FeedReader také nabídne seznam několika RSS zdrojů
roztříděných do kategorií, z kterých je možno si vybrat a přiřadit je do programu. Zvláště v
začátcích pomohou k lepšímu pochopení principu práce s programem.
Kromě základního nastavení a nastavení jazyka nabízí program i další možnosti.
V záložce „Pokročilé“ je možno nastavit i složku pro ukládání stahovaných příloh pro
pozdější přečtení nebo další zpracování bez nutnosti připojení k internetu.
17 Dostupný z http://www.feedreader.com/
25
Základní okno FeedReaderu je tvořeno seznamem zdrojů zpráv RSS, výběrem
článků získaných z vybraného zdroje a náhledem, který ukazuje obsah aktuálně vybraného
článku. Podobnost s rozložením oken poštovních programů není náhodná. I v nich se
pracuje podobně – poštovní účty, seznam zpráv, náhled na vybranou zprávu. Ve
FeedReaderu se všechny zdroje mohou třídit do kategorií – je dobré toho využít hned od
začátku. S tím, jak budou zdroje přibývat, bude práce s RSS čtečkou díky rozdělení zdrojů
do kategorií přehlednější.
26
Pod uživatelsky definovaným seznamem kategorií je možno nalézt ještě dvě
speciální kategorie. Přehled nepřečtených zpráv získaných pomocí RSS je možno zobrazit
klepnutím na „Nepřečtené novinky“. Je přitom jedno, z jaké kategorie nebo z jakého zdroje
zprávy pocházejí. Při čtení zpráv je dobré věnovat pozornost prvnímu sloupečku v jejich
seznamu. Zprávu, je možno označit klepnutím do tohoto sloupečku. Objeví se v něm
symbol hvězdičky, stejně tak jako v samotném náhledu na zprávu. FeedReader pak
umožňuje zobrazit seznam všech zpráv, které jsou touto hvězdičkou označeny. Jedná se o
funkci, která nabízí seznam oblíbených položek.
Ve FeedReaderu nechybí vyhledávání. V momentě, kdy se nahromadí velký počet
zpráv (díky mnoha zdrojům nebo kvůli tomu, že zprávy nebyly smazány), se tato funkce
hodí. Zadaný výraz je FeedReader schopen najít jednak v titulku zpráv, jednak v titulku a
těle zpráv. Pro větší přehlednost zobrazeného seznamu zpráv nabízí FeedReader několik
pohledů. Zprávy lze seskupovat podle data, tagu nebo zdroje. Případně lze seskupování
úplně vypnout. Záleží na tom, co uživateli vyhovuje lépe. Seskupování příliš prostoru ze
seznamu zpráv nezabere (jeden řádek pro nadpis každé skupiny) a seznam zpráv je vždy
mnohem přehlednější.
Podobně jako v poštovních programech, i ve FeedReaderu existuje možnost
rozvržení seznamu zpráv a okna s náhledem na vybranou zprávu změnit. Nabízeno je
klasické rozložení se seznamem zpráv nad náhledem, trojsloupcové zobrazení a zobrazení
bez seznamu. Mezi zprávami je pak možný pohyb v rámci skupiny pomocí navigačních
27
tlačítek. Podle potřeby je možno zapnout nebo vypnout zobrazení sloupců v seznamu.
Zdrojové kanály lze také třídit – podle abecedy, počtu nepřečtených článků nebo tzv.
vlastním tříděním – v tom případě se myší jednoduše přetáhne vybraný kanál na
libovolnou pozici v seznamu.
Přidávání vlastních zdrojů/kanálů do seznamu ve FeedReaderu je nanejvýš
jednoduché. Po klepnutí na tlačítko „Nový“ se vybere „Přidání nového kanálu“, zadá se
jeho adresu a výběr se potvrdí. Adresa kanálů RSS se zjistí na webových stránkách, ze
kterých je třeba zprávy RSS odebírat.
Specialitou jsou tzv. „Chytré kanály“. Při jejich vkládání se pomocí podmínek
specifikuje, jaké zprávy budou stahovány. Je možno určit cokoliv – od předmětu, přes
název kanálu a jméno autora článku až po značky a obsah zprávy. Pokud bude nějaká
zpráva takové podmínce vyhovovat, FeedReader ji zobrazí v tomto Chytrém kanálu.
Nejvěrnější přirovnání bude asi k filtrování e-mailů v poštovních programech.
28
FeedReader nabízí speciální prohlížeč pro přílohy zpráv a ve Správci kanálů
umožňuje zadávat i přístupové údaje k heslem chráněným zdrojům. Navzdory tomu, že
vypadá velice jednoduše, nabízí mnoho funkcí, které se zalíbí i náročnějším uživatelům.
Pokud se pod záložkou programu „Nastavení„ zvolí možnost spouštění zároveň se
systémem, zobrazuje FeedReader jakmile je spuštěn informační dialog v pravém dolním
rohu obrazovky pokaždé, když je k dispozici nějaká nová zpráva.
29
4.9 Webové aplikace Webové aplikaci umožňují přistupovat k získávanému obsahu odkudkoli, kde se
uživatel může připojit k internetu a to nejen přes počítač, ale i na mobilním telefonu. V
praxi jde tedy o webovou stránku, kde jsou na jednom místě vidět ty nejnovější články
(jejich části nebo jen nadpisy) ze stránek ostatních. Aplikace neumožňuje ukládání zpráv
na pevný disk pro další zpracování v režimu offline. Výhodou webových čteček je
nezávislost na počítači, který právě uživatel používá.
4.10 Odběr kanálu prostřednictvím Google Reader Google Reader patří do skupiny webových (online) RSS čteček, proto k ní lze
přistupovat jen díky internetu18.
K využívání služby je třeba založit pouze účet na Googlu. Registrace je jednoduchá,
rychlá a zdarma. Navíc pro všechny služby Google (např. Gmail, kalendář, dokumenty a
další) stačí pouze jeden účet.
Po přihlášení do služby Reader je možné v nastavení změnit jazyk na češtinu, pokud
se tak nestalo již automaticky.
18 Dostupný z http://www.google.cz/reader/
30
Nastavení nabízí i další možnosti. V záložce „Odběry“ je připravena nabídka zdrojů
RSS, ze které je možno si vybrat, nebo začít s vlastním přidáváním do seznamu zdrojů.
V záložce „Složka a značky“ je přednastaven seznam složek podle zájmových okruhů,
jejichž názvy a počet lze editovat. Zároveň je zde nabídka pro sdílení položek. V záložce
Import/Export je možno své stávající odebírané odkazy z jiné čtečky importovat do služby
Google Reader. Nejprve je však nutné své odebírané odkazy exportovat ve standardním
formátu, který má název OPML
31
Dále jo možno přidat zdroje ručně. To se provádí tlačítkem s názvem „Přidat odběr“
v levém horním rohu stránky. Po kliknutí na tlačítko je možno do pole přidat rovnou
adresu RSS zdroje, který je možno zkopírovat z oblíbeného webu nebo je možné zadat
pouze adresu webu a vybrat si některý z nabízených zdrojů.
Po přidání zdrojů už je možné pomocí menu vlevo procházet jednotlivé zprávy. Na
přehled všech kanálů je možné se podívat pod odkazem „Domovská stránka“. Na
konkrétní zprávy pak díky odkazu „Všechny zprávy“. V pravé polovině menu jsou
chronologicky seřazeny všechny novinky od nejnovějších. Viditelný je pouze nadpis a
perex (označení pro krátký text, jehož účelem je uvést a upoutat pozornost na následující
delší text). Po kliknutí na konkrétní zprávu dojde k přesměrování již na daný web se
článkem.
4.10.1 Zajímavosti a další funkce
Přidávání nových kanálů a zobrazení zpráv budou zřejmě nejčastějšími aktivitami
každého uživatele. Google Reader nabízí několik zajímavostí, které umí zpříjemnit práci s
kanály i zprávami.
Jednou z nejzajímavějších funkcí je téměř nekončící seznam zpráv. V sekci Všechny
zprávy jsou zobrazeny novinky jen za určitou dobu. Podle posuvníku se však může zdát, že
je tento seznam velmi omezený. Neustálým posunováním se však přidávají další zprávy a
lze se tak vracet i mnohem dále do historie než u jiných RSS čteček.
32
Další užitečnou věcí je automatické označování zpráv jako přečtených. Pokud
uživatel roluje se stránkou s novinkami dolů a nemusí ani kliknout na zprávu, je
automaticky označena jako přečtená. Toto chování lze v nastavení zakázat. Není tedy třeba
vše ručně označovat a automatický proces v tomto směru ušetří dost práce.
Pro důležité zprávy, či takové, které si chce uživatel z nějakého důvodu poznamenat,
je určen systém hvězdiček. Každou zprávu lze označit hvězdičkou a poté zobrazit jen tyto
novinky díky odkazu v menu. Označení hvězdiček je tak vhodné především pro zprávy,
které jsou pro uživatele významné, a chce si je později přečíst bez zdlouhavého hledání.
Článek, který by si zasloužil pozornost i dalších uživatelů lze jednoduše sdílet. Buď
je možno vytvořit svůj profil, na kterém budou vyvěšeny sdílené odkazy a další uživatelé
mohou tuto stránku navštěvovat, nebo je možno vystavit své sdílené položky na svém
webu či blogu pomocí jednoduchého výstřižku. Google Reader sám vygeneruje kód, který
už jen stačí vložit na své stránky a návštěvníkům je možno ukázat zajímavé články, které
by je mohly rovněž zajímat.
33
Pro příznivce statistiky je připravena funkce s názvem Trendy. Práci jistě zpříjemní i
klávesové zkratky. Lze s nimi rychleji a hlavně bez použití myši rychle procházet
novinkami. K zobrazení všech klávesových zkratek slouží klávesa otazníku.
Pro ještě lepší orientaci ve zdrojích, je možné je řadit do složek. Přehledné řazení a
třídění je vhodné hlavně u velkého počtu zdrojů, ve kterých je orientace již obtížná.
Celou službu doplňuje vyhledávání, které je velmi propracované a umožňuje
vyhledávání také s omezeními na určitou oblast či web.
Pro získání většího prostoru pro zobrazení zpráv, je možné úplně skrýt levé
navigační menu. Tuto akci lze provést pomocí malé šipky při pravém okraji tohoto menu.
Google Reader nabízí vše potřebné, co lze od RSS čtečky čekat. Jedná se o
jednoduchou službu, která je zaměřena na co nejširší spektrum uživatelů. Její výhodou je i
lokalizace v českém jazyce.
Nevýhodou uvedené čtečky jsou delší intervaly kontroly nových zpráv, jejichž
frekvenci nelze nastavit.
34
5 Specifikace RSS 2.0
5.1 Elementy jazyka RSS 2.0
• <?xml version=“1.0“ encoding=“windows-1250“?>
RSS-dokument, stejně jako všechny dokumenty tohoto typu, začíná XML-deklarací.
V RSS 2.0 je dokument deklarován parametrem version s hodnotu “1.0“. Parametr
encoding dovolující stanovit znakovou sadu použitou ve zdroji, není povinný. Pokud bude
například použita čeština, specifikuje kódování, které podporují české znaky. Výchozí
hodnotou je UTF-8, tvořící zhuštěnou verzi kódování Unicode a obsahující mimo jiné
všechny znaky ASCII.
• <rss version=“2.0“>…</rss>
Element <rss> je kořenovým elementem dokumentu typu RSS 0.91. Zahajuje část
obsahující veškerá jeho data. Poněvadž se jedná o kořenový element, obsahuje všechny
ostatní elementy dokumentu (kromě XML-deklarace). Parametr version je vyžadován a
v případě dokumentu typu RSS 2.0 musí být nastaven na hodnotu “2.0. Tento element má
jediného potomka, element <channel>, který je taktéž vyžadován.
• <channel>…</channel>
Element <channel> obsahuje všechny údaje nezbytné pro nastavení konkrétního
kanálu. Každý element <rss> musí obsahovat právě jeden element <channel>. Tento
element nemá žedné parametry. Má několik vnořených elementů, některé povinné, jiné
volitelné.
Vyžadované elementy uvnitř elementu <channel>:
- <title>…</title> Rovněž tento element je vyžadován uvnitř elementů <channel>,
<image>, <item> a <textinput>. Tento element uchovává nadpis příslušného
kanálu, článku či textového vstupního pole. S jeho pomocí se přiřazuje kanálu
nadpis.
- <description>…</description> Stejně jako vstupní pole jazyka HTML, do nějž se
vkládá text, uchovává element <description> textový popis příslušného kanálu,
položku nebo ovládací prvek vstupního pole. Také je vyžadován jako potomek
elementu <item> a <textinput>. Tento element nemá žádné potomky ani
parametry. Je velice důležitý a objeví se v RSS-čtečce, vyžádá-li si uživatel
zobrazení vlastností zdroje.
35
- <link>…</link> Představuje URL-adresu na webovou stránku nebo na příslušný
článek. Pokud je použit jako potomek elementu <channel>, pak obvykle uchovává
odkaz na domovskou stránku tvůrce kanálu. Nachází-li se uvnitř elementu <item>,
pak odkazuje na plné znění článku na webové stránce. S jeho pomocí může být
definován odkaz příslušný novému kanálu. Element <link> je povinný v rámci
elementů <channel>, <image>, <item> a <textinput>.
Volitelné elementy uvnitř elementu <channel> jsou tyto:
- <language>…</language> Oproti verzi 0.91 již není tento element poviný. Slouží
ke specifikaci jazyka používaného v příslušném kanálu. Element <language> nemá
žádné parametry ani potomky. Jeho obsah se nazývá kód jazyka.
- <generator>…</generator> Volitelný element <generator> uchovává text
identifikující program, s jehož pomocí byl daný soubor vytvořen. Obsažen pouze ve
verzi 2.0 a nemá žádné parametry ani potomky.
- <copyright>…</copyright> Tento element obsahuje údaje o autorských právech
ke zdroji. Element nemá žádné parametry a neumožňuje vnořovat další elementy.
- <lastBuildDate>…</lastBuildDate> Tento element obsahuje čas, kdy byl
příslušný dokument naposledy upraven. Nemá žádné potomky ani parametry a pro
záznam data neexistuje žádný speciální formát. Datum posledního sestavení může
být užitečné, protože, kromě jiného, čtenářům říká, jak často je aktualizován zdroj.
- <pubDate>…</pubDate> Obsahuje datum posledního zveřejnění dokumentu.
Stejně jako předchozí element, i tento nemá žádné potomky ani parametry.
- <managingEditor>…</managingEditor> Tento element poskytuje čtenářům
osobu, na kterou se mohou obrátit. Formálně by měl tento element obsahovat
e-mailovou adresu (nejlépe i jméno) správce zdroje, aby jej mohl kdokoliv v
případě potřeby kontaktovat. Element nemá žádné potomky ani parametry.
- <webMaster>…</webMaster> Uchovává e-mailovou adresu osoby zodpovědné za
řešení jakýchkoliv technických problémů týkajících ze zdroje. Jedná se zde však o
odlišnou roli, než která je přiřazena osobě uvedené v elementu <managingEditor>
(ten obsahuje e-mailovou adresu osoby zodpovědné za obsahovou stránku zdroje).
Element nemá žádné potomky ani parametry.
- <docs>…</docs> obsahuje URL-adresu stránky s dalšími informacemi a popisem
kanálu.
36
- <rating>…</rating> V praxi je používán jen zřídkakdy. Prostřednictvím tohoto je
možné nabídnout hodnocení RSS-zdroje v rámci standardu PICS (Platform for
Internet Content Selection). Kromě jiného je tento systém hodnocení navržen tak,
aby se zamezil přístup nezletilých jedinců k obsahu, který je určen pro dospělé.
- <skipHours>…</skipHours> Element nabízí možnost nastavit časové rozmezí, v
rámci něhož nebude zdroj aktualizován. V současnosti se příliš nevyužívá, ale v
počátcích vývoje jazyka RSS se předpokládalo, že k aktualizacím bude docházet
každou hodinu. Proto byl tedy navržen element poskytující zdroji určitou přestávku
tím, že je možné stanovit, ve kterých hodinách nebude docházet k jeho aktualizaci.
Element nemá žádné parametry, musí však obsahovat alespoň jeden element
<hour>…</hour>, který obsahuje hodinu (číslo mezi 0 a 23) v rámci časového
pásma GMT, kdy nebude docházet k aktualizaci zdroje.
- <skipDays>…</skipDays> Podobně jako element <skipHours> poskytuje tento
element možnost stanovení dnů, ve kterých nebude zdoj aktualizován. Element
nemá žádné parametry, musí však obsahovat alespoň jeden element
<day>…</day> ve kterém je stanoven název dne v týdnu (v anglickém jazyce),
kdy nebude docházet k aktualizaci zdroje. Elementu <skipDays> může obsahovat
až sedm elementů <day>,
- <textinput>…</textinput> Prostřednictvím tohoto elementu mohou čtenáři
pokládat dotazy, prohledávat autorovu webovou stránku nebo poskytnout zpětnou
vazbu. Objevuje se většinou ve formě textového vstupního pole, do něhož čtenář
zapíše text a klepnutím na příslušné tlačítko jej odešle na předem specifikovanou
URL-adresu. V součastné době se příliš nepoužívá, protože se stalo určitým
standardem přesunout tento druh komunikace se čtenáři na příslušnou webovou
stránku.
- <category>…</category> Se stále vyšším množstvím zdrojů nabývá na důležitosti
jejich uspořádání do složek a kategorií. Element <category> umožnuje klasifikovat
zdroj takovouto kategorií s tím, že jejich počet je neomezený. Uvedený element
funguje podobně jako kategorie na zadní straně knih, které se v knihkupectví
používají pro zařazení do příslušné sekce. Jedná se o nový element verze 2.0, který
má jeden nepovinný element <domain>…</domain>, jenž obvykle obsahuje
URL-adresu odkazující na stránku, obsahující více informací o dané kategorii.
37
- <cloud…/> Tento element nabízí interakci s webovou aplikací (která se nazývá
„cloud“), jež podporuje rozhraní rssCloud. U RS-zdrojů se předpokládá, že budou
aktualizovány nejrychleji jednou za hodinu, což někdy nemusí stačit. Z tohoto
důvodu lze využít registraci k webové aplikaci typu „cloud“ zajišťující rychlejší
aktualizaci. Programy, které jsou takto registrovány, dostávají upozornění na nové
aktualizace ihned po zveřejnění. Obsahuje pouze pět povinných parametrů, jež jsou
domain, port, path, registerProcedure a protokol.
- <ttl>…</ttl> Tento nový element ve verzi 2.0 udává v minutách, jak často se kanál
aktualizuje. Dříve se předpokládalo, že se kanály obnovují jednou za hodinu, což
může být v některých případech zbytečně časté.
- <image>…</image> Tento element slouží k připojování obrázků ke kanálu (RSS
čtečka jej pak může zobrazit), nemá žádné parametry, má však několik potomků, z
nichž povinné jsou již jmenované <title> a <link>. Dále je to element
<url>…</url>, který uchovává URL-adresu. Mezi volitelné patří dříve zmíněný
<description>. Dále pak element <width>…</width>, obsahující kladné číslo
představující šířku obrázku pixelech a jeho hodnota musí být mezi 0 a 144 včetně.
Pokud není šířka obrázku uvedena, použijí některé čtečky výchozí hodnotu, která je
stanovena na 88 pixelů. Posledním volitelným elementem určujícím tentokrát
výšku je <height>…</height>. Číslo musí být mezi 1 a 400 včetně, což znamená,
že obrázky mohou být mnohem vyšší než širší. Výchozí hodnota je pak stanovena
na 31 pixelů.
- <item>…</item> Pomocí tohoto elementu je možné ke zdroji připojit jednotlivé
články. Verze RSS 0.91 obsahovala pouze povinné elementy <title> a <link>a
nepovinný element <description>. Nové nepovinné elementy, které jsou obsaženy
až ve verzi 2.0, jsou následující:
- <author>…</author> Obsahuje e-mail autora, nikoli jeho jméno. To je z
důvodu, aby měli čtenáři zdroje možnost kontaktovat autora daného článku, a to
zejména tehdy, není-li jeho autor totožný s autorem celého kanálu.
- <category>…</category> Pomocí elementu <caterogy> je možné danému
článku přiřadit libovolnou kategorii, která se nemusí shodovat s kategorií celého
zdroje.
38
- <comments>…</comments> Tento element uchovává URL adresu stránky, na
níž lze nalézt příslušné komentáře, nikoliv tedy komentáře týkající se daného
článku.
- <enclousure…/> jedná se o významný element, s jehož pomocí lze využít
technologii podcasting. Umožňuje zahrnout do zdroje například soubory typu
MP3. Při jeho používání je nutné uvést parametry url (umístění souboru na
Internetu), length (velikost souboru v bitech) a type (MINE-typ souboru).
- <guid>…</guid> Muže se stát, že se ve zdroji objeví dva články se stejným
nadpisem. Některé RSS-čtečky se pak mohou podívat na nadpis a rozhodnout,
že daný článek již načetly, přeskočit jej a pokračovat na další. Tomu se dá
zabránit přiřazením jedinečného identifikátoru ke každému článku. Tímto
identifikátorem může být URL adresa nebo řetězec náhodných znaků. Element
<guid> obsahuje právě tento textový řetězec, pomocí něhož mohou RSS-čtečky
s jistotou určit, jedná-li se o dva totožné články či nikoliv. Element <guid> má
parametr s názvem isPermaLink, kterému je přiřazena hodnota “true” nebo
“false”. Pokud je nastaven parametr “true”, bude RSS/čtečka předpokládat že
identifikátorem je URL-adresa, které se říká permalink.
- Dále jsou to ještě elementy <pubData>…</pubData> a
<source>…</source>.
39
-
6 Tvorba RSS zdroje
V současnosti existuje celá řada možnosti, jak vytvořit vlastní RSS zdroj. Jsou to
některé webové servery nabízející možnost tvorby webové stránky19 a většina serverů
zabývajících se blogováním poskytuje tuto službu automaticky. V případě serverů, které
tuto službu neposkytují, si může uživatel vytvořit vlastní kanál sám. Možností jak takový
zdroj vytvořit existuje mnoho. Základní variantou, ze které se odvíjejí ostatní, je přímé
napsání zdrojového kódu v textovém, HTML nebo jiném editoru. Výsledný dokument však
musí být ve formátu .xml. Přestože tato varianta není tak pohodlná jako ostatní, její
výhodou oproti automatizovaným nástrojům, je možnost využít všech funkcí, které tento
formát nabízí. Automatizované nástroje lze rozdělit podle toho, jestli pouze usnadňují
uživateli zdroj vytvořit a o aktualizace se stará uživatel, nebo dokument vytvářejí i
automaticky aktualizují podle parametrů zadaných uživatelem.
Pokud se uživatel rozhodně vytvořit RSS sám, musí se nejdříve rozhodnout, jaký
formát při tvorbě využije. Všechny RSS formáty založeny na jazyku XML a na první
pohled jsou si podobné, jejich syntaxe je však rozdílná. Přestože se většina verzí RSS,
popsaných ve třetí kapitole, stále běžně používaná, nejvíce možností přinášejí verze
Atom 1.0 a verze RSS 2.0, která je stále nejrozšířenější20.
Mezi automatizované nástroje, které pouze pomáhají uživateli zdroj vytvořit, patří
různé programy, například RSSBuilderChyba! Nenalezen zdroj odkazů.21, ve kterých si
uživatel vytvoří zdroj nebo článek, a ten nahraje na svou webovou stránku. Na stejném
principu fungují i mnohé webové servery jako například Icerocket.com22.
Další možností je využití nástrojů, které vytvoří RSS feed automaticky a podle
parametrů zadaných uživatelem se i samy aktualizují23. Této službě se říká scrapping.
Programy, které by měl uživatel nainstalované v počítači, nejsou ještě příliš rozšířené,
19 Například http://www.estranky.cz/ 20 Příklady, popsané v dalších kapitolách jsou vytvořené právě ve verzi RSS 2.0 21 Dostupný z http://home.kpn.nl/bsoft/rssbuilder/ 22 Dostupný z http://rss.icerocket.com/ 23 GOOD, R. How To Create A RSS Feed From Any Web Page.
40
proto jsou to především webové aplikace, například server Feed4324, které tuto službu
nabízejí. Jejich hlavní výhodou je možnost použití v jakékoli webové stránce, kde se často
objevují nové zprávy. V takovém případě je ale nutné mít patřičná povolení od autora.
Výhodou takových nástrojů pro běžného uživatele je, že nemusí znát syntaxi jazyka RSS
nebo jazyka XML a jediné, co potřebuje znát, je způsob jak umístit odkaz na kanál do
HTML dokumentu.
Pokud je uživatel zkušený a ovládá nějaký skriptovací, nebo programovací jazyk,
může si vytvořit algoritmus, který bude RSS kanál vytvářet automaticky. Na webové
stránky jsou ovšem kladeny větší nároky. Aby mohl být použít například nějaký PHP
skript25, musí se jednat o dynamickou webovou stránku s databází příspěvků a webový
server musí podporovat jazyk, ve kterém byl skript nebo program vytvořen.
6.1 Požadavky na webové stránky a zdroje Aby nedocházelo k potížím při zobrazení v různých webových prohlížečích, nebo
komplikacím při sestavování zdrojů různými automatizovanými nástroji je vhodné mít
dokument správně strukturovaný a validovaný. Pro validaci webových stránek je určena
služba společnosti w3.org26, pro validaci zdroje pak FEED Validator27.
Při vytváření zdroje manuálně, ať už psaním zdrojového textu, nebo využitím nějakého
softwarového nástroje, není nutné mít stránky speciálně strukturované, jelikož strukturní
závislost mezi zdrojem a stránkou je minimální. Výhoda jednotné šablony se plně projeví
až při použití nějakého generátoru. Vhodně strukturovaný dokument ulehčí práci při
přidávání nových článků a zjednoduší práci při dodatečných úpravách. Části, které se mají
zobrazovat ve zdroji, je vhodné opatřit nějakým identifikátorem, například <span
class="uvodtext">. Takto označený text je pak snáze rozpoznatelný automatizovaným
nástrojem.
K dalším pravidlům a doporučením lze zahrnout užití správného kódování jazyka,
aby nedocházelo ke špatnému zobrazení znaků. Nadpisy by se neměly opakovat. Znovu
použitý nadpis může čtečka vyhodnotit jako článek, který již jednou přečetla a může ho
24 Dostupný z http://feed43.com/ 25 BOUŠKA, P. Jak vytvořit RSS kanál v PHP 26 Dostupný z http://validator.w3.org/ 27 Dostupný z http://feedvalidator.org/
41
ignorovat. K zajištění jedinečnosti článku lze použít element <guid> popsaný ve
specifikaci RSS 2.0. Pro lepší prezentaci a zaujmutí potenciálního čtenáře by u každého
nadpisu měl být uveden krátký popis článku. Články by měly být obsahově v pořádku,
měly by být zaměřené na určité téma, měly by být psány pro určitou skupinu čtenářů a
měly by být zajímavé. Každý RSS-článek by měl odkazovat na přesnou pozici, kde je celý
text místěn.
Nejvhodnějším způsobem, jak na svou webovou stránku umístit plné znění RSS-
článku, je vytvořit pro každý z nich stránku vlastní. Pokud je stránka strukturovaná tak, že
jsou všechny články na jedné webové stránce, je možné do textu vložit záložky, které
uživatele přesunou na správnou pozici. To lze udělat tak, že se určitému elementu přidá
jednoznačný identifikátor a k odkazu na danou pozici se tento identifikátor připíše.
Například <a name="text001">, nebo <span id="text002">. Odkaz na danou pozici pak
může vypadat takto <a href="http://www.nobloch.borec.cz/#text002" >. V případech, kdy
je pro RSS zdroj použita cizí webová stránka, je dobré nezapomínat na patřičná povolení.
6.2 Vzhled vytvořeného zdroje Vlastní vzhled je definován RSS čtečkou, nebo prohlížečem, který uživatel k odběru
zpráv používá.
6.2.1 Internet Explorer
Internet Explorer umožňuje odebírat zdroje na
stejném principu jako RSS čtečka. Po přihlášení k odběru
se odkaz uloží do seznamu informačních kanálů. Mezi
jeho funkce patří vyhledávání a razení podle data nebo
názvu.
42
6.2.2 Mozilla Firefox
Tento prohlížeč lze také využít jako čtečku. Oproti
předchozí variantě nabízí také možnost výběru programu,
který chce čtenář pro odběr používat. Prohlížeč pak
automaticky do zvoleného programu vloží odkaz na zdroj.
6.3 Manuálně vytvořený RSS zdroj Jedná se základní způsob tvorby zdroje a o nejlepší způsob, jak se může uživatel
naučit správně strukturovat takovýto dokument. Zdrojový kód může vypadat následovně.
43
Je zde patrná stromová struktura zřejmá z pravidel specifikace XML, jako je
například správné vnořování elementů.
Jak vyplívá se zpecifikeve RSS 2.0, je možné do elementu <rss> přidat parametr
xmls s prefixem definujícím jmenný prostor, který umožní do dokumentu přidávat nové
XML elementy. Ty mohou být osobně vytvořené, nebo použité z jiného typu RSS
založeném na XML jazyku. Zde takovým příkladem je parametr xmlns:atom=
"http://www.w3.org/2005/Atom.". V uvedeném příkladu je použit <atom:link href=…/>,
jehož použití doporučuje služba FeedValidator. Zdroj se tak stává kompatibilní a lépe
přenosný mezi formáty a jeho načítání různými programy, které pracují s formátem Atom,
je jednodušší.
Text v elementu <description> vztahující se ke článku se navíc nachází v XML
značce <![CDATA[… ]]>. Programy vytvářející zdroj umisťují text do značky proto, aby
jej tak skryly před citlivým softwarem analyzujícím XML kód. Uživatel to používat
nemusí, stačí napsat text tak jak je.
6.4 Programy pro tvorbu RSS Nástrojů, které pomáhají uživateli vytvořit RSS feed, existuje na internetu celá řada.
Nejedná se jen o software, který si uživatel nainstaluje do počítače, ale existují
specializované webové servery, které nabízejí tuto službu za určitý poplatek, nebo zcela
zdarma. V obou případech je postup tvorby velice podobný a rozdíl je především v tom,
kolik funkcí program nabízí. Pak již záleží jen na uživateli, kterou variantu zvolí.
Pro názorný příklad byl zvolen program RSSBuilder28, jehož hlavní výhodou je
množství nabízených funkcí a jednoduchost ovládání.
28 Dostupný z http://home.kpn.nl/bsoft/rssbuilder/
44
Názvy jednotlivých položek v programu korespondují s názvy elementů RSS verze
2.0. V levé části jsou položky tvořící základní vlastnosti daného zdroje. Rozdílný název
položky a elementu je pouze Website URL jež představuje element <link>. Image
Properties popisuje obrázek, který se bude ve zdroji zobrazovat. Například logo webu.
Dále lze připojit formátování pomocí stylů (text/css, nebo text/xls), které ovšem mění
pouze vzhled textu, nikoli vzhled celého zdroje. Ted je definovaný čtečkou nebo
prohlížečem.
V levé části se nacházejí ikony umožňující vytvoření, respektive smazání
jednotlivých příspěvků a dále na jaké pozici se mají zobrazit. Jednotlivé položky se opět
jmenují stejně jako jejich protějšky. Tlačítko GUID lze použít, pokud se odkaz na článek
shoduje s identifikátorem článku. U data publikování je důležitě brát v potaz časové
pásmo. Tlačítko Local pak nastaví čas také podle toho, jestli se jedná o čas zimní nebo
letní. U úvodního textu aktuality je možnost nastavit parametry textu. Například tloušťku,
zarovnávání, nebo přiložit k textu obrázek.
Horní lišta nástrojů nabízí standardní funkce. Jednu z možností, kterou nabízí je
jednoduché nahrání aktualizovaného zdroje na webový server. Program podporuje i
možnost, že má uživatel více stránek, kam RSS feed nahrává.
45
Výsledný zdroj29 se vzhledově
téměř neliší. Ani zdrojový kód se příliš
neliší od manuálně vytvořeného.
Elementy, které se liší a které je vhodné
zmínit, jsou pouze <generator>RSS
Builder by B!Soft</generator>, kde je
uzavřený název programu a společnosti,
která ho vytvořila. A dále parametr
elementu <guid isPermaLink="true">… </guid>, kde hodnota true udává, že se odkazy
shodují (stejný efekt, jako kdyby nebyl parametr uveden). Program vytváří zdroj tak, aby
byl automaticky validní.
6.5 Automatizované nástroje pro tvorbu zdrojů Webové portály jako například Feed4330, nebo Feedfire31, umožňují vytvářet zdroje
bez nutnosti znát jazyk XML, nebo RSS. Základní funkce jsou zdarma. Pokud si chce
uživatel vytvořit feed, který by měl funkce, jako program představený v minulé kapitole,
musí si zřídit placenou službu. Každý poskytovatel scrappingu uveřejňuje na svých
stránkách, co všechno uživatel za své peníze dostane.
Tvorba ve Feed43 se stává ze tří jednoduchých fází. U každého kroku má uživatel
k dispozici obsáhlou nápovědu.
V tomto kroku se zadá celá adresa webové stránky i s http:// nebo https:// a její
znaková sada. Pak program načte zdrojový kód stránky.
29 Viz. Příloha A 30 Dostupný z http://feed43.com/ 31 Dostupný z http://www.feedfire.com/site/index.html
46
V dalším kroku je třeba vytvořit kód, pomocí něhož se budou generovat jednotlivé
aktuality. Podle zvýrazněné části zdrojového kódu uživatel sestaví kód pro opakování,
který skládá ze tří částí. Značka {*} představuje části textu, které se ve feedu neobjeví,
naopak označení {%} části, které budou
aktualitu tvořit. Označení {%} lze nahradit
jiným znakem, který se napíše do kolonky
Global Search Pattern. V tomto případě to jsou
elementy <title>, <link>, <pubDate> a
<description>. Podle zbylého textu pak program
pozná, kde se jednotlivé elementy nacházejí a
kde začínají. Z tohoto důvodu je nutné, aby
každý příspěvek měl jednotnou šablonu, podle
které je vytvořen. Pro jednodušší rozpoznání by
měl obsahovat i nějaký identifikátor.
47
Pokud proběhne extrakce úspěšně, program rozpozná jednotlivé položky a také části,
které budou aktualitu tvořit.
V posledním kroku se již navrhuje konečný formát zdroje.
Pokud HTML kód obsahuje element <title>, vygeneruje se
nadpis automaticky, ale lze ho jakkoli upravit. To samé platí i pro
popis feedu, jen tentokrát text vytvoří, pokud je použit nadpis
<h1>. Do tří spodních kolonek se napíší odkazy na položky,
které budou tvořit nadpis, hypertextový odkaz a úvodní text.
Kromě těchto tří nejdůležitějších položek, neumožňuje neplacená
verze žádné další specifikace. Jak je vidět na příkladu
kalendářního data, jediná další možnost je připojit odkaz
k nadpisu nebo k úvodnímu textu.
Nakonec program vygeneruje odkaz na nový RSS
dokument, který může uživatel různými způsoby zveřejnit na
webových stránkách.
Automaticky vytvořený zdrojový kód má jisté odlišnosti32.
Zaprvé je to odkaz <?xml stylesheet type="text/xsl" href=
"/res/preview.xsl"?> na složku, ve které je možné upravit styl textu. Další dva rozdíly
vycházejí z faktu, že použitá služba je zdarma. Element <ttl>360</ttl> udává, že se feed
bude aktualizovat jen jednou za šest hodin. Při placené variantě se doba aktualizace nastaví
na klasickou jednu hodinu. Na výsledném vzhledu zdroje se ale projeví reklama Delivered
by Feed43 service, kterou program automaticky vloží do elementu <description> u každé
značky <item>. Reklamu lze odstranit pouze vytvořením placeného účtu. Parametr
isPermaLink je nastaven na hodnotu false a je automaticky vytvořen dvaatřicetimístný
identifikační řetězec.
32 Viz. Příloha B
48
7 Propagace RSS zdroje
7.1 XML tlačítko Základní a také nejobvyklejší cesta k zajištění
publicity nového zdroje spočívá v přidání odkazu na
webovou stránku. Takový odkaz může být ve formě
textu, který po kliknutí přesměruje uživatele na
příslušný zdroj. Variantou, která je obvyklá a která lépe
upoutá pozornost je přidání RSS nebo XML tlačítka.
Tlačítek je na Internetu velké množství a záleží jen na vkusu autora, jaký vzhled si vybere.
7.2 Technologie autodiscovery Řada RSS čteček a internetových prohlížečů, umí
sama odhalit zdroje, na které odkazuje webová stránka.
Takovýto zdroj typicky poskytuje ikonu, jejím
prostřednictvím se k němu může návštěvník zapsat. Aby
však čtečka (či prohlížeč) tento zdroj rozpoznala, musí
být v části <head> ve zdrojovém kódu webové stránky umístěn element <link> obsahující
parametr href obsahující URL adresu zdroje, parametr „rel“ s řetězcem “alternative“ a
parametr type s řetězcem “application/rss+xml”. Obsah parametru „title“ je volitelný.
Ikona se přidá jako odkaz na RSS kanál na viditelné místo v dokumentu.
V prohlížeči Mozzila Firefox na konec panelu, do kterého se zadává URL. V případě
Internet Exploreru do panelu lišty záložek33.
7.3 Optimalizace stránky pro vyhledávání Tato varianta se týká propagace zdroje nepřímo, proto pouze nastíním, jaké jsou
varianty. Pokud stránka splňuje parametry, podle kterých vyhledávač vyhodnocuje
významnost webové stránky, zobrazí se taková webová stránka ve vyhledávači na lepší
33 HOLZNER, S.; ŠINDELÁŘ, J. RSS : Automatické doručování obsahu vašich WWW stránek.
49
pozici. Tím se zvyšuje její návštěvnost a také množství lidí, kteří budou používat RSS
zdroj.
Způsob jak zlepšit hodnocení, je vytvořit nějaká klíčová sova, která zjednoduší
vyhledávání a definují zaměření stránky. Klíčová slova se uvádějí do elementu <meta>.
Zdrojový kód obvykle obsahuje tyto elementy dva. První s parametrem name nastavený na
„decsription“ obsahuje nějaký výstižný nadpis, druhý taktéž s parametrem name
nastaveným na hodnotu „keywords“ obsahuje jednotlivá klíčová slova. Další způsob
zlepšení hodnocení stránky spočívá v jejím předložení některým z velkých vyhledávačů.
V neposlední řadě stoupá hodnocení s tím, jaké množství ostatních stránek na tuto
odkazují.
7.4 Katalogy RSS zdrojů Nejen zvýšením návštěvnosti zle získat čtenáře, kteří budou RSS kanál využívat.
Odkaz na zdroj lze také umístit do katalogu RSS zdrojů. Tyto katalogy jsou zaměřené
právě na uživatele, kteří tuto službu již využívají. Českým katalogem je například server
feedcat34. Pro tuto službu existují i aplikace35, které automaticky rozešlou URL do několika
desítek nejpoužívanějších katalogů.
34 Dostupný z http://www.feedcat.net/cs/ 35 Například program RSS Submit dostupný z http://www.dummysoftware.com/rsssubmit.html
50
8 Závěr
Cílem práce bylo představit, jak lze pracovat s technologií RSS a jaký přináší užitek.
Toho bylo dosaženo vytvořením názorných příkladů a jejich detailním popisem. Nejprve
byly popsány základní rysy jazyka XML, ze kterého technologie RSS vychází. Dále byl
popsán princip RSS, jeho nejpoužívanější formáty a jejich rozdíly, současné oblasti použití
i historický vývoj. Práce obsahuje názorné příklady možností získávání zpráv pomocí
software, založeném na této technologii. Dále byly představeny zásady pro tvorbu RSS
zdrojů. Podle těchto zásad byly vytvořeny příklady, které představují rozdílné možnosti,
jak zdroje pro odběr zpráv vytvářet.
Přínos práce je v seznámení uživatelů internetu s možnostmi využití technologií
RSS, jejich využití při práci a získávání nových informací. Dále práce seznamuje čtenáře
s tvorbou RSS zdrojů a může mu tak posloužit jako inspirace pro tvorbu vlastních zdrojů.
Na příkladech byly popsány nástroje, které lze při získávání zpráv touto technologií
využít a nástroje pro publikování vlastních zpráv a umožnění jejich prezentace ostatním.
Práce může sloužit i jako souhrnný přehled o RSS technologiích a principech jejich
funkce za účelem výuky.
51
9 Seznam literatury
BEDNÁŘ, Vojtěch. RSS (nejen) zprávy pro každého: Technologie RSS pod
drobnohledem. PC World.cz [online]. 07.04. 2007, [cit. 2010-06-25] Dostupné z WWW:
<http://pcworld.cz/software/rss-nejen-zpravy-pro-kazdeho-technologie-rss-pod-
drobnohledem-6218>.
BOUŠKA, Petr. Jak vytvořit RSS kanál v PHP. Samuraj-cz.com [online]. 04. 04.
2006, 12. 10. 2008 [cit. 2010-06-27] Dostupné z WWW:
< http://www.samuraj-cz.com /clanek/jak-vytvorit-rss-kanal-v-php/>.
DVOŘÁK, Jakub. Na internetu již žádnou informaci nezmeškáte. iDNES.cz [online].
23. 5. 2006, [cit. 2010-06-26] Dostupné z WWW:
< http://technet.idnes.cz/na-internetu-jiz-zadnou-informaci-nezmeskate-fau-
/software.asp?c=A060423_232234_software_dvr>.
HAMMERSLEY, Ben. Developing feeds with RSS and Atom.
Sebastopol (California) : O'Reilly Media, 2005. 253 s. ISBN 0-596-00881-3.
HOLZNER, Steven; ŠINDELÁŘ, Jan. RSS : Automatické doručování obsahu vašich
WWW stránek. Brno : Computer Press, 2007. 278 s. ISBN 978-80-251-1479-7.
GOOD, Robin. How To Create A RSS Feed From Any Web Page.
Masternewmedia.org [online]. March 9 2006, February 26 2010 [cit. 2010-06-27].
Dostupné z WWW:
<http://www.masternewmedia.org/news/2006/03/09/how_to_create_a_rss.htm>.
KOSEK, Jiří. XML a PHP. Praha : Grada Publishing, 2009. 367 s.
ISBN 978-80-247-1116-4.
52
VOCHOZKA, J. Značkovací jazyky a XML. Zpravodaj ÚVT MU [online]. 2001,
roč. XI, č. 3[cit. 2010-06-24], s. 5-9. Dostupné z WWW:
< http://www.ics.muni.cz/bulletin/articles/201.html>. ISSN 1212-0901
WINER, Dave. RSS 2.0 Specification. RSS 2.0 at Harvard Law [online]. July 15
2003, 4/29/07 [cit. 2010-06-27]. Dostupné z WWW:
<http://cyber.law.harvard.edu/rss/rss.html>.
53
10 Přílohy
Příloha A:
Výpis zdrojového kódu dokumentu vytvořeného v aplikaci RSS Builder
54
Příloha B:
Výpis zdrojového kódu dokumentu vytvořeného v aplikaci RSS Builder Feed43