pojmy: October 2006

raxi se pak kvůli takovémuto nepřesnému vymezení stahuje mnohem více dat, než kolik by bylo skutečně nutné. Možným řešením je to, aby příslušné logické celky definoval sám jejich autor, který má o jejich vzájemných vazbách a souvislostech nejlepší přehled, a sám také definoval, jak často se tyto celky mění, resp. jak často má pro uživatele smysl stahovat si jejich nové verze (případně až s přesností na jednotlivé stránky). Právě toto je skutečná podstata tzv. kanálů (anglicky: channels), označovaných ještě přívlastkem "push" (ve smyslu: tlačit, tlačení, myšleno směrem k uživateli). Důvodem je představa vynuceného toku informací od poskytovatele informací (zdroje kanálu) směrem k uživateli. Ve skutečnosti jde o vynucený tok, kterému ale předchází dřívější iniciativa samotného uživatele - on nejprve vyjádří své přání "odebírat" konkrétní informační kanál ("předplatí" si jej), a teprve pak následuje vynucené "tlačení" informačního obsahu kanálu k uživateli, podle časového harmonogramu který stanovuje autor kanálu (ale uživatel má obvykle možnost jej korigovat), nebo třeba i zcela na vlastní popud uživatele. Zvláště výhodný je tento systém kanálů například u uživatelů mobilních počítačů, kteří se k Internetu připojují jen dočasně - během svého připojení si mohou "nacucnout" obsah jednoho či několika takovýchto kanálů, pak se odpojit, a v off-line režimu obsahem kanálu procházet a číst jej. Oproti grabbingu, který by také dokázal "nacucnout" určitý obsah a umožnit jeho následné off-line čtení, má u kanálů uživatel jistotu, že stáhnul vše co bude ke čtení obsahu kanálu potřebovat (všechny stránky, obrázky, ikony, applety apod.), a stejně tak má rozumnou jistotu že si nestáhnul nic zbytečného, co by s obsahem kanálu nesouviselo.

Push channel

(push kanál)
nepříjemným problémem všech snah o grabbing, resp. snah o stahování WWW stránek, je neznalost logické struktury toho, co stahují - tomu, kdo grabbing provádí, resp. zadává, typicky není známo které WWW stránky tvoří určitý logický celek a má smysl je stáhnout, a které naopak patří k jinému logickému celku (například k jinému článku, jiné nabídce apod.), a již nemá smysl je stahovat. Místo toho se pak musí vymezit okruh stránek ke stažení například příslušností do určité adresáře a jeho podadresářů (ve smyslu: má být staženo vše, co se nachází v daném adresáři a ve všech podadresářích). V p

Subscription

(odběr, předplatné)
variantou grabbingu, neboli automatizovaného stahování WWW stránek za účelem jejich pozdějšího procházení (brouzdání) v off-line režimu, jsou i funkce zabudované přímo do některých novějších WWW browserů (například do Internet Exploreru od verze 4.0). Uživatel si zde může zadat, které stránky mají být staženy a uloženy na místní disk, a jak často se tak má dít (např. denně, týdně apod.). Tato funkce přitom může být snadno kombinována s monitorováním změn na WWW stránkách.

Pokud jej nebude informovat sám autor změny (správce příslušné stránky, například stručnou emailovou zprávou), připadá v úvahu i automatické zjišťování změn ze strany uživatele. Ten může použít k tomuto účelu specializované nástroje (tzv. URL monitory), které si na uživatelově počítači uchovávají naposledy nalezený obsah příslušné stránky, a podle zadaného časového harmonogramu samy načítají příslušné stránky, porovnávají je s předchozí verzí a v případě zjištěné změny samy upozorní uživatele.

URL monitoring,

change monitoring (sledování změn)
při rutinním používání služby WWW, zejména při dlouhodobějším sledování určitého okruhu WWW serverů (například serverů obchodních partnerů, konkurence, přátel apod.) je dosti velkým problémem sledování změn na stránkách, které uživatele zajímají - jak se může uživatel co nejjednodušším a nejpohodlnějším způsobem dozvědět, že na konkrétní stránce se něco změnilo, a má tudíž smysl se na tuto stránku jít podívat a změnu si prohlédnout?

Pokud bychom ale takto načetli a uložili několik stránek na místní disk, jejich vzájemné odkazy by zůstaly přesně takové, jaké byly předtím, tj. vedly by na místa původního umístění stránek - takže takto jednoduše staženými WWW stránkami by nebylo možné se brouzdat, prostřednictvím jejich vzájemných odkazů. To, co je nutné k takovéto možnosti udělat, je pozměnit vzájemné odkazy mezi staženými stránkami tak, aby se i po svém uložení na místní disk korektně odkazovaly na sebe, do míst svého nového výskytu. Kromě toho to znamená i stáhnout a uložit na místní disk i všechny další komponenty WWW stránek, například všechny obrázky, ikony, applety apod. Právě popsané "stahování" se nejčastěji označuje jako grabbing. Programy, které jej provádí, se pak označují jako grabbery, někdy též "web spiders" (doslova: pavouci, protože samy prolézají WWW pavučinu), a někdy též "off-line readers".

Grabbing

(stahování)
pro mnoho uživatelů služby WWW (zvláště pak těch, kteří se připojují komutovaně) by bylo velmi šikovné a přínosné, kdyby mohli velmi rychle prolistovat určité množství WWW stránek, uložit je na svém počítači (na jeho místním disku), pak se od Internetu odpojit (přejít do off-line režimu), a teprve pak si takto načtené stránky v klidu prohlížet. Každou jednotlivou WWW stránku, načtenou v on-line režimu, je přitom možné snadno uložit na místní disk uživatelova počítače (snad každý WWW browser je vybaven funkcí Save, resp. ulož).

Zde pak přichází vhod možnost procházet se (brouzdat) se WWW stránkami v tzv. off-line režimu, neboli bez existence přímého spojení s Internetem. Jednoduchým příkladem možnosti off-line brouzdání je procházení WWW stránkami na CD-ROM disku, soustavou WWW stránek nacházejících se na pevném disku uživatelova počítače apod. Další možností off-line brouzdání je procházení WWW stránek, které se stále ještě nachází ve vyrovnávací paměti (cache paměti) WWW browseru. Některé novější browsery jsou touto schopností vybaveny (např. Internet Explorer od verze 4.0 umožňuje přejít do tzv. off-line režimu, a brouzdat se stránkami uloženými v cache paměti).

Off-line browsing

(off-line brouzdání)
obvyklý způsob brouzdání, resp. postupného procházení WWW stránkami, lze opatřit přívlastkem "on-line" - proto, že po dobu této činnosti je uživatelům počítač spojen s Internetem a má možnost v něm komunikovat (je tzv. on-line). V mnoha situacích ale přímá dostupnost Internetu (tzv. konektivita) není nezbytně nutná, možná či alespoň žádoucí - například při komutovaném připojení přes veřejnou telefonní síť, kdy uživatel platí za každou minutu, strávenou on-line.

History

(historie)
WWW browsery si obvykle pamatují také posloupnost WWW stránek, kterou jejich uživatel navštívil (v rámci dané relace, resp. běhu browseru, nebo i dříve), s cílem poskytnout na vyžádání výpis této posloupnosti a umožnit případný návrat ke kterékoli z těchto stránek. Nejedná se ale o uchovávání obsahu těchto stránek (jako je tomu v případě cache pamětí), nýbrž pouze o uchovávání odkazů na tyto stránky jako takové - obsah některých stránek z "historie" může být ještě uložen v cache paměti, ale také nemusí (a v takovém případě se znovu načítá ze svého původního zdroje).

jelikož požadavek směřující do vnějšího prostředí (k cílovému WWW serveru) vždy zasílá svým jménem WWW proxy brána, vnější svět se vůbec nedozví, který konkrétní uzel "za" proxy bránou je skutečným iniciátorem požadavku. Funkce WWW proxy brány lze velmi jednoduše a přirozeně zkombinovat s funkcí "cachujícího WWW serveru" - proxy brána si po určitou dobu pamatuje obsah stránek, které skrz ni prochází, a při dalších požadavcích na tutéž stránku (či obrázek apod.) dokáže poskytnout požadovaný objekt sama, aniž by jej sama musela získávat znovu z vnějšího zdroje. Klientské programy služby WWW (uživatelské browsery) však musí být explicitně nastaveny na použití takovýchto WWW proxy bran.

WWW proxy

funkce "cachujícího" WWW serveru je téměř vždy kombinována s další funkcí, kterou je role tzv. proxy brány pro službu World Wide Web. Proxy brány obecně fungují jako zprostředkovatelé, či "přestupní stanice" pro požadavky klientů, adresované konkrétním serverům: proxy brána z jedné strany přijme požadavek od klienta, a z "druhé strany" jej položí (nyní již jako svůj vlastní požadavek, resp. "svým jménem") cílovému serveru. Ten zašle svou odpověď proxy bráně, a ta jej zase předá dál původnímu tazateli. V případě WWW proxy brány jde o požadavky na jednotlivé WWW stránky, a smyslem zřizování takovýchto WWW proxy bran je nejčastěji potřeba "bezpečnostního" oddělení jedné části sítě (typicky: interní sítě) od zbytku světa - potřebný oddělující efekt je zde dosažen tím, že skrz WWW proxy bránu neprojde nic jiného než WWW stránky. Dokonce je zde dosaženo i zajímavého "maskovacího" efektu:

Také samotné cache servery mohou tvořit hierarchický systém, tj. mohou být uspořádány do vrstev a vzájemně zřetězeny, ve snaze minimalizovat zátěž a potřebné přenosy dat, a tím celkově zefektivnit používání služby World Wide Web. Zřídit si vlastní cache server může kdokoli (například provozovatel podnikové sítě), a může je provázat s hierarchicky nadřazenými cache servery. Vlastní cache servery obvykle zřizují i jednotliví poskytovatelé připojení k Internetu (provideři), pro potřeby svých zákazníků a zefektivnění jejich práce, i pro snížení zátěže jejich páteřních systémů (přípojek do zahraničí).

Caching WWW server

dalším stupněm v hierarchické soustavě cache pamětí může být speciální WWW server, který sám nenabízí žádné "vlastní" WWW stránky, ale funguje pouze jako cache paměť společná pro více uživatelů resp. uzlů (tedy jako tzv. cache, resp. "cachující" WWW server). Smyslem jeho existence je předpoklad, že jedny a tytéž WWW stránky může požadovat více uživatelů v určité lokalitě (např. v rámci téže firmy či jiné instituce). Proto se browsery příslušných uživatelů nastaví tak, aby při nenalezení požadované stránky ve své lokální cache paměti nejprve kontaktovaly takovýto cache server, a stránku požadovaly na něm.

V současné době, vzhledem ke snahám činit WWW stránky uživatelsky co nejatraktivnější, četnost takovýchto dynamicky generovaných stránek výrazně roste. Problémem bývá i samotné rozpoznání dynamicky generované stránky, tak aby si jí celý systém cache pamětí "nevšímal" a nesnažil se ji uchovávat - možnosti samozřejmě existují, ale nejsou vždy dostatečně přesné, takže se v praxi stává, že se v cache paměti neudrží ani takové stránky, které by mělo logický smysl uchovávat. Příkladem mohou být i mechanismy zajišťují správnou českou diakritiku na českých WWW stránkách, jimi generované stránky (které by jinak mohly být statické a mělo by smysl je uchovávat v cache pamětech) mohou být považovány za dynamické a vyloučeny z mechanismu cache pamětí.

Dynamic WWW pages

(dynamické WWW stránky)
nepříjemným problémem pro celý mechanismus cache pamětí a samotnou myšlenku zefektivnit fungování služby WWW udržováním dočasných kopií v cache pamětech je existence dynamicky generovaných WWW stránek - tedy takových stránek, které neexistují "dopředu" (staticky), ale jsou generovány dynamicky až na základě momentální potřeby, resp. okamžitého požadavku. Jsou to například odpovědi na nejrůznější dotazy, které skutečně nemá smysl používat opakovaně, resp. zachovávat pro nové použití (a tudíž ani uchovávat kdekoli, včetně cache pamětí).

Reload, Refresh

Na vyrovnávacích (cache) pamětech je velmi podstatný i konkrétní režim jejich fungování, zejména pak způsob jakým kontrolují zda od nějaké konkrétní stránky (obrázku apod.) neexistuje na příslušném WWW serveru novější (aktuálnější) verze. Pokud by totiž existovala, ale uživatelův browser by získal ještě starší verzi z cache paměti, uživateli by se zobrazovalo něco, co již není platné a aktuální. V případě cache pamětí udržovaných přímo browserem si uživatel většinou může sám nastavit příslušný režim: zda se má existence novější verze testovat při každém požadavku na příslušnou stránku, nebo jen při prvním požadavku v rámci jedné relace (jednoho "běhu" browseru), nebo nikdy. Kromě toho má uživatel vždy možnost potlačit celý systém cache pamětí a vyvolat nucené načtení přímo z příslušného zdrojového WWW serveru - prostřednictvím příkazu Reload (někdy: Refresh, u lokalizovaných browserů: Obnovit).

Browser Cache

(vyrovnávací paměť udržovaná browserem)
na nejnižší úrovni hierarchického systému cache pamětí bývá taková vyrovnávací (cache) paměť, kterou si udržuje sám WWW browser, přímo na uživatelově počítači. Je obvykle rozdělena na dvě části, resp. dva stupně: na cache udržovanou v operační paměti, a na cache paměť udržovanou na místním pevném disku. Obsah první cache paměti se při vypnutí počítače či ukončení práce s browserem ztrácí, obsah druhé naopak přetrvává. Uživatel většinou má možnost nastavit, kolik místa se má pro oba druhy cache paměti použít (vyhradit).

pojmy

Tuesday, October 31, 2006

Sunday, October 29, 2006

Push channel

Thursday, October 26, 2006

Subscription

Tuesday, October 24, 2006

Sunday, October 22, 2006

URL monitoring,

Saturday, October 21, 2006

Friday, October 20, 2006

Grabbing

Wednesday, October 18, 2006

Sunday, October 15, 2006

Off-line browsing

Saturday, October 14, 2006

History

Thursday, October 12, 2006

Wednesday, October 11, 2006

WWW proxy

Sunday, October 08, 2006

Thursday, October 05, 2006

Caching WWW server

Wednesday, October 04, 2006

Tuesday, October 03, 2006

Dynamic WWW pages

Monday, October 02, 2006

Reload, Refresh

Sunday, October 01, 2006

Browser Cache

About Me

Links

Previous Posts

Archives