Seznam Fulltext – přednáška Štěpána Škroba - Díl 1.

Tagy:  seznam.cz, seznam fulltext, vyhledáváče, SEO

Sponzorované odkazy

Seznam Fulltext – přednáška Štěpána Škroba - Díl 1.

Informace zveřejněné v tomto článku pochází z přednášky Štěpána Škoba konané dne 14.11.2007 v Brně.

Úvod

Prakticky mají vyhledávače identickou konstrukci, je to podobné jako s auty – každé auto má čtyři kola, volant a nádrž na benzín. Vlastnosti auta (některé auto jezdí rychleji apod.) jsou už jen konstrukční detaily.

Architektura


Hlavní části

Robot (crawler) – jedná se o část, která je do jisté míry autonomní. Chodí po internetu, stahuje nové i staré stránky. Rozhoduje o tom, které stránky se budou reindexovat a které se vyhodí. Stránky, které zaindexuje pošle do přípravny databáze.

Vyhledávání je samostatná autonomní součást. Jedná se o servery, které zjišťují výsledky (hledají je v databázi) pro dotazy.

Příprava databáze se stará o přípravu databáze, ve které pak hledá vyhledávání.

omluvte prosím sníženou kvalitu schématu, pozn. redakce

Dvě serverovny

Seznam umístil servery, které provádí hledání do dvou serveroven. Dotazy od uživatelů se rozdělují pomocí DNS rozkladu mezi obě serverovny. V případě výpadku jedné serverovny je její provoz do pěti minut přesměrován na druhou serverovnu. Servery, na kterých běží robot a příprava databáze nejsou umístěny ve dvou serverovnách, protože jejich výpadek nemá velké následky.

Blokové schéma vyhledávače

Downloader je jednoduchá aplikace, která stahuje stránky z internetu – je kombinovaný s parserem.
Parser si stránky vezme a zapíše si URL, vytáhne ze stránek textový derivát. Downloader sám o sobě nerozhoduje o tom, které stránky by se měly vzít nebo nevzít. Jedná se pouze o tupého klienta, který stránky stahuje.
URL server říká downloaderu, co se má stahovat – plánuje přeindexování stránek. Přeindexování stránek je závislé na tom, jak často se stránka mění a jaký má rank. Stažené stránky posílá downloader do indexeru.
Indexer vytváří z textových dat indexy – všechny slova převede na ID a vytvoří z toho binární struktury, které popisují, které slovo se v kterém dokumentu vyskytovalo. Slova překládá přes lexicon.
Lexicon je seznam slov, které se vyskytují na webových stránkách. Ke každému slovu vrátí ID a nějaké informace o daném slově (zda se jedná o podstatné jméno nebo přídavné jméno, popř. další informace).
Merge je praktická aplikace, která vezme barely, které jsou seřazené podle určitých kritérií a propojí je s incrementy. V praxi to znamená, že vymění starší verzi zaindexovaných stránek za novější.
Web interface (web seznam.cz) vytváří dotazy na metasearch.
Index searchers dostane příkaz, že je třeba najít určité slovo. Toto slovo pak hledá v databázi a např. zjistí, že slovo x bylo nalezeno v dokumentu y na pozici odstavec z.
Metasearch příchozí dotaz rozesílá všem index searchersům. Index searchersi metasearchu řeknou, kde se co nachází a jakou to má relevanci. Metasearch si výsledky projde a udělá z nich celkový výsledek. Výsledek je však zatím jen číslo.
Content servery převádí výsledek metasearchu na výsledek, který dokáže uživatel přečíst. Tento výsledek pak vrací na web.
Page Rank calculator – jeho úlohou je výpočet ranků. Informace o rancích putují z PR calculatoru do URL serveru, který rozhoduje o indexování stránek a dále do index searcherů, které i podle těchto informací určují relevanci.

Hardware

Robot + příprava databáze

10 serverů – různé konfigurace 2 x Dual Core CPU, 2–4 GB Ram, SAS / SATA HDD

Vyhledávání

20 serverů (10 svazků po dvou strojích) x 2 serverovny, většina: Dual Core CPU, 2 GB Ram, 6 × 140 GB HDD

Upozornění: přes veškerou moji snahu se může stát, že některé informace v tomto článku mohou být neúplné, mylné a nebo zkreslené. V tomto případě budu potěšen zpětnou vazbou v komentářích.

Poznámka redakce: první část reportáže z přednášky Štěpána Škroba byla věnována spíše technickým aspektům vyhledávače. Další část bude pravděpodobně pro většinu čtenářů zajímavější – bude se věnovat lemmatizaci, citační analýze, vyhledávání a hodnocení stránek.

Další díl si můžete přečíst zde:
Seznam Fulltext – přednáška Štěpána Škroba – Díl 2.

Článek Seznam Fulltext – přednáška Štěpána Škroba - Díl 1. byl publikován 14. listopadu 2007 v 17.00 v rubrice Technologie. Autorem článku je Marek Maťovka. Pro diskusi slouží komentáře (0).

Prosím čekejte ...
Prosím čekejte ...

Podobné články

Prosím čekejte ...