Seznam Fulltext – přednáška Štěpána Škroba - Díl 1.
Sponzorované odkazy
Informace zveřejněné v tomto článku pochází z přednášky Štěpána Škoba konané dne 14.11.2007 v Brně.
Úvod
Prakticky mají vyhledávače identickou konstrukci, je to podobné jako s auty – každé auto má čtyři kola, volant a nádrž na benzín. Vlastnosti auta (některé auto jezdí rychleji apod.) jsou už jen konstrukční detaily.
Architektura
Hlavní části
Robot (crawler) – jedná se o část, která je do jisté míry autonomní. Chodí po internetu, stahuje nové i staré stránky. Rozhoduje o tom, které stránky se budou reindexovat a které se vyhodí. Stránky, které zaindexuje pošle do přípravny databáze.
Vyhledávání je samostatná autonomní součást. Jedná se o servery, které zjišťují výsledky (hledají je v databázi) pro dotazy.
Příprava databáze se stará o přípravu databáze, ve které pak hledá vyhledávání.
omluvte prosím sníženou kvalitu schématu, pozn. redakce
Dvě serverovny
Seznam umístil servery, které provádí hledání do dvou serveroven. Dotazy od uživatelů se rozdělují pomocí DNS rozkladu mezi obě serverovny. V případě výpadku jedné serverovny je její provoz do pěti minut přesměrován na druhou serverovnu. Servery, na kterých běží robot a příprava databáze nejsou umístěny ve dvou serverovnách, protože jejich výpadek nemá velké následky.
Blokové schéma vyhledávače
Downloader je jednoduchá aplikace, která stahuje stránky
z internetu – je kombinovaný s parserem.
Parser si stránky vezme a zapíše si URL, vytáhne ze
stránek textový derivát. Downloader sám o sobě nerozhoduje o tom, které
stránky by se měly vzít nebo nevzít. Jedná se pouze o tupého klienta,
který stránky stahuje.
URL server říká downloaderu, co se má stahovat –
plánuje přeindexování stránek. Přeindexování stránek je závislé na
tom, jak často se stránka mění a jaký má rank. Stažené stránky posílá
downloader do indexeru.
Indexer vytváří z textových dat indexy – všechny slova
převede na ID a vytvoří z toho binární struktury, které popisují, které
slovo se v kterém dokumentu vyskytovalo. Slova překládá přes lexicon.
Lexicon je seznam slov, které se vyskytují na webových
stránkách. Ke každému slovu vrátí ID a nějaké informace o daném slově
(zda se jedná o podstatné jméno nebo přídavné jméno, popř. další
informace).
Merge je praktická aplikace, která vezme barely, které jsou
seřazené podle určitých kritérií a propojí je s incrementy. V praxi to
znamená, že vymění starší verzi zaindexovaných stránek za
novější.
Web interface (web seznam.cz) vytváří dotazy na
metasearch.
Index searchers dostane příkaz, že je třeba najít určité
slovo. Toto slovo pak hledá v databázi a např. zjistí, že slovo x bylo
nalezeno v dokumentu y na pozici odstavec z.
Metasearch příchozí dotaz rozesílá všem index
searchersům. Index searchersi metasearchu řeknou, kde se co nachází a jakou
to má relevanci. Metasearch si výsledky projde a udělá z nich celkový
výsledek. Výsledek je však zatím jen číslo.
Content servery převádí výsledek metasearchu na výsledek,
který dokáže uživatel přečíst. Tento výsledek pak vrací na web.
Page Rank calculator – jeho úlohou je výpočet ranků.
Informace o rancích putují z PR calculatoru do URL serveru, který rozhoduje
o indexování stránek a dále do index searcherů, které i podle těchto
informací určují relevanci.
Hardware
Robot + příprava databáze
10 serverů – různé konfigurace 2 x Dual Core CPU, 2–4 GB Ram, SAS / SATA HDD
Vyhledávání
20 serverů (10 svazků po dvou strojích) x 2 serverovny, většina: Dual Core CPU, 2 GB Ram, 6 × 140 GB HDD
Upozornění: přes veškerou moji snahu se může stát, že některé informace v tomto článku mohou být neúplné, mylné a nebo zkreslené. V tomto případě budu potěšen zpětnou vazbou v komentářích.
Poznámka redakce: první část reportáže z přednášky Štěpána Škroba byla věnována spíše technickým aspektům vyhledávače. Další část bude pravděpodobně pro většinu čtenářů zajímavější – bude se věnovat lemmatizaci, citační analýze, vyhledávání a hodnocení stránek.
Další díl si můžete přečíst zde:
Seznam
Fulltext – přednáška Štěpána Škroba – Díl 2.
Článek Seznam Fulltext – přednáška Štěpána Škroba - Díl 1. byl publikován 14. listopadu 2007 v 17.00 v rubrice Technologie. Autorem článku je Marek Maťovka. Pro diskusi slouží komentáře (0).
Podobné články
- Práce.cz 06.01.2008 14.15
- Lidé.cz 20.12.2007 14.00
- eStránky.cz 03.01.2008 20.00
- Seznam Fulltext – přednáška Štěpána Škroba - Díl 2. 17.11.2007 15.00
- www.Spolužáci.cz 07.11.2007 05.00
Top 10
- Kontrola pravopisu - Jak účinně opravovat texty?
- Převody jednotek
- Lidé.cz
- Těžba kryptoměn je šikovný způsob, jak si vydělat zajímavé peníze
- Karaoke - Texty písní ke stažení zdarma
- Raspberry Pi – průvodce výběrem nejlepšího modelu
- Prožijte léto s pánskými botami z Robelshoes
- Držte krok s dobou: Jaké (ne)výhody přináší digitalizace dokumentů?
- Pronájem virtuálních serverů: Jaké jsou jejich výhody a nevýhody?
- Smajlíci
Tagy
Pravopis digitalizace kryptoměny Google MP3 karaoke chat, komunikace integrační software umělá inteligence Office
Doporučujeme
Máte tiskárnu? Ať již jste firma či spotřebitel, vyzkoušejte naše tonery ve slevě. Tonery a náplně do tiskáren HP máme za bezkonkurenční ceny.