Seznam Fulltext – přednáška Štěpána Škroba - Díl 2.
Sponzorované odkazy
Informace zveřejněné v tomto článku pochází z přednášky Štěpána Škoba konané dne 14.11.2007 v Brně.
Související článek:
Seznam
Fulltext – přednáška Štěpána Škroba – Díl 1.
Vyhledávání
Dotazy
Většina dotazů od uživatelů je v 1. pádu, podstatné nebo přídavné jméno. Některé jsou s diakritikou a některé bez. S tímto si musí vyhledávač poradit, aby našel správné výsledky. Slouží k tomu lemmatizace.
Lemmatizace
Lemmatizátor je nástroj, který dostane na vstup určité slovo a k tomu slovu vám řekne, zda se jedná o podstatné jméno, přídavné jméno, nebo sloveso. Dále se dozvíme, zda je třeba dané sloveso infinitiv apod. Lemma je slovo v základním tvaru.
K čemu je vlastně lemmatizace dobrá?
Příklad:
Jeden z nejlepších zdrojů o německých tancích.
Ke každému slovu z této věty se dohledá jeho lemma (základ). Problém
je v tom, že ne vždy lze určit pro dané slovo jeho jednoznačné lemma. Pro
slovo „jeden“ může být základ „jíst“, nebo „jedna“. Slovo
„tancích“ je také nejednoznačné, protože jeho základ může být
„tank“ nebo „tanec“.
Je velice důležité, aby vyhledávač určil správné lemma, protože když
větu pochopí jinak, než myslel člověk, tak potom vrací podivné výsledky.
Lemmatizace se tedy snaží pochopit význam slov ve větách a díky tomu se
zvyšuje relevance výsledků vyhledávání. Nejhůře se lemmatizují slovesa.
Občas se může stát, že se význam nějakého slova pochopí špatně a pak
se to snaží vývojáři opravit.
Hodnocení stránek
• titulek!!!
• obsah stránky
• URL
Pořadí výsledků vyhledávání je složeno ze spousty různých parametrů, které se vyhodnocují.
On Page Faktory
Nejdůležitější je, aby byl na stránce správně vyplněn titulek. Stává se, že nepoučení webmasteři nevyplní titulek a připravují se tak o velkou spoustu relevance. Pro stránky bez titulku se bere popisek z katalogu seznamu. Velký problém je také se stránkami ve flashi, které jsou velmi těžko vyhledatelné. Dále je důležitý výskyt klíčového slova v obsahu a v názvu domény.
Citační analýza
Podle zpětných odkazů vyhledávače určují kvalitu stránky. Je důležité mít u zpětných odkazů klíčové slovo v anchor textu. Je důležité na jakém místě jsou zpětné odkazy umístěny. Odkaz umístěný v patičce má nižší relevanci než odkaz umístěný jinde. Je také důležitá tématická relevance u zpětných odkazů.
Rank
Rank je statická důležitost stránky založená na citační analýze.
Robot
Pro hledání nových stránek se používá jednoduchý algoritmus. Začíná se na seznam.cz, kde se zjistilo na jaké stránky vedou odkazy a pokračovalo se na dalších stránkách. Řetězovou reakcí se tak projde celý internet. Robot stihne za den zaindexovat 10 000 000 stránek. Robot určen k vytváření screenů je schopen udělat 100 000 obrázků za den. Vytváření screenshotů je nezávislé na indexování stránek. Robot vytváří screenshoty zobrazené v prohlížeči IE. Alternativní zdroj URL jsou www.clanky.cz a RSS.
Indexují se dokumenty:
• XML (XLST šablony ještě ne)
• PDF
• DOC (vyvinuté, ale ještě není nasazeno v provozu)
Robots.txt
Soubor musí být umístěn v rootu. Umožňuje zakázat robotu, co nemá stahovat. Dobré je zakázat stránky se statistikami.
Sitemap.xml
www ….
DATE
DAILY
1.0
Pokud má web titulní stránku ve flashi, může se díky sitemap.xml
dozvědět, že existují i další stránky.
Důležité je pro důležitější stránky nastavit vyšší prioritu a pro
méně důležité stránky nižší prioritu. Vyšší priorita znamená
vyšší pravděpodobnost, že robot stránku zaindexuje.
Reindexace
Na reindexaci má vliv: datum poslední úpravy, rank a frekvence změn. Plánování každé URL má svůj vlastní interval stahování.
Ochrana proti přetěžování webů
Shaper podle IP adres cílové stránky má udělaný mechanismus, aby
z každého IP nestahoval více stránek najednou.
Na každou doménu může být ještě nastaven maximální počet stáhnutých
stránek za sekundu (cca 1 stránka za sekundu).
Domény
Robot podporuje všechny běžné domény, na kterých se vyskytují české weby. Problém může být s exotickými doménami, weby na exotických doménách mohou být ručně povoleny. V případě nahromadění více českých stránek na exotické doméně se pak tato doména povolí celá – např. doména „.to“. Důležité však je, zda má web český obsah. Český obsah se pozná podle jazykového analyzátoru, který je založen na kombinaci statistické a slovníkové analýze. Mohl by nastat problém, pokud by stránka byla napsána bez diakritiky.
Údaje z provozu
Technická data
• 55 mil dokumentů
• indexy 120 GB
• obsah dokumentů 200 GB
• průměr čistého textu na stránku 4 kB
• výkon robota 100 stran / s
• průměrná denní odezva na dotaz vyhledávání 100 ms
Stáří dokumentů v databázi
• min 0,9 dní
• max 125 dní
• průměr 8,8 dne
• medián 3,8 dne
Dotazy:
Vadí Seznamu obchodování s odkazy?
Seznam nebojuje s prodejem odkazů. Pokud se jedná o relevantní odkaz, nevadí to. Mohou vadit např. lišty odkazů, které jsou umístěné na nějakém neviditelném místě. Lepší řešení, než kupovat odkazy pro dobré umístění webu je mít kvalitní obsah.
Má nějaký vliv na vyhledávání meta keywords?
Ne, reálný přínos je malý, protože to nejde na stránce nikde vidět.
Co to je nekvalitní odkaz?
Záleží to na celkové podobě stránky. Odkazy ze stránek, na které v SERPu nikdo nekliká mají nízké hodnocení.
Je kvalitní odkaz z Skliku?
Odkazy z Skliku nemají na vyhledávání žádný vliv.
Používáte nějaké data z lištičky?
Používáme všechna statistická data, která máme k dispozici.
Zasahuje ručně do výsledků?
Jen v nezbytné míře, odstraňují se např. weby s dětským pornem apod.
Zjišťujete podvody s neviditelností ručně nebo automaticky?
Máme administrátory, kteří namátkově kontrolují výsledky vyhledávání. Když se tam objeví něco, co by tam nečekali, zkoumá se, proč to tam je. Snažíme se to však automatizovat co nejvíce.
Penalizujete nějak vysoký výskyt klíčového slova?
Ano, budeme.
Jaké jsou změny u nového robota?
Rok se dělal technologický upgrade vyhledávače pro větší škálovatelnost. Databáze měla jen 30 000 000 dokumentů a nešla dále rozšiřovat. Hlavní změna je v tom, že se databáze rozdělila do svazků a tím došlo k zrychlení.
Je Seznam lepší v kvalitě výsledků vyhledávání než Google?
Těžká otázka. Snažíme se vyjít ze znalosti zdejšího prostředí, aby výsledky odpovídaly tomu, co uživatelé hledají. Snažíme se být lepší a lepší, ale v současnosti nám scházejí lidské zdroje.
Jaký je poměr v důležitosti mezi On a Off page faktory?
Přímo to nelze říci. Systém pro nastavování vah je automatický. Máme 20 vah a přibývají další. Kombinace těchto vah dává nejlepší výsledky. Do jaké hloubky probíhá indexace na webu?
Hloubka webu se nezkoumá. Weby už nebývají statické a úrovně už nemají takový význam.
Jak bojujete proti spamu? Mám na mysli např. 5 stejných eshopů od jednoho majitele, které se liší jen vzhledem.
Máme automatický systém, který hledá duplicity mezi weby. Snažíme se nechat ve výsledcích vyhledávání jen jeden z duplicitních webů. Přednost má relevantnější web, který má vyšší rank, nebo který má ještě něco navíc.
Připravujete indexaci flashových stránek?
Je to pro nás těžko řešitelné, neumíme si s tím poradit. Zatím s tím ani do budoucna nepočítáme. Sitemap.xml může pomoci k tomu, aby se tyto stránky vůbec našli.
Upozornění: přes veškerou moji snahu se může stát, že některé informace v tomto článku mohou být neúplné, mylné a nebo zkreslené. V tomto případě budu potěšen zpětnou vazbou v komentářích.
Článek Seznam Fulltext – přednáška Štěpána Škroba - Díl 2. byl publikován 17. listopadu 2007 v 15.00 v rubrice Technologie. Autorem článku je Marek Maťovka. Pro diskusi slouží komentáře (1).
Podobné články
- Práce.cz 06.01.2008 14.15
- Lidé.cz 20.12.2007 14.00
- eStránky.cz 03.01.2008 20.00
- Seznam Fulltext – přednáška Štěpána Škroba - Díl 1. 14.11.2007 17.00
- www.Spolužáci.cz 07.11.2007 05.00
Top 10
- Trendy pánské tenisky pro podzim 2024
- IT outsourcing v roce 2025: Jaké technologie vám zajistí konkurenceschopnost?
- Nero 7 download
- Raspberry Pi – průvodce výběrem nejlepšího modelu
- Online dotazník pro vyhodnocení spokojenosti zákazníků a zaměstnanců
- Prožijte léto s pánskými botami z Robelshoes
- Držte krok s dobou: Jaké (ne)výhody přináší digitalizace dokumentů?
- Pronájem virtuálních serverů: Jaké jsou jejich výhody a nevýhody?
- Jak využít umělou inteligenci pro správu PPC reklam?
- Co je integrační software?
Tagy
Pravopis digitalizace kryptoměny Google MP3 karaoke chat, komunikace integrační software umělá inteligence Office
Doporučujeme
Máte tiskárnu? Ať již jste firma či spotřebitel, vyzkoušejte naše tonery ve slevě. Tonery a náplně do tiskáren HP máme za bezkonkurenční ceny.