Seriál o vyhledávačích a vyhledávání, dnes podrobně na téma crawler

Seriál o vyhledávačích a vyhledávání, dnes podrobně na téma crawler

Úvodní rozhovor s Dušanem Janovským najdete zde. Předchozí díl zde.

Z dnešního obsahu (část 5):

  • Paměť, aneb kam se to všechno vejde
  • Limitování počtu indexovaných URL – které ale vybrat?
  • Kolik je na interventu URL adres?
  • Vyhledávače odlišují stránky s účelovým obsahem
  • Obsahy a metadata
  • Jak se vypořádá s chybami typu 404 stránka nenalezena
  • Další chyby 403, 410, 501 …
  • Vyřazení z indexace
  • Duplicity, částečné duplicity
  • Preference podle jazyka

Z obsahu (část 6):

  • Frekvence změn stránek
  • Page rank
  • Cloud
  • Systém ukládání dat
  • Storage
  • Obsahy a metadata
  • Robots.txt