Back to Question Center
0

Web Škrábání s Semalt Expert

1 answers:

Škrábání webu, extrahovat data z webových stránek. Webový software pro sklizeň může přistupovat k webu přímo pomocí protokolu HTTP nebo webového prohlížeče. Zatímco proces může být implementován ručně uživatelem softwaru, technika obvykle zahrnuje automatizovaný proces implementovaný pomocí webového crawleru nebo botu.

Škrábání webu je proces, při němž jsou strukturované údaje z webu zkopírovány do lokální databáze pro přezkoumání a vyhledávání. Zahrnuje načítání webové stránky a získávání obsahu. Obsah stránky může být analyzován, vyhledáván, restrukturalizován a jeho data zkopírována do místního úložného zařízení.

Webové stránky jsou obecně postaveny z textových značkovacích jazyků, jako jsou XHTML a HTML, oba obsahují velké množství užitečných dat ve formě textu. Mnoho z těchto webů však bylo navrženo pro koncové uživatele, a nikoliv pro automatizované použití. To je důvod, proč byl vytvořen software pro škrábání.

Existuje mnoho technik, které lze použít pro efektivní škrábání webů. Některé z nich byly zpracovány níže:

1. Lidské kopírování a vkládání

Čas od času se ani nejlepší přesnost a efektivitu ruční kopírování a vkládání..To platí zejména v situacích, kdy webové stránky vytvářejí bariéry zabraňující automatizaci strojů.

2. Matching Pattern Matching

Jedná se o poměrně jednoduchý, ale výkonný přístup k extrakci dat z webových stránek. Může být založen na příkazu UNIX grep nebo na regulárním výrazu daného programovacího jazyka, například Python nebo Perl.

3. Programování HTTP

Programování HTTP lze použít jak pro statické, tak pro dynamické webové stránky. Data jsou extrahována odesíláním požadavků HTTP na vzdálený webový server při použití programování soketů.

4. Parsování HTML

Mnoho webů má tendenci mít rozsáhlou sbírku stránek vytvořených dynamicky ze základního zdroje struktury, jako je databáze. Zde jsou data, která patří do podobné kategorie, zakódována na podobné stránky. Při analýze kódu HTML program obecně detekuje takovou šablonu v konkrétním zdroji informací, načte její obsah a poté jej převede do přidružené formy, označované jako obal.

5. DOM parsing

V této technice program vloží do plnohodnotného webového prohlížeče, jako je Mozilla Firefox nebo Internet Explorer, aby načítal dynamický obsah generovaný skriptem na straně klienta. Tyto prohlížeče mohou také analyzovat webové stránky do stromu DOM v závislosti na programech, které mohou extrahovat části stránek.

6. Sémantické rozpoznávání poznámek

Stránky, které zamýšlíte skrýt, mohou obsahovat sémantické značky a anotace nebo metadata, které mohou být použity k vyhledání konkrétních úryvků dat. Pokud jsou tyto anotace vloženy do stránek, může být tato technika považována za speciální případ analýzy DOM. Tyto anotace mohou být také uspořádány do syntaktické vrstvy a poté uloženy a spravovány odděleně od webových stránek. Umožňuje škrabákům načíst schéma dat a také příkazy z této vrstvy předtím, než stránky vymaže.

December 6, 2017
Web Škrábání s Semalt Expert
Reply