Informace, média a knižní kultura/Metody výzkumu/Data mining, web scrapping
Skočit na navigaci
Skočit na vyhledávání
![]() | |
Příslušnost: skupinová |
Zde by bylo vhodné ještě doplnit Doplnit ze zázenamu, zejména věci ke konci.
Datamining, aneb jak získat data bez dotazování[editovat]
- velké platformy většinou data nevydávaj
- některé organizace umožňují přístup k datům přes api
- =aplication platform interface
- data jsou nějakým způsobem strukturovaná
- v roce 2018 facebook začal zavírat API
- takže to začalo ještě před CambridgeAnalytica
- dnes už se z api dostanou jen vlastní údaje a údaje stránek, které administruji
- údaje od ostatních jen přes API cizích stran, ale i tam je těžký přístup
- těm co nezbývá nic jiného dělají webscrapping
- dotnet, csharp?
- html - hypertex markup language
- značkovací jazyk pro tvorbu webu
- počáteční a koncový tag s lomítkem označuje cokoliv
- v browseru pravé tlačítko myši a zobrazit zdrojový kod, zobrazí zroják webu
- u moha stránek potřeba odscrollovat níž, protože nahoře bývá javascript
- tagy se nějak jmenují, mohou mít atributy a ty nabývat nějaké hodnoty
- tag může mít více atributů
- problém jsou custom atributy, které využívají třeba Facebook a další podobné sítě
- pokud něco co vidím na webu není ve zdroják, tak je to z důvodu dynamického webu
- například donačítání dat na stránku už nedonačítá data do zdrojového kódu
- v prohlížeči Chrom cvičíme
- ctrl+shift+c otevře development tools
- v okně vydíme DOM
- DOM - objektový model stránky
- v té struktuře se můžeme pohybovat
- můžeme říct, jdi k elementu, který je v tomdle stromu tady
- =document object model
- = současná podoba stránky i s dynamickýma prvkama, které nejsou ve zdrojáku
- CSS selektory
- css selektory například href v html tagu umožnují hledat konkrétní věci
- v konzoli hledáme přes $$("")
- probíhá online demonstrace...(viz videonahrávka)
- pres konzoly a css selektory se dá najít konkrétní věc v DOM, ale nedá se uložit
- je to těžké to uložit
- tak má k tomu rozšíření do prohlížeče, které mu to ukládá do csv
- probíhá instalace scraperu...
- příště se s tímto rozšířením bude pracovat
- DOMÁCÍ ÚKOL: hrát si s nástrojem, hrát si se selktorama