Informace, média a knižní kultura/Metody výzkumu/Data mining, web scrapping

Z Wikiverzity
Jak používat klasifikační nálepkuTato stránka je součástí projektu:
Příslušnost: skupinová

Zde by bylo vhodné ještě doplnit Doplnit ze zázenamu, zejména věci ke konci.


Datamining, aneb jak získat data bez dotazování[editovat]

  • velké platformy většinou data nevydávaj
  • některé organizace umožňují přístup k datům přes api
    • =aplication platform interface
    • data jsou nějakým způsobem strukturovaná
    • v roce 2018 facebook začal zavírat API
    • takže to začalo ještě před CambridgeAnalytica
    • dnes už se z api dostanou jen vlastní údaje a údaje stránek, které administruji
    • údaje od ostatních jen přes API cizích stran, ale i tam je těžký přístup
  • těm co nezbývá nic jiného dělají webscrapping
  • dotnet, csharp?
  • html - hypertex markup language
    • značkovací jazyk pro tvorbu webu
    • počáteční a koncový tag s lomítkem označuje cokoliv
    • v browseru pravé tlačítko myši a zobrazit zdrojový kod, zobrazí zroják webu
      • u moha stránek potřeba odscrollovat níž, protože nahoře bývá javascript
    • tagy se nějak jmenují, mohou mít atributy a ty nabývat nějaké hodnoty
    • tag může mít více atributů
    • problém jsou custom atributy, které využívají třeba Facebook a další podobné sítě
  • pokud něco co vidím na webu není ve zdroják, tak je to z důvodu dynamického webu
    • například donačítání dat na stránku už nedonačítá data do zdrojového kódu
    • v prohlížeči Chrom cvičíme
      • ctrl+shift+c otevře development tools
      • v okně vydíme DOM
  • DOM - objektový model stránky
    • v té struktuře se můžeme pohybovat
    • můžeme říct, jdi k elementu, který je v tomdle stromu tady
    • =document object model
    • = současná podoba stránky i s dynamickýma prvkama, které nejsou ve zdrojáku
  • CSS selektory
    • css selektory například href v html tagu umožnují hledat konkrétní věci
    • v konzoli hledáme přes $$("")
  • probíhá online demonstrace...(viz videonahrávka)
  • pres konzoly a css selektory se dá najít konkrétní věc v DOM, ale nedá se uložit
    • je to těžké to uložit
    • tak má k tomu rozšíření do prohlížeče, které mu to ukládá do csv
    • probíhá instalace scraperu...
      • příště se s tímto rozšířením bude pracovat
      • DOMÁCÍ ÚKOL: hrát si s nástrojem, hrát si se selktorama