Informace, média a knižní kultura/Metody výzkumu/Jak získat datum první registrace určitého souboru uživatelů?
Skočit na navigaci
Skočit na vyhledávání
Toto je návod jak získat datum registrace konkrétní skupiny uživatelů na projektech Wikimedia s použitím metod web scrappingu.
Co budeme potřebovat[editovat]
- sadu uživatelských jmen
- Prohlížeč Chrome s nainstalovaným školním Scraperem
- Prohlížeč FF s nainstalovaným addonem WebScrapBook
- Tabulkový editor
Postup[editovat]
Příprava datasetu pro první scrap[editovat]
- Do sloupce A tabulkového Google Tabulek si nakopíruji uživatelská jména
- Před něj vložím jeden prázdný sloupec
- Do sloupce vložím řetězec:
https://meta.wikimedia.org/wiki/Special:CentralAuth/
- Do sloupce C vložím rovnici
=A2&B2
a dám aplikovat na vše - Sloupec C vložím do sloupce D pouze jako hodnoty
- Označím sloupec D: Upravit:Najít a nahradit (Najít (mezera), Nahradit _) aplikovat na vše
První scrap[editovat]
- Jdu do WebScrapBook a dám Options
- V sekci Captura - saving, na řádku Save captured data as: vyberu možnost Single HTML
- Úplně dole dám Save
- Kliknu na scraper a vyberu možnost Batch capture selected links...
- Do dialogového okna URL listu překopíruju obsah sloupce D z tabulek
- Kliknu na Capture
- WebScrap mi do složky WebScrapBook/data naházel shrabané html soubory
Příprava dat pro druhý srap[editovat]
- Otevřu si stránku filesmerge.com