Informace, média a knižní kultura/Metody výzkumu/Jak získat datum první registrace určitého souboru uživatelů?

Z Wikiverzity

Toto je návod jak získat datum registrace konkrétní skupiny uživatelů na projektech Wikimedia s použitím metod web scrappingu.

Co budeme potřebovat[editovat]

  • sadu uživatelských jmen
  • Prohlížeč Chrome s nainstalovaným školním Scraperem
  • Prohlížeč FF s nainstalovaným addonem WebScrapBook
  • Tabulkový editor

Postup[editovat]

Příprava datasetu pro první scrap[editovat]

  1. Do sloupce A tabulkového Google Tabulek si nakopíruji uživatelská jména
  2. Před něj vložím jeden prázdný sloupec
  3. Do sloupce vložím řetězec: https://meta.wikimedia.org/wiki/Special:CentralAuth/
  4. Do sloupce C vložím rovnici =A2&B2 a dám aplikovat na vše
  5. Sloupec C vložím do sloupce D pouze jako hodnoty
  6. Označím sloupec D: Upravit:Najít a nahradit (Najít (mezera), Nahradit _) aplikovat na vše

První scrap[editovat]

  1. Jdu do WebScrapBook a dám Options
  2. V sekci Captura - saving, na řádku Save captured data as: vyberu možnost Single HTML
  3. Úplně dole dám Save
  4. Kliknu na scraper a vyberu možnost Batch capture selected links...
  5. Do dialogového okna URL listu překopíruju obsah sloupce D z tabulek
  6. Kliknu na Capture
  7. WebScrap mi do složky WebScrapBook/data naházel shrabané html soubory

Příprava dat pro druhý srap[editovat]

  1. Otevřu si stránku filesmerge.com