Statistika prakticky
Statistika prakticky
Jak snadno a ryche a aspoň trochu korektně řešit statistické problémy.
Zdroj dat
[editovat]Asi nejuniversálnější přenosový formát je CSV. Pokud vám to někdo dá v CSV, je napůl vyhráno. Většinou vám to lidi dají v Excelu nebo v něčem takovém. To naštěstí otevřete i v OpenOffice.org/Calc. Zpravidla je to hrozný binec, je to spousta různých tabulek, často na jedné stránce "sešitu" několik tabulek. Myslel jsem si, že to půjde myší (či kursory) vybrat jednu tabulku po druhé a pak tyto výběry nějak exportovat to jednotlivých CSV souborů, ale to asi nejde.
Menší problém je v tom, že v česko-německo mluvícím regionu je zvykem používat desetinné čárky, zatímco zbytek (většinou anglicky hovořícího světa) používá desetinné tečky. Pokud data, která obdržíte, používají desetinnou čárku, není to až tak velký problém, až na to, že tato data jsou pak chápána jakožto text a tím pádem uložena v uvozovkách (či jaký jiný znak si vyberete). Změnit desetinné čárky na tečky asi jednodušše nejde[1], takže je lepší zvolit jiné oddělovací zanky než čárky, např. středníky nebo svislítka. Pak se čísla, byť s desetinnou čárkou, ukládají bez uvozovek.
Dostaneme něco jakoby CSV soubor, ale je to texťák, ve kterém může být smícháno několik různých tabulek (kolik jich na listu je). Takže asi nezbyde než dořečit to textovým editorem.
Takže v úhrnu:
- otevřít .xls soubor v OpenOffice.org/Calc
- vzít list po listu,
- Soubor –> Uložit jako -> Soubor CSV (zvolit vhodné jméno pro tabulku) -> Zachovat stávající formát
- Znaková sada: Unicode (UTF-8), oddělovač pole ";", oddělovač textu " Uložit zobrazený obsah buňky
- Pozor při ukládání – byl uložen jen aktivní list (je pořeba projít postupně všechny listy);
- CSV tabulky, pokud mají v Excelu popis, mají záhlaví – to je dobře (co znamená ten který sloupec)
- emacs (nebo něco podobného), otevřít CVS soubor, označit jednotlivé tabulky (Ctrl-Space, Meta-W) a uložit do jednotlivých souborů (Ctrl-X + Ctrl-F, zvolit název souboru, Ctrl-Y)
- případně nahradit čárky tečkami
Zpracování dat
[editovat]Viz např. RKWard#RKWard for new Users
Reference
[editovat]Související články
[editovat]Externí odkazy
[editovat]- Prof. RNDr. Milan Meloun, DrSc.
- Data sets (Data v publikacích) – data, na kterých je možno procvičovat