RKWard = easy to use, transparent frontend to the R-language.

Základní info

http://rkward.sourceforge.net/ Domácí stránka
- http://sourceforge.net/project/showfiles.php?group_id=50231 Download (0.5.0a (KDE4)):
  - rkward_0.5.0a-1_i386_sid.deb
  - rkward-0.5.0a.tar.gz
http://rkward.sourceforge.net/wiki/ Wiki
- General FAQ
- User Documentation:
  - List Of Menu Items and Plugins
  - Getting Started Using RKWard:
    - RKWard for Newcomers – Tutoriál

Podstránky

/pokusy – zkoušení příkladů

Instalace

Debian balík: rkward

Začátek

Spustit z menu (Ubuntu:Aplikace->Vzdělávání->RKWard) nebo z příkazové řádky terminálového emulátoru:

rkward &

Další okno může být:

What would you like to do?
  * Start with an empty workspace
  * Start with an empty table (default)
  * Load an existing workspace

Otevře se okno s grafickým rozhraním. V defaultním uspořádání je vlevo:

Files
Workspace

Nahoře:

File
Edit
View
Workspace
Run
Analysis
Plots
Distributions
Windows
Settings
Help

Pak hlavní okno s "ušima" (tabs):

my.data
rkward_welcome

A pod ním:

Command log
Pending jobs
R console
Help search

A zcela dole stavový řádek. Na něm v levém rohu, uprostřed a v pravém rohu:

Ready
název pracovního adresáře
R engine idle

To uvádíme proto, že někdy nám nějaké prvky mohou chybět. Např. /Bug 272527

Ovládání je intuitivní, podobné jako u WWW browseru; ikona okénka se zelenými šipkami přepíná mezi okny, šipka v modrém kolečku je zpět a dopředu (jako při browsování). Při prvním spuštění návody:

RKWard for new Users (kdo nezná ani R, ani RKWard)
RKWard for R Users (kdo už zná aspoň trochu R)

RKWard for new Users

Datové typy: např. "data.frame" (jako třeba tabulka ze spreadsheetu), "list" aj.
Workspace: všechny objekty, se kterými pracuji a které mám dostupné – ukáže je ikonka "Workspace" na levé straně okna nahoře – má to stromovou strukturu a jsou tam vidět i dostupné programové balíky – package.
všechny moje objekty, které si vytvářím nebo modifikují, jsou součástí ".GlobalEnv"
Když si tam kliknu na svůj objekt, třeba tabulku "lidi", tak jednotlivé sloupce tabulky jsou označeny jako vektory – informace o nich se mi ukáže, když na položku umístím myš – třeba lidi"vyska". Ale na rozdíl od původní tabulky mohou být přeházené.

Načtení dat

Jak dostat data z Excelu nebo OpenOffice.org/Calc apod. viz: Statistika prakticky

Menu: File/Import/Import Data: Najdu soubor v browseru, File format: SPSS anebo CSV (Comma Separated Value) – nemusí být samozřejmě oddělená jen čárkami, ale libovolným rozumným znakem

Pozor, není to bug, ale je to taková fíčura: Po načtení tabulky zůstane "viset" v okně "Output" chybová hláška z minulého načítání, tak se nenechme splést, pokud jsme už chybu opravili, že tam tu chybovou hlášku vidíme pořád. Do výstupního okna totiž se totiž chronologicky kumulují všechny výstupy, včetně chybových hlášek, takže vidíme i ty minulé. Nové výstupy jsou oddělovány vodorovnými čarami.

Po načtení se podíváme na importovanou tabulku do okna, které se pro ní vytvořilo (ikonka okénka se zelenou šipkou) a zkontrolujeme, jestli je vše OK. Čísla mají mít typ "Number", znakové řetězce mohou být konvertovány na typ "Factor", což mohou být, statitickou hantýrkou, nominální nebo ordinální data. Nominální data jsou ta, která prostě vyjadřují náležitost k nějaké skupině, třeba "muži" a "ženy", či "Sparta", "Slavia", "Bohemians". Tady předem ještě nemůžeme určit nějaké pořadí. Pokud ale tím názvem je už nějaké pořadí naznačeno, např. "první", "druhý", "prostřední", "poslední" apod, tak takový datový typ bude ordinální, tj. pořadový. Pokud tam taková data, označená stringy, nemáme, je lepší hned při načítání CSV tabulky vybrat "Convert character columns to factors? Do not convert." Pak těm datům zůstane datový typ "string" (například

Pokud se nám podaří tabulku načíst až na několikerý pokus, můžeme předchozí objekty vymazat: ukázat myší, pravý klik, delete. Pokud dáme pravý klik: view, ukáže se nám daný objekt už se spočítanými základními statistickými chatakteristikami:

Min. : minimum
1st Qu.: dolní kvartil
Median : medián
Mean : průměr
3rd Qu.: horní kvartil
Max. : maximum

Command log

Jayk R je jazykem příkazového řádku. Pro ty, kteří mají raději grafické rozhraní, bylo vymyšleno právě RKWar, kde, dalo by se zjednodušeně říci, stačí jenom intuitivně klikat myší a "ono to něco počítá". Někdy takový přístup může vést k tomu, že se vzdalujeme pochopení toho, co se vlastně kde děje a co "se" počítá, než abychom to chápali.

Dobré je okno nazvané Command log. Zde se logují (tj. zaznamenávají) všechny příkazy, které za nás RKWar do prostředí R poslal. Je to způsob, jak odkoukat syntaxi i sémantiku jazyka R a naučit se hlouběji chápat souvislosti.

Analýza

Pokud máme načtená data, je čas na statistickou analýzu. Stačí kliknout v menu na "Analysis" a vybírat, co hrdlo ráčí. Začneme asi popisnou statistikou (Descriptive Statistics). V levé polovině okénka vybereme myší objekt, otevřeme jej, vyberem z něj proměnné, které nás zajímají, pošleme je šipkou do pravé poloviny okénka, případně vybereme v záložkách další volby, klikneme na submit a za okamžik v okně "Output" vidíme výsledky!

Problémek: Když vybírám proměnné, tak se postupně číslují, ale od čísla 10 se třídí lexikograficky, tj. např: 1,10,11,2,3,.. ale to jenom v tom okně, na výstupu pak už mají správné pořadí.

Při kliknutí na Help se nám dokumentace otevře opět v okně.

Výstup dat

Výstupy jsou v okně Output. Dostat je z tohoto okna ven zatím vypadá trošku nešikovně. Menu File/Export umožní exportovat do souboru pouze naše objekty a proměnné – tzn. museli bychom si do nějaké z nich výstup analýzy uložit – ale to jsem neobjevil, jestli nějak jde.

Dále máme v menu File/Save Output as HTML (na právě prohlížené okno, tedy např. Output). Zdrojový kód HTML je velice čistý a přehledný, dá se tudíž pohodlně ručně editovat. Omezuje se na ty nejdůležitější elementy, jako je

 <h1>, <h2>, <hr>, <table>, <tr>, <td>, <ul>, <pre>

atd., žádné styly a fonty, ty je možno si později přitvořit ručně, kdo chce. Dokonce chybí deklarace HTML dokumentu, hlavička, kódování, deklarace těla – takže výstupní HTML dokument je dost "očesaný". Tím pádem je možné jej ale dobře importovat do dalších aplikací.

A nakonec je v menu volba File/Print... a v dalším dialogu si můžeme zvolit:

výstup na tiskárnu
výstup na fax
výstup do PDF souboru
výstup do PS souboru (postscript)

přičemž je možno si navolit řadu filtrů. Ale pozor, v okně Output se kumulují všechny výstupy, proto bychom si mohli nechtěně vytisknout celé dnešní sezení. Je možné preview a výběr stránek, ale už jsem neobjevil možnost výběru třeba jen označených částí.

Výstupní metodu, kterou návod doporučuje, je kupodivu styl Copy&Paste např. do OpenOffice. Nevypadá to jako příliš systémové řešení; údajně to má fungovat dobře, ale napři cpy&paste do OpenOffice.org/Calc mi nedopadlo zrovna nejlépe, napastování do OpenOffice.org/Writer také nic moc, do OpenOffice.org/Writer/Web to samé – sloupce jsou zkrátka rozházené. Takže nemohu doporučit.

Naproti tomu uložení výstupu do HTML (viz výše) a jeho následné otevření v OpenOffice.org/Writer/Web (či v nějakém jiném HTML či textovém editoru) funguje perfektně. Pokud pak výstupní tabulku napastujeme z OpenOffice.org/Writer/Web do OpenOffice.org/Calc, vypadá to na první pohled pěkně, ale na druhý pohled už hůř: Občas je rozházeno zarovnání sloupců – např. pokud ve výstupu vyjde celé číslo, je zarovnáno vpravo, a desetinné vlevo, ale co hůř, pokud je nějaké desetinné číslo vhodným adeptem – např. 3.7 – OpenOffice.org z něj iniciativně udělá datum 3.7.2008. Za to může zřejmě ta nebohá lokalizace, kdy jsou očekávány desetinné čárky a ne desetinné tečky. Potom jsou čísla s tečkami chápány jako stringy (a zarovnány vlevo) a jiné takové stringy převedeny na datum. Na to pozor, je zapořebí to zkontrolovat a trochu si vyhrát s lokalizací, abychom se později nedočkali překvapení.

Vývojáři slibují, že v přístích versích bude propojení s OpenOffice ještě těsnější a bude implkementována výměna dat prostřednictvím formátu "OASIS Open Document Format for Office Applications (ODF)", tak už je na co se těšit.

Závěr

I když mě osobně okenní aplikace příliš nepřitahují a používám je pokud možno v případech, kdy není zbytí, RKWard na mě udělal dobrý dojem, i když se v oblasti statistických výpočtů pokládám za věčného začátečníka.