Informace, média a knižní kultura/Metody výzkumu/Digitální data

Z Wikiverzity
Jak používat klasifikační nálepkuTato stránka je součástí projektu:
Příslušnost: skupinová
Tato stránka není ještě hotová.

Digitální data[editovat]

online, přednáší Jakub Sedláček

  • budeme se bavit o sběru dat, či webscrapingu
  • příště potřebujeme Chrome, protože dostaneme rozšíření do chrome
  • budeme se zabývat s cs selektory, kde se dá říct co je nadpis, co je to či ono
  • naučíme se data sbírat a jaký programovací jazyk si pak vybereme je na nás

Digitální stopa jako nástroj výzkumu[editovat]

  • vychází se z empirické sociologie
  • v protikladu stojí platformy typu facebook, které data sbírají, zpracovávají a dále prodávají, čímž empirickou sociologií překračují
    • studium chování vlastností chování lidí
  • 3 rovina
    • výzkumná
    • komerční
    • nástroje dohledu - čína, systém sociálního kreditu
  • měli bysme studovat sociální stopu
  • online věci už se netýkají, jen ajtáků, ale může to studovat kde kdo
  • účast na výzkumu není opt in, ale opt out (mmusím nesouhlasit, ale to nejde, protože by ta data nešla užívat)
    • facebook potřebujem do práce, školy, takže je to problematického
    • nestačí ho jen nepoužívat, protože o nás FB sbírá data i mimo své služby, takže se musí používat různých facebookovské plugginy a další blokovací nástroje
    • i lidi, kteří fb nikdy nepoužili mají ve fb databázi svoji záložku a jsou tam o nich nějaké informace
  • digitální stopa = otisk veškerých aktivit v databázích sociálních sítí toho co o nás vysledovaly
    • i data z fyzického světa, gps, tep srdce z digitálních hodinek apod.
KOMERČNÍ VYUŽITÍ DIGITÁLNÍ STOPY[editovat]
  • díky GDPR se dají některé věci facebooku zakázat
    • například využití našeho jména v social action (např. Janu Novákovy se líbí to a to)
    • dále se dá zakázat používání údajů, které FB získal od jiných provozovatelů
  • například i u dat, která netušíme, že mohou něco sdělovat, tak sdělují
    • například sběr časových značek fotek z flikru, může říkat, kde se lidi budou vyskytovat -- a dá se na ně cílit reklama
  • data set my personality
    • osobní test, který se šířil dávno na webu
    • člověk si udělal osobnostní test
    • výzkumníci si k tomu sebrali lajky a pakk s tím dát eleborovali
    • vyplnilo 6 milionů lidí
  • pleaserobme.com
    • sebrali se data z twitteru a informovalo se, že uživatel je mimo domov a může být vykradený - snaha upozornit na zneužitelnost dat - umělecký projekt
    • CambridgeAnalytica
    • kniha MindFuck, film ???
    • kombinovala se demografická data, odpovědi v testu osobnosti
    • to bylo zpřístupnováno dalším výzkumníkům
      • CambridgeAnalytica chtěla data z MyPersonality, ale oni to nechtěli, tak CA zkopírovala jejich metodu
      • pouze 300 tisíc lidí ho vyplnilo
      • využila chybu fb a sebrala lajky u 87 milionů profilů
      • nicméně šlo o legální cestu
      • nelegální bylo komerční využívání dat
  • následně se na to cíleli politické kampaně pomocí těchto profilů
    • je otázka, jestli to vůbec lidi ovlivnilo
    • a také, jestli to mohlo mít větší efekt, než to co fb nabízel a nabízí legálně
    • např. lajkuju antisemický stránky, a někdo na to mohl zacílit reklamu
ZÁKAZNICKÉ KARTIČKY[editovat]
  • sbírají se nakupovací návyky
  • DOTAZ: jestli není vidoe o kartičkách, které by mohla pustit mamce?
  • ODPOVĚD: pošlou se 3 vide, která ale nejsou česky
  • hodně videí je pro děti, ale ne pro seniory
FACEBOOK[editovat]
  • snaha dostat zdravotní data od nemocnic v USA
  • snahy dostat data o uživatelých z banky
  • takže to není jen o dávání dat 3. osobám
SYSTÉMY DOHLEDU[editovat]
  • v Číně nikdo neví jakým způsobem to normálně funguje
    • dělá se skore občana, faktory nejsou vždy známé
    • placení daní, pokuty, jestli dostatečně cvičíte atd. --otázka je proč ta data nejsou známá, vždyt by to bylo ke prospěchu oboum stranám?
    • přináší to zvýhodnění
    • nebo znemožnují koupit si letenku, nezvýší plat, neubytujete se v lepším hotelu, nebudou moci vaše děti na vysokou školu
  • jsou studie, že by hodinky mohli v reálném čase rozpoznávat emoce
    • jakou emoci prožívám při používáním nějakého materiálu
    • například Amazoon to vyvíjí z hlasu
  • i mimo totalitní režimy
    • americký pohraniční úředník si vyjma pasu vyžádá i přístup k účtu na sociálních sítí
  • systémy s dobrovolnou účastí
    • např. chytrá karanténa - mobilní operátoři a bankovní data - vzpomínková mapa
    • realita taková nebyla
    • e-rouška pomocí bluetooth jestli jsme se potkali
    • totalitní režimy to sbírají at kdo chce, nebo ne?
DIGITÁLNÍ STOPA Z POHLEDU VÝZKUMNÍKA[editovat]
  • soubor všech data a metadat, které zůstávají v digitálních systémech jako otisk ativity uživatelů
  • digital trace data, ditigal footprints, social transactional data, big data (nutno specifikovat), big social data
  • nové myšlenkové a metodologické směry
    • computational social science
      • propojení informatiky a sociálních věd
    • ditigal humanities, ditigal sociology
BID DATA[editovat]
  • data, která standardní sw není schopen rychle zpracovat
  • telefoní operátoři sbíraj část dat, ale je to dost dat, k nějakému zpracování -- jak vymažu afiliaci svého telefonu k nějaké firmě?
  • v budoucnu může být univerzání služba, ve které budou všichni --a nebude takovou službu nabízet stát v rámci e-governmentu?
  • subjektivní data, mohou zkreslovat, ale digitální data jsou solidnějším obrazem reality v určité nice
    • například když mám říct, kde jsem kdy byl, tak mi ta data si pomohou
    • nebo s kolika přáteli sem se bavil o fake news, tak se to z big dat vygeneruje
  • výhody
    • v prostředí sociální sítě, lze používat teréní experiment
    • výzkum volebního chování na FB, studie 2012
      • zapojilo se 61 milionů subjektů, což je unikát
    • archivy digitální stopy vhodné pro přirozené experimenty
  • nevýhody
    • je to málo prozkoumané
    • analýza sekundárních dat, primární má vždy platforma
    • problém je, že lajky před rokem 2009 na fb nebyly a v roce 2016 se doplnili další lajky, takže to komplikuje výzkumnou analytiku
      • problém jsou fejkové profily, a také to, že některé věci o sobě veřejně neříkám (ale do neveřejného dotazníku bych je řekl)
        • takže studie sledující studenty univerzity, sleduje jen ty, kteřý to uvádí na svém fb
    • nejvíc čechů uvádí Harvard a Vysoká škola života
    • je studie na to, že lidé lajkují něco o co mají zájem
      • ale je 5 let stará
      • a účastnilo se ji 500 studentů
      • takže je otázka, jestli je to dobrý odraz reality
      • takže je potřeba se nebát popisovat ty nedostatky, které to může mít
    • jiné cesta ke studia online fenoménů není
    • víc a víc lidí se přesouvá do onlinu, takže řada triviálních věcí na FB může mýt větší dopad na lidi, než dlouhé politické dotazy
NEDOSTUPNOST DIGITÁLNÍ STOPY PRO VÝZKUM[editovat]
  • někdy se s platformou nedá spolupracovat
  • dostat data např. od FB je nemožné
  • ti co data nemají, nemohou ani kriticky hodnotit metodologii
  • občas se daří spolupráce s menšími platformama
  • tedy řešením je webscrapping, kde se data seberou z webu
    • výzkumník musí mít specializované dovednosti, kde si na to vytvoří nástroje
    • takže je to pomalejší, než když ty data poberu
    • načítání dat z webu není vždy možné, takže se něco nepovedeme
    • pro provozovatele je to nevýhodné, protože mu vytěžujeme server a šaháme mu na data, které nechce aby se mu sahalo
  • API base reasearch
    • standard po CambridgeAnalytica
    • provozovatel platformy tudy zpřístupňuje data
    • je to rychlejší než webscrapping
    • mypersonality, cambridgeanalytica bylo to samé
    • netvizz - analyzovat fb příspěvky jakejkoli věcí, studovat network svých přátel přátel etc
      • aplikace
      • článek o tom nasbíral 600 citací
      • pak to zařízla CA a GDPR, takže ss omezili využítí dat přes API
    • takže nezávislej výzkum ostrouhal a ss získali výhodu, že ty data jsou jen u ss
  • takže když měl někdo naplánovaný výzkum tak pohořel --takže je potřeba si dávat bacha při plánování výzkumu, pokud chci sbírat data od někoho
  • postupně se ale situace mění k lepšímu - fb to začíná ve vztahu k akademické sféře brát vážně
  • nicméně fb otevíral, jen díky kritice týkající se voleb kongresem USA
  • důkazní materiál v trestněprávním řízení
  • fb zaznamenává i to co se do chatu napíše a nikdy neodešle
  • propast mezi využitím dat ve výzkumu a tím co drží firmy narůstá
  • na uisku se dá pracovat s těmi todaty, zatímco jinde je těžké si to obhájit
  • v digitální stopě se dělaj hlavně sociologické výzkumy
  • DU: podívat se na zásadní články, týkající se této problematiky
    • jsou to starší studie, ale proto, že dříve to šlo zkoumat
    • ty studie ukazujou, že hodnocení člověka na základy big data vyšlo lépe, než když je hodnotil člověk v rámci dotazníku
    • ČEŠI V ZAJETÍ SOCIÁLNÍCH BUBLIN
    • WHO IS SHAPING YOUR AGENDA (šlerka)
      • antiimigrační hnutí na českém internetu
    • ANALYZING POLITICAL COMMUNICATION WITH DIGITAL TRACE DATA
      • hodně o twitteru
    • twitter vypouští data v rámci transparency report jednou ročně
      • studie mapující štěstí v průběhu třech let
        • co vede k velkému štěstí a velkému smutku
    • Sedláček: Digitální stopa: Konec empirické sociologie?
    • příště online a chce to určitě ntb, webscrapping