Mitų griovimas

Vaidotas Zemlys-Balevičius true
11-04-2021

Viešoje erdvėje sklando įvairių gandų apie mano veiklą susijusią su COVID19, tai visai neblogai prie progos į tuos gandus įnešti šiek tiek realybės.

Visa su COVID19 veikla yra mano laisvalaikio užsiėmimas. Paprastai per dieną neskiriu jam daugiau nei valandos ir pagrindinė mano veikla yra Lietuvos statistikos departamento viešai skelbiamų duomenų stebėsena.

Stebėsena

Stebėsenos rezultatai yra trys puslapiai ir 4 su tuo susijusios repozitorijos:

COVID-10 statistika ir modeliai puslapis

Šiame puslapyje pateikiama pagrindiniai COVID19 rodikliai. Puslapio pradinis tikslas buvo kasdienių surinktų COVID19 duomenų pavaizdavimas. Epidemijos pradžioje buvo skelbiami tik vienos dienos duomenys ir jokios duomenų istorijos nebuvo. Duomenys nebuvo pateikiami patogiu formatu ir todėl juos reikėjo rašyti atskirą kodą skirtą duomenų ištraukimui iš HTML puslapių. Ilgą laiką vienintelis viešai prieinamas istorinių Lietuvos COVID19 atvejų duomenų šaltinis buvo šis puslapis.

Nuo pat puslapio sukūrimo pradžios duomenys buvo atnaujinami kas dieną ir talpinami https://github.com/mpiktas/covid19lt repozitorijoje kartu su kodu kuris jį parsiunčia.

Iš pradžių duomenų parsiuntimo kodas buvo paleidžiamas rankomis, po to per cronjob procesą besisukantį ant mano laptopo, bet galų gale buvo paleistas CI/CD procesas https://github.com/mpiktas/covid19lt repozitorijoje. Ši repozitorija yra Github laikomos repozitorijos veidrodis.

Pats puslapis yra statinis puslapis sugeneruojamas automatiškai kiekvieną dieną. Jo generavimui naudojamas R paketas distill. Sugeneruotas puslapis yra talpinamas naudojant Github Pages.

Puslapyje pateikiami įvairūs viešų COVID19 duomenų bei papildomų išvestinių dydžių pjūviai ir vizualizacijos.

Repozitorijoje data kataloge yra padėti kas dieną atnaujinami duomenys. Duomenų struktūra padaryta panaši į atviro kodo projekto COVID-19 Data Hub. Lietuvos duomenys šiame projekte yra imami iš šios repozitorijos.

Daugiausiai laiko prižiūrint šitą puslapį užima prisitaikymas prie Lietuvos statistikos departamento duomenų pokyčių (jie pakankamai reti), bei naujų kilusių idėjų realizavimas. Kai kurios idėjos yra talpinamos kaip R notebookai repozitorijos notebooks kataloge. Paprastai jeigu idėja verta dėmesio tai ji persikelia į pagrindinį puslapį.

COVID-19 Lietuvos regionuose puslapis

Šis puslapis yra skirtas pagrindinių COVID-19 rodiklių regionuose vizualizacijai. Duomenys yra agreguoti pagal apskritis ir savivaldybes ir visi padaryti pagal vieną ir tą patį šabloną. Tai iš tikrųjų yra ne vienas puslapis, o 73: 60 savivaldybių, 10 apskričių, visos Lietuvos ir dvi apžvalginės lentelės.

Puslapio kodas yra Gitlab repozitorijoje: https://gitlab.com/vzemlys/covid19lt-region. Yra CI/CD jobas kuris kas dieną sugeneruoja tuos 73 puslapius su atnaujintais duomenimis pagrindinėje repozitorijoje. Puslapis yra hostinamas Google Cloud. Yra pastatytas load balanceris kuris rodo statinį HTML servinamą iš bucketo. Load balancinimas tokiam puslapiui yra tikrai nereikalingas, bet man labai patiko Google Cloud paprastumas, viską lengva susikonfigūruoti, gauni iš karto IP ir nereikia rūpintis HTTPS sertifikatu. Aišku tas malonumas kainuoja 18 eurų per mėnesį, bet už tai neskauda galvos.

Visi puslapiai sugeneruoti naudojant flexdashboard paketą.

Epidemijos dienoraštis

Į šį puslapį dedamos vienkartinės analizės. Kaip ir pagrindinis puslapis naudojamas distill R paketas, tik formatas yra blogo, o ne įprasto puslapio. Visos analizės yra atkartojamos ir jų kodas yra repozitorijoje https://gitlab.com/vzemlys/data-blog. Sugeneruotas puslapis yra hostinamas Gitlab Pages ir yra paprastas CI/CD procesas kuris patalpina sugeneruotą puslapį su kiekvienu repozitorijos atnaujinimu.

Ekspertų tarybos

2020 metų lapkritį buvau pakviestas prisijungti prie Prezidento sveikatos ekspertų tarybos (SET), o 2020 metų gruodį buvau pakviestas prisijungti prie Nepriklausomų ekspertų patariamosios tarybos prie Lietuvos Respublikos Vyriausybės (NEPT). Iš abiejų tarybų pasitraukiau 2021 metų balandį. Pagrindinis darbas tarybose buvo dalyvavimas posėdžiuose, įvairių klausimų svarstymas ir mokslinės literatūros peržiūra. Teko prisidėti prie kai kurių prezentacijų ar pasiūlymų. Į tarybas buvau pakviestas dėl savo kvalifikacijos duomenų analizės srityje tai šiais klausimais daugiausiai ir pasisakydavau. Visos mano prezentacijos ir pasiūlymai yra atitinkamų tarybų puslapiuose: SET, NEPT

Motyvacija

Aš esu atvirų duomenų entuziastas. Manau kad atviri duomenys gali teikti ir teikia daug naudos visuomenei ir kuo jų daugiau tuo yra geriau. Be to, kad atviri duomenys leidžia susidaryti nepriklausomą vaizdą kas realiai vyksta, jie skatina visuomenę labiau domėtis duomenų analize apskritai.

Įvairia atvirų duomenų analize aš esu užsiėmęs ir anksčiau ir tai galima pamatyti peržiūrėjus mano github repozitorijas github.com/mpiktas ir github.com/vzemlys. Galima išskirti tris projektus, 2012 metų Seimo rinkimų hakatoną, mano nenusisekusį blogą ir Vilniaus darželių duomenų analizę.

Už visą savo veiklą su atvirais duomenimis (COVID19 įskaitant) nesu gavęs jokio piniginio atlygio. Visi mano puslapiai yra be reklamų, neturiu Patreon ir niekur nenurodytas mano sąskaitos numeris į kurį prašyčiau pervesti pinigų. Neimdamas pinigų aš neturiu jokių įsipareigojimų ir todėl galiu pats kontroliuoti kiek laiko galiu skirti.

Žiniasklaida

Su žiniasklaida nesu inicijavęs nei vieno pokalbio. Priklausomai nuo turimo laiko stengiuosi atsakyti į visus man užduodamus žurnalistų klausimus. Didesnė dalis mano duodamų interviu trunka 5-10 minučių ir ne visada viskas yra parodoma.

Profesinė veikla

Mano CV yra LinkedIn. Ilgą laiką derinau akademinę veiklą su darbu kompanijoje, bet nuo 2015 metų apsisprendžiau mažiau laiko skirti akademinei veiklai, o nuo 2020 metais išėjau iš darbo Vilniaus Universitete.

Dabartinėje darbo vietoje Euromonitor International viena ar kitokia forma dirbau nuo 2003 metų. 2018 metais tapau naujai įkurto duomenų mokslo skyriaus vienu iš vadovų ir šias pareigas toliau ir užimu. Pagrindinis produktas prie kurio sukūrimo prisidėjo duomenų mokslų skyrius yra VIA. VIA yra internetinės prekybos stebėsenos portalas, kiekvieną dieną iš 1500+ interneto prekybos puslapių iš 40 šalių yra parsiunčiama apie 70 milijonų skirtingų produktų kainų ir visa šita informacija standartizuojama taip kad Euromonitor klientai galėtų priimti įvairius sprendimus.

Mano darbinė veikla yra vienintelis mano pajamų šaltinis, tai natūralu, kad visas mano pagrindinis dėmesys yra skiriamas jai.