Jak czyścić i przetwarzać dane?
Program R
jest wyposażony w olbrzymią liczbę funkcji do przetwarzania danych.
I w tym przypadku słowo olbrzymią
nie jest nadużyciem, tych funkcji są dosłownie tysiące.
Niektóre dane wymagają bardzo specjalistycznego przetwarzania (np. pliki dźwiękowe, zdjęcia, obrazy video), ale w przypadku przetwarzania obowiązuje zasada 80/20 (tzw. zasada Pareta, od nazwiska Vilfreda Pareta), która w tym przypadku oznacza, że aby efektywnie wykonywać większość (nie wszystkie, ale np. 80% wszystkich możliwych) przetwarzań wystarczy znać jedynie część z wszystkich funkcji.
Hadley Wickham przygotował dwa pakiety, dplyr
i tidyr
które w sumie udostępniają jedynie kilka funkcji, jednak te funkcje można na tyle elastycznie łączyć, że w sumie pozwalają one na wykonanie większości typowych operacji na danych.
Funkcje w tych pakietach nazwał czasownikami a proces analizy danych przyrównał do konstrukcji zdania. Podstawowymi czasownikami są
filter()
- wybieranie wierszy,select()
- wybieranie kolumn,arrange()
- sortowanie wierszy,group_by()
- określanie grup,summarise()
- liczenie agregatów,gather() / spread()
- przechodzenie pomiędzy postaciami wąską a szeroką w danych.
Te podstawowe czasowniki są opisane w kolejnych podrozdziałach.
Więcej funkcji pozwalających na eksploracje danych przedstawionych jest w ściągawce opracowanej przez RStudio.