Jak wybierać kolumny?
Dane potrafią zawierać dużą liczbę kolumn. Ale często pracujemy tylko na kilku z nich. Usunięcie pozostałych spowoduje, że dane będą mniejsze i operacje na nich będą szybsze.
Inną zaletą wybierania jedynie potrzebnych kolumn jest łatwiejsze wyświetlanie danych. Zamiast pokazywać wszystkie, nawet nieistotne kolumny, często lepiej pokazać jedynie te istotne.
Funkcja select()
z pakietu dplyr
pozwala na wybór jednej lub wielu zmiennych ze źródła danych. Pierwszym argumentem jest źródło danych a kolejnymi są nazwy kolumn, które mają być wybrane.
Przykładowo, poniższa instrukcja wybiera jedynie rodzaj paliwa i rok produkcji.
library(dplyr)
library(PogromcyDanych)
tmp <- select(auta2012, Rodzaj.paliwa, Rok.produkcji)
head(tmp)
## Rodzaj.paliwa Rok.produkcji
## 1 olej napedowy (diesel) 2008
## 2 olej napedowy (diesel) 2008
## 3 olej napedowy (diesel) 2009
## 4 olej napedowy (diesel) 2003
## 5 olej napedowy (diesel) 2007
## 6 olej napedowy (diesel) 2004
Poza wskazywaniem wszystkich kolumn przez nazwę można również korzystać z operatora negacji -
(wszystkie kolumny poza wskazanymi) lub z funkcji matches()
, starts_with()
, ends_with()
pozwalających na definiowanie grup nazw kolumn spełniających określone warunki
tmp <- select(auta2012, starts_with("Cena"))
head(tmp)
## Cena Cena.w.PLN
## 1 49900 49900
## 2 88000 88000
## 3 86000 86000
## 4 25900 25900
## 5 55900 55900
## 6 45900 45900