Na ostatnich zajęciach przerabialiśmy listę 1 dotyczącą wizualizacji danych oraz obliczania prostych statystyk jak średnia czy mediana.

Proste statystyki

Średnia i odchylenie standardowe są najczęściej obliczanymi statystykami. Nie należy jednak na nich bezkrytycznie polegać. Zakłócenie zbioru danych obserwacją odstającą, jak w zadaniu 4, powoduje bardzo duże zmiany ich wartości. Ich odpornymi na obserwacje odstające odpowiednikami są mediana i rozstęp międzykwartylowy.

Współczynnik zmienności (CV) mierzy, podobnie jak odchylenie standardowe, zróżnicowanie rozkładu. Jego zaletą jest niezmienniczość na przeskalowanie (czyli np. na zmianę skali z kilogramów na gramy co w znaczący sposób zwiększa odchylenie standardowe).

Zadanie 6 pokazuje, że nie można bezkrytycznie przyjmować wartości obliczonych statystyk. Mimo równych średnich i odchyleń standardowych rozkłady są bardzo różne, co widać na histogramach.

Należy pamiętać, że zawsze trzeba zwizualizować dane. Najlepiej żeby był to pierwszy krok w ich analizie.

Wizualizacja

Najprostszą metodą wizualizacji jest narysowanie histogramu.

Na zajęciach skonstruowaliśmy następujący histogram dla danych z zadania 4:

plot of chunk unnamed-chunk-2

Liczba przedziałów, które wybierzemy nie jest na szytwno ustalona. Warto jest spróbować kilku możliwych podziałów. Jeśli liczba ta będzie zbyt mała, różnice w częstościach będą rozmyte.

plot of chunk unnamed-chunk-3

Jeżeli z kolei będzie zbyt duża, możemy odnieść mylne wrażenie, że dane pochodzą z rozkładu wielomodalnego.

plot of chunk unnamed-chunk-4

Jednym z możliwych wyborów jest wzięcie liczby przedziałów równej pierwiastkowi z liczby obserwacji (w naszym wypadku jest to 6):

plot of chunk unnamed-chunk-5

Rozważany na zajęciach diagram łodygi i liścia jest klasyczną i bardzo użyteczną metodą przy ręcznej wizualizacji danych. Może być bardzo podstawą do narysowania histogramu, czy też ogólniej, do prostej analizy danych (obliczanie kwartyli, identyfikacja obserwacji odstających). Oczywiście obecnie lepiej posługiwać się komputerem niż rysować takie diagramy.

Wykres pudełkowy

Inną metodą służącą do wizualizacji danych jest wykres pudełkowy (ang. Boxplot).

Dla danych z zadaniu drugiego mamy:

plot of chunk unnamed-chunk-7

Ponieważ pomiędzy Q3 a medianą oraz Q1 a medianą znajduje się po 25% obserwacji to możemy wnioskować, że nasz rozkład jest asymetryczny nieco rozciągnięty w lewo, ale zawiera jednocześnie wartości bardzo duże.

Alternatywna wersja wykresu pudełkowego pokazuje nie tylko ogólne własności rozkładu, ale i pomaga zidentyfikować obserwacje odstające. Tym razem ,,wąsy" na wykresie mają końce nie w minimum i maksimum a w, odpowiednio, punktach Q3 + 1.5 IQR oraz Q1- 1.5 IQR. Wybór stałej 1.5 jest ,,regułą kciuka“, a jej użycie wynika z własności rozkładu normalnego.

plot of chunk unnamed-chunk-8

Dzięki wykresowi odkryliśmy odstającą obserwację 470. Przed dalszą analizą danych trzeba zawsze sprawdzić czy nie jest ona błędną daną.