Matematyka dla liceum/Rachunek prawdopodobieństwa/Elementy statystyki opisowej

Z Wikibooks, biblioteki wolnych podręczników.
Skocz do: nawigacja, szukaj

Elementy statystyki opisowej[edytuj]

Statystyka - wstęp[edytuj]

Statystyka zajmuje się badaniem cech danego zbioru obiektów, tj. populacji.

Z uwagi na to, że jej liczebność może być znaczna i uniemożliwiać przeprowadzenie badania, zwykle trzeba ograniczyć się do podzbioru o mniejszej ilości, zwanego próbą.

Do przedstawienia danych można użyć jednej z trzech form: tabelki, diagramu lub wykresu. Można także wyróżnić dwa szczególne diagramy:

  • histogram liczebności – oparty jest na tabelce zawierającej: (na co wskazuje nazwa – "liczebność") poszczególne 'wyniki pomiaru' oraz 'liczebność danego wyniku' (np. rodzaje ocen i ilość każdej z nich).
  • histogram częstości – podobny, jednak zamiast liczebności występują częstości względne – liczebność jest zastąpiona jej stosunkiem do łącznej liczby wyników (np. ilość 3, gdy suma wyników wynosi 10, w przypadku tego diagramu zapisana jest jako 3/10).

Szereg rozdzielczy[edytuj]

Gdy liczba danych jest znaczna, można dokonać ich klasyfikacji, polegającej na określeniu klas, na które zostaną podzielone nasze dane. Wówczas klasy –czyli wyznaczone przedziały - będą w przybliżeniu reprezentować zgromadzone wartości. Jedną z metod klasyfikacji danych jest: określenie ilości klas, wyznaczenie długości każdej klasy, stworzenie klas i przyporządkowaniu im wartości.
1. liczba klas  K= 1 + 3,3 \cdot \log n \,

n – ilość danych

2. długość klasy   L=\frac{x_{max}-x_{min}}{K}

x_{max},\, x_{min} – największa i najmniejsza wartość

3. Tworzymy K przedziałów długości L, lewostronnie domkniętych i prawostronnie otwartych, tak aby pokryły wszystkie wartości.
4. Obliczamy liczebność klas (ile wartości należy do każdej klasy).

Dane przedstawione w postaci klas i ich liczebności nazywa się szeregiem rozdzielczym.
Można przyjąć, że histogram liczebności jest również przedstawieniem szeregu rozdzielczego (o jednowartościowych klasach).

Średnia[edytuj]

  • Gdy dane zawierają jedynie wartości, obliczamy średnią arytmetyczną:
\bar x = \frac{x_1 + x_2 + ...+ x_n}{n}
  • W przypadku danych zawierających wartości wraz z wagami, obliczamy średnią ważoną:
Sw = \frac{x_1w_1+x_2w_2+... +x_k w_k}{w_1+w_2+... +w_k}
w_i\,   -waga i-tej wartości
  • Średnią dla danych zawierających wartości i ich liczebność obliczamy jako średnią ważoną, podstawiając w miejscu wag liczebość danej wartości:
\bar x =\frac{x_1n_1 + x_2n_2+... +x_k n_k}{n_1+n_2+... +n_k}
n_i\,   -liczebność i-tej wartości
  • Średnią dla szeregu rozdzielczego liczymy również jako średnią ważoną, używając \dot x_i - środka i-tej klasy w miejscach wag:
\bar x = \frac{\dot x_1 n_1+ \dot x_2 n_2 + ... + \dot x_k n_k}{n_1+n_2+... + n_k}
\dot x_i   -środek i-tej klasy (tzn połowa z sumy wartości lewego i prawego końca i-tej klasy)

Mediana[edytuj]

Jeśli spróbujemy znaleźć wartość cechy najbardziej 'przeciętnej’, konkretnie – wartość środkowego elementu, będziemy szukać właśnie mediany.

  • Gdy dane zawierają jedynie wartości, medianą jest środkowy element w ciągu, uporządkowanym niemalejąco (1 3 5...), lub średnia dwóch środkowych elementów w ciągu:
Me = x_{(n+1)/2}\quad - dla nieparzystego n
lub
Me = \frac{x_{n/2} + x_{(n/2)+1}}{2} \quad - dla parzystego n
Zamiast wzorów wystarczy zapamiętać "medianą jest środkowa wartość w ciągu (uporządkowanym niemalejącym)", a jeśli n jest parzyste: "medianą jest średnia dwóch środkowych w ciągu".
Pozostaje znaleźć w ciągu medianę - jako wartość na pozycji Me.
  • Jeśli dane zawierają wartości wraz z ich liczebnością – postępujemy podobnie, jednak uwzględniamy w ciągu liczebność wyników (np. 1 3 5 5 7 7 7).
  • W przypadku szeregu rozdzielczego:
1. oblicza się dla kolejnych klas liczebność skumulowaną  f_i  (jest to suma liczebności od 1. do i-tej klasy),
2. określa się pozycję mediany wg wzoru (zmienionego): P_{Me} = \tfrac{n}{2} oraz okreśa, w której klasie ta pozycja się znajduje,
3. szacuje się medianę wg wzoru
Me \approx x_{Me}+ \frac{\tfrac{n}{2} - f_{(Me-1)}}{n_{Me}} L
x_{Me}\,  – lewy koniec tej klasy, do której należy mediana
f_{(Me-1)}\,  - liczebność skumulowana klasy poprzedzającej klasę z medianą
n_{Me}\,  –liczebność klasy ‘z medianą’
L\,  –długość klasy ‘z medianą’
Alternatywą jest użycie wzoru
Me \approx y_{Me} - \frac{\tfrac{n}{2} - (f-f_{Me})}{n_{Me}} L
y_{Me}\,  – analogicznie, prawy koniec klasy
f_{Me},\,f  – liczebność skumulowana klasy 'z medianą' oraz klasy ostatniej (tzn. f = n)

Odchylenie standardowe[edytuj]

Jest to wartość przybliżająca jak bardzo wartości odbiegają od średniej. Używanym terminem jest również wariancja, jest to odchylenie stand. do kwadratu. Brane pod uwagę będą różnice pomiędzy kolejnymi wartościami xi i średnią, podniesione do kwadratu, tzn. \left (x_1-\bar x \right ) ^2.

Wariancja jest średnią arytmetyczną tychże kwadratów różnic pomiędzy wartościami a średnią. Obliczyć ją można z odchylenia (podnosząc je do kwadratu), wobec czego ograniczymy się do wzoru dla tej drugiej wartości. Oznaczamy jako s^2.

Odchylenie standardowe

  • Dla danych zawierających tylko wartości lub wartości i ich liczności – używamy wzoru na średnią arytmetyczną kwadratów różnic, znajdującą się pod pierwiastkiem. W pierwszym przypadku, za n_i podstawiamy 1.
s = \sqrt{\frac{(x_1-\bar x)^2\ n_1 +...+ (x_k-\bar x)^2\ n_k}{n}}
n_i\,   -liczność danej klasy
\bar x   -średnia
  • W przypadku danych w postaci szerego rozdzielczego – używamy powyższego wzoru, w miejsce wartości x_i\, wstawiając środki klas  \dot x_i
s = \sqrt{\frac{(\dot x_1-\bar x)^2\ n_1 +...+ (\dot x_k-\bar x)^2\ n_k}{n}}
\dot x_i   -środek i-tej klasy


> Rozwiązane zadania