Matematyka dla liceum/Rachunek prawdopodobieństwa/Elementy statystyki opisowej

Z Wikibooks, biblioteki wolnych podręczników.

Matematyka dla liceum

Pojęcie prawdopodobieństwa

Spis treści

Prawdopodobieństwo warunkowe


Spis treści

[edytuj] Elementy statystyki opisowej

[edytuj] Statystyka - wstęp

Statystyka zajmuje się badaniem cech danego zbioru obiektów, tj. populacji.

Z uwagi na to, że jej liczebność może być znaczna i uniemożliwiać przeprowadzenie badania, zwykle trzeba ograniczyć się do podzbioru o mniejszej ilości, zwanego próbą.

Do przedstawienia danych można użyć jednej z trzech form: tabelki, diagramu lub wykresu. Można także wyróżnić dwa szczególne diagramy:

  • histogram liczebności – oparty jest na tabelce zawierającej: (na co wskazuje nazwa – "liczebność") poszczególne 'wyniki pomiaru' oraz 'liczebność danego wyniku' (np. rodzaje ocen i ilość każdej z nich).
  • histogram częstości – podobny, jednak zamiast liczebności występują częstości względne – liczebność jest zastąpiona jej stosunkiem do łącznej liczby wyników (np. ilość 3, gdy suma wyników wynosi 10, w przypadku tego diagramu zapisana jest jako 3/10).

[edytuj] Szereg rozdzielczy

Gdy ilość danych jest znaczna, można dokonać ich klasyfikacji, polegającej na określeniu klas, na które zostaną podzielone nasze dane. Wówczas klasy –czyli wyznaczone przedziały - będą w przybliżeniu reprezentować zgromadzone wartości. Jedną z metod klasyfikacji danych jest: określenie ilości klas, wyznaczenie długości każdej klasy, stworzenie klas i przyporządkowaniu im wartości.
1. liczba klas  K= 1 + 3,3 \cdot \log n \,

n – ilość danych

2. długość klasy   L=\frac{x_{max}-x_{min}}{K}

x_{max},\, x_{min} – największa i najmniejsza wartość

3. Tworzymy K przedziałów długości L, lewostronnie domkniętych i prawostronnie otwartych, tak aby pokryły wszystkie wartości.
4. Obliczamy liczebność klas (ile wartości należy do każdej klasy).

Dane przedstawione w postaci klas i ich liczebności nazywa się szeregiem rozdzielczym.
Można przyjąć, że histogram liczebności jest również przedstawieniem szeregu rozdzielczego (o jednowartościowych klasach).

[edytuj] Średnia

  • Gdy dane zawierają jedynie wartości, obliczamy średnią arytmetyczną:
\bar x = \frac{x_1 + x_2 + ...+ x_n}{n}
  • W przypadku danych zawierających wartości wraz z wagami, obliczamy średnią ważoną:
Sw = \frac{x_1w_1+x_2w_2+... +x_k w_k}{n_1+n_2+... +n_k}
w_i\,   -waga i-tej wartości
  • Średnią dla danych zawierających wartości i ich liczebność obliczamy jako średnią ważoną, podstawiając w miejscu wag liczebość danej wartości:
\bar x =\frac{x_1n_1 + x_2n_2+... +x_k n_k}{n_1+n_2+... +n_k}
n_i\,   -liczebność i-tej wartości
  • Średnią dla szeregu rozdzielczego liczymy również jako średnią ważoną, używając \dot x_i - środka i-tej klasy w miejscach wag:
\bar x = \frac{\dot x_1 n_1+ \dot x_2 n_2 + ... + \dot x_k n_k}{n_1+n_2+... + n_k}
\dot x_i   -środek i-tej klasy (tzn połowa z sumy wartości lewego i prawego końca i-tej klasy)

[edytuj] Mediana

Jeśli spróbujemy znaleźć wartość cechy najbardziej 'przeciętnej’, konkretnie – wartość środkowego elementu, będziemy szukać właśnie mediany.

  • Gdy dane zawierają jedynie wartości, medianą jest środkowy element w ciągu, uporządkowanym niemalejąco (1 3 5...), lub suma dwóch środkowych elementów w ciągu:
Me = x_{(n+1)/2}\quad - dla nieparzystego n
lub
Me = \frac{x_{n/2} + x_{(n/2)+1}}{2} \quad - dla parzystego n
Zamiast wzorów wystarczy zapamiętać "medianą jest środkowa wartość w ciągu (uporządkowanym niemalejącym)", a jeśli n jest parzyste: "medianą jest średnia dwóch środkowych w ciągu".
Pozostaje znaleźć w ciągu medianę - jako wartość na pozycji Me.
  • Jeśli dane zawierają wartości wraz z ich liczebnością – postępujemy podobnie, jednak uwzględniamy w ciągu liczebność wyników (np. 1 3 5 5 7 7 7).
  • W przypadku szeregu rozdzielczego:
1. oblicza się dla kolejnych klas liczebność skumulowaną  fi  (jest to suma liczebności od 1. do i-tej klasy),
2. określa się pozycję mediany wg wzoru (zmienionego): P_{Me} = \tfrac{n}{2} oraz okreśa, w której klasie ta pozycja się znajduje,
3. szacuje się medianę wg wzoru
Me \approx x_{Me}+ \frac{\tfrac{n}{2} - f_{(Me-1)}}{n_{Me}} L
x_{Me}\,  – lewy koniec tej klasy, do której należy mediana
f_{(Me-1)}\,  - liczebność skumulowana klasy poprzedzającej klasę z medianą
n_{Me}\,  –liczebność klasy ‘z medianą’
L\,  –długość klasy ‘z medianą’
Alternatywą jest użycie wzoru
Me \approx y_{Me} - \frac{\tfrac{n}{2} - (f-f_{Me})}{n_{Me}} L
y_{Me}\,  – analogicznie, prawy koniec klasy
f_{Me},\,f  – liczebność skumulowana klasy 'z medianą' oraz klasy ostatniej (tzn. f = n)

[edytuj] Odchylenie standardowe

Jest to wartość przybliżająca jak bardzo wartości odbiegają od średniej. Używanym terminem jest również wariancja, jest to odchylenie stand. do kwadratu. Brane pod uwagę będą różnice pomiędzy kolejnymi wartościami xi i średnią, podniesione do kwadratu, tzn. \left (x_1-\bar x \right ) ^2.

Wariancja jest średnią arytmetyczną tychże kwadratów różnic pomiędzy wartościami a średnią. Obliczyć ją można z odchylenia (podnosząc je do kwadratu), wobec czego ograniczymy się do wzoru dla tej drugiej wartości. Oznaczamy jako s2.

Odchylenie standardowe

  • Dla danych zawierających tylko wartości lub wartości i ich liczności – używamy wzoru na średnią arytmetyczną kwadratów różnic, znajdującą się pod pierwiastkiem. W pierwszym przypadku, za ni podstawiamy 1.
s = \sqrt{\frac{(x_1-\bar x)^2\ n_1 +...+ (x_k-\bar x)^2\ n_k}{n}}
n_i\,   -liczność danej klasy
\bar x   -średnia
  • W przypadku danych w postaci szerego rozdzielczego – używamy powyższego wzoru, w miejsce wartości x_i\, wstawiając środki klas  \dot x_i
s = \sqrt{\frac{(\dot x_1-\bar x)^2\ n_1 +...+ (\dot x_k-\bar x)^2\ n_k}{n}}
\dot x_i   -środek i-tej klasy


> Rozwiązane zadania


« 1 2 3 4 5 6 7 8 9 10 »


Utwórz książkę