Statystyka matematyczna/Pobieranie próby

Z Wikibooks, biblioteki wolnych podręczników.
Statystyka matematyczna
Statystyka matematyczna
Pobieranie próby

Licencja
Autor: Mirosław Makowiecki
Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie
Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl
Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami.
Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania.
Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń.
Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność.


Następny rozdział: Metoda największej wiarygodności. Poprzedni rozdział: Momenty statystyczne w działaniu.

Podręcznik: Statystyka matematyczna.

Próbą nazywamy skończony zespół doświadczeń wykonanych w celu wyznaczenia kształtu poszukiwanego rozkładu.

Estymatory, wyznaczenie parametru λ w wyniku doświadczenia[edytuj]

Dla danej próby, aby estymować parametr λ (jakiś parametr, który możemy wyznaczyć przez doświadczenie) należy przeprowadzić nieskończoną liczbę pomiarów, wówczas wynik jest dokładny. Jednak liczba pomiarów może być jedynie skończona, wtedy pojawia się problem estymacji parametrów.

Zdefiniujmy estymator zależny od niezależnych parametrów uzyskanych w wyniku doświadczenia, tzn. x1, x2,..., xn:

(6.1)

Estymator nazywamy nieobciążonym, jeśli niezależnie od ilości przeprowadzonych doświadczeń, jej wartość oczekiwana jest równa estymowanemu parametrowi λ:

 dla każdego parametru n
(6.2)

Jeśli wariancja estymatora (6.1) znika dla dowolnie dużej próby, to estymator nazywamy zgodnym, co piszemy wzorem:

(6.3)

Związki pomiędzy wariancjami pojedynczego pomiaru a średniej arytmetycznej[edytuj]

Średnią arytmetyczną wszystkich pomiarów w danej próbie określamy wedle jej definicji (1.1) jako sumę n pomiarów w uzyskanych w tej próbie przez ich liczbę:

(6.4)

Policzmy wartość oczekiwaną wartości średniej danej próby wykorzystując, że wartość oczekiwana sumy argumentów jest równa sumie ich wartości oczekiwanych wedle wzoru podanego w punkcie (5.3), która jest napisana wedle obliczeń:

(6.5)

Jako że rozkłady w poszczególnych pomiarów w danym doświadczeniu są jednakowe, wtedy wartość oczekiwana danego pomiaru w doświadczeniu jest równa:

(6.6)

Zatem wartość oczekiwana wartości oczekiwanej (6.4) jest równa wartości oczekiwanej danego pomiaru w doświadczeniu, zatem jeśli mamy bardzo dużo prób, to wartość oczekiwana wartości średniej jak udowodnimy, dąży do wartości oczekiwanej średniej arytmetycznej danego pomiaru, czyli przestawiana jest według:

(6.7)

Wyznaczmy błąd średniej arytmetycznej uzyskanych wyników w wyników doświadczenia (6.4) i sprawdzimy, czy to odchylenie standardowe wraz zwiększającą się ilością pomiarów w doświadczeniu powoduje malenie tejże wielkości, także dla nieskończenie dużej ilości doświadczeń, to odchylenie zaczyna dążyć do zera, co przedstawiamy:

(6.8)

Z definicji wariacji jako wartości oczekiwanej z liczby jako odchylenia wartości średniej (6.4) od wartości oczekiwanej podniesionej do kwadratu i z twierdzenia na wartościach oczekiwanych (5.3) możemy wyznaczyć, tą właśnie wielkość:


(6.9)

We wzorze (6.9) w drugim członie w liczniku wykorzystany został fakt, że kowariancja dla dwóch różnych zmiennych niezależnych jest równa zero, zatem na podstawie tego warunku dostajemy fakt.

(6.10)

A więc otrzymujemy bardzo ważną zależność z wyprowadzenia (6.10), które przepiszemy dla przejrzystości wykładu i jak się przekonamy, że wariancja średniej arytmetycznej zapisanej jako kwadrat odchylenia tejże średniej od wartości oczekiwanej, jest ona odwrotnie proporcjonalna do ilości pomiarów w danym doświadczeniu:

(6.11)

Gdy liczba pomiarów dąży do nieskończoności, wówczas odchylenie standardowe przyjmuje wartość dążącą do zera według wzoru (6.11), a korzystając z wiadomości o granicach, wnioskujemy, że (6.8) jest jednak prawdą. Obierzmy teraz estymator, który jest wartością średnią kwadratów odchyleń wartości uzyskanych w doświadczeniu xi od wartości średniej wszystkich pomiarów w danym doświadczeniu:

(6.12)

We wzorze wykorzystamy fakt na podstawie wartości średniej dla trzeciego wyrazy w sumie w mianowniku (6.12):

Na podstawie powyższego ostatniego faktu i definicji wariancji jako wartości oczekiwanej kwadratu odchylenia zmiennej losowej od wartości oczekiwanej dla wartości średniej n pomiarów wartość oczekiwana estymatora (6.12) (s')2, korzystając przy tym ze wzoru na wariancję średniej arytmetyczne w zależności od wariancji pojedynczego pomiaru, przyjmuje postać:


(6.13)

Na podstawie obliczeń przeprowadzonych w punkcje (6.13) przepisujemy końcowy wniosek, że wartość oczekiwana estymatora (6.12) jest:

(6.14)

Czyli ten nasz estymator (6.12) jest estymatorem obciążonym. Określmy inny estymator, który będzie wynikał z poprzedniego i względem wyniku na wartość oczekiwaną starego estymatora (6.14) określmy nowy estymator zdefiniowany:

(6.15)

Korzystając z definicji estymatora s' (6.12) i wyniku (6.14), możemy policzyć wartość oczekiwaną nowego estymatora s2 (6.15) wedle:

(6.16)

Równość σ2(s)=E(s2) wynika bezpośrednio z definicji nowego estymatora (6.15) i obliczeń (6.16). Zachodzi równość σ2(s)=E(s2)=s2 dla nieskończonej ilości pomiarów, co w praktyce dla dużej ilości pomiarów zachodzi z dobrym przybliżeniem, tzn. σ2(s)=E(s2)≈ s2. Doszliśmy do wniosku, że najlepiej jest wyliczać średni błąd pomiarowy bardzo dużej ilości danych doświadczalnych według:

(6.17)

Odchylenie standardowe średniej arytmetycznej w zależności od odchyleń kwadratowych poszczególnych wyników, korzystając przy czym ze wzoru (6.11), mówiącej o związku wariancji średniej arytmetycznej z wariancją pomiaru, i ze wzoru (6.11) mówiący coś od odchyleniu standardowym pojedynczego pomiaru, zatem to odchylenie tejże średniej arytmetycznej (6.4) jest napisane:

(6.18)

Pobieranie próby z rozkładów cząstkowych[edytuj]

Gdy doświadczenie składa się z prób - nie zawsze tak się dzieje, że wynik do wyznaczenia jakieś wielkości określamy względem tylko jednej próby. Czasem mamy pewną liczbę prób, a w każdej próbie jest też duża liczba doświadczeń.

Zwykle numer próby numerujemy jaki pierwszy wskaźnik przez x, a numer doświadczenia w próbie jako drugi wskaźnik zmiennej x, i w rezultacie dany pomiar w danej próbie oznaczamy xij, zatem rozpisując kolejno pomiary dla m prób:

Próba 1:
Próba 2:
Próba m:

Trzeba zaznaczyć, że dla ogólności: m≠ n i najlepiej, by liczba pomiarów w j-tej próbie była bardzo duża, tzn. musi zachodzić n>>1. Mając średnie arytmetyczne z uzyskiwanych prób oraz ich odchylenia standardowe, można wyznaczyć całkowitą wartość średnią i odchylenia standardowe średniej arytmetycznej dla całej serii prób.

Prawdopodobieństwo uzyskania wyniku przy n próbach[edytuj]

Całkowita gęstość prawdopodobieństwo uzyskania w n próbach danego wyniku x jest równe sumie po wszystkich próbach o numerach "k" względem wyrazów , które z definicji prawdopodobieństwa warunkowego są iloczynami gęstości prawdopodobieństwa uzyskania wyniku w próbie k, czyli fk(x) przez prawdopodobieństwo danej próby pk, która zależy od całkowitej liczby wszystkich pomiarów we wszystkich próbach i od ilości pomiarów w próbie o numerze "k":

(6.19)

Należy pamiętać, że gęstości prawdopodobieństwa fk(x) rządzące w danej próbie, dla różnych prób mogą być one różne, ale nie muszą być. Podobnie ilość doświadczeń w danej próbie może być różna, ale tym samym może być różne pk, ale też nie musi być tak oczywiście.

Dystrybuanta w rozkładzie cząstkowym i w próbach[edytuj]

Rozważając tylko k-tą próbę, dystrybuantę dla jednej zmiennej gęstości prawdopodobieństwa można wyznaczyć (patrz definicja: (2.7)) jako całkę od nieskończoności do wartości x, gdy funkcją podcałkową jest gęstości prawdopodobieństwa, która jest całkowana względem zmiennej losowej t.

(6.20)

Natomiast dla n-prób znając jakie jest prawdopodobieństwo pojedynczej próby o numerze k oraz z twierdzenia o prawdopodobieństwie warunkowych, że gęstość prawdopodobieństwa uzyskania wyników mniejszych niż x jest sumą iloczynu gęstości prawdopodobieństwa uzyskania danego wyniku z pewnego przedziału dla wartości mniejszych niż x pomnożonej przez prawdopodobieństwo opisujące daną próbę pk:

(6.21)

Przy wyprowadzeniu wzoru (6.21), korzystaliśmy ze wzoru na całkowitą dystrybuantę (2.7) i wyznaczaliśmy ją dla n-prób w punkcie (6.21) oraz wiedząc, że całkowita gęstość prawdopodobieństwa rządzące n-próbami jest napisane wedle wzoru (6.19).

Średnia arytmetyczna i wartość oczekiwana przy n próbach[edytuj]

Wartość oczekiwaną (1.1) z j-tej próby z uzyskanych wyników pomiarów obliczamy jako iloraz sumy wszystkich wyników pomiarów uzyskanych w tej próbie przez liczbę wszystkich pomiarów w tej samej próbie:

(6.22)
  • gdzie xij jest to pomiar i-ty próbie dla pomiaru w tej próbie o numerze j.

Wiemy jednak, że pomiary mogą się powtarzać z prawdopodobieństwem pjk w próbie j-tej, zatem średnia ważona (1.4) (wartość oczekiwana w próbie) jest dla j-tej próby jest wyrażona jako suma prawdopodobieństwa uzyskania pomiaru xjk przez prawdopodobieństwo tego pomiaru wspomniane wcześniej i ta średnia ważona jest:

(6.23)

Dla m prób wartość średnia wszystkich wyników uzyskanych we wszystkich próbach, w rezultacie można przedstawić tą wielkość podobnie dla wzoru (6.23) dla pomiaru w próbie, tylko w tym przypadku mamy do czynienia ze średnią arytmetyczną danej próby pomiarów uzyskanych z prawdopodobieństwem pj, jest przedstawiona:

(6.24)

We wzorze (6.24) skorzystaliśmy z faktu, że suma wszystkich prawdopodobieństw uzyskania z każdej z próby z osobna jest równa jeden, co udowodnimy we wzorze poniżej w punkcie (6.27).

Prawdopodobieństwo k-tej próby jest określone jako iloraz ilości wyników pomiarów w danej próbie nk w próbie o numerze k przez liczbę wszystkich pomiarów w n próbach.

(6.25)

Oczywiste jest, że suma wszystkich pomiarów danych prób jest równa liczbie wszystkich pomiarów we wszystkich próbach:

(6.26)

Ze wzoru (6.26) po podzieleniu go przez liczbę wszystkich pomiarów we wszystkich próbach n i korzystając z definicji prawdopodobieństwa k-tej próby (6.25) możemy napisać tożsamość, którą wcześniej z korzystaliśmy z niego.

(6.27)
  • co zostało wykorzystane w wyrażeniu (6.24)

Wzór przedstawiający wartość oczekiwaną pomiaru uzyskiwanej ze wszystkich prób zapisujemy jak dla wzoru (6.23), które można zapisać jako sumę, ale za pomocą wartości oczekiwanych dla każdej próby z osobna:

(6.28)

Średnia arytmetyczna dla funkcji złożonej H(x) jest napisana podobnie jak dla wzoru (6.28), ale zamiast wartości oczekiwanej E(xk) jest wartość oczekiwana E(H(xk).

(6.29)

Gdy dla poszczególnych prób występują zmienne losowe dyskretne, przy wykorzystaniu wzoru (6.23) na średnią arytmetyczną w próbie, wtedy średnia arytmetyczna wszystkich wyników we wszystkich próbach wyrażamy za pomocą prawdopodobieństwa uzyskania danej próby (6.25) i za pomocą prawdopodobieństwa uzyskania danego wyniku w próbie pki wyniku xki

(6.30)

Gdy dla poszczególnych prób uzyskujemy zmienne losowe ciągłe, co jest w zupełności spełnione dla bardzo dużych ilości pomiarów, i przy tym wykorzystując wzór (6.19) na gęstość uzyskania wyniku we wszystkich próbach fr(x) otrzymujemy ten sam wzór co (6.28), ale na innej drodze wyprowadzenia.

(6.31)

Wariancja i kwadrat z odchylenia standardowego dla n prób[edytuj]

Policzmy, jaka jest wariancja pomiaru wyniku (nie średniej z pomiarów w i-tej próbie) dla n prób przeprowadzonych przez różne zespoły, znając rozkłady prawdopodobieństwa uzyskanych pomiarów we wszystkich próbach fk(x) (ogólnie rozkłady dla różnych prób nie muszą być jednakowe), znając także prawdopodobieństwo k-tej próby pk (6.25), a także wartości oczekiwania uzyskanych wyników dla każdej próby z osobna E(xk) i wartości oczekiwanej dla wszystkich próby razem policzone na podstawie wzoru (6.31). Zatem według ogólnej definicji wariancji (2.12), jako drugiego momentu statystycznego można napisać wariancję pomiaru dla zmiennej typu ciągłego "x" wszystkich pomiarów we wszystkich próbach razem wziętych:


(6.32)

Ponieważ w ostatni składniku w nawiasie klamrowym wyraz w sumie (6.32) znika, ze względu na pierwszy moment statystyczny (3.13), który jest zawsze równy zerowy dla pomiarów występujących dla k-tej próby.

(6.33)

A więc po ważnym wyznaczeniu ostatniego składnika w sumie wewnątrz nawiasu klamrowego i jak udowodniliśmy, że jest on zawsze równy zero, zatem na podstawie tych wniosków wariancję pomiaru dla wszystkich prób napisanej wedle (6.32) możemy dokończyć obliczenia na tą wielkość idąc od obliczeń wspomnianych wcześniej:

(6.34)
gdzie:
  • jest to wariancja uzyskanych pomiarów w k-tej próbie.

Wyznaczmy wariancję wszystkich prób średniej arytmetycznej od wartości oczekiwanej wykorzystując definicję wariancji, a także definicję wartości średniej uzyskanych pomiarów we wszystkich próbach (6.24) i prawdopodobieństwa, że dana próba jest z prawdopodobieństwem pk:




(6.35)
  • gdzie jest to wariancja średniej w próbie o numerze k-tej.

Widzimy, że wzór na wariancję średniej arytmetycznej uzyskanych wyników pomiarów we wszystkich próbach jest sumą iloczynu kwadratu prawdopodobieństwa k-tej próby pk (6.25) przez wariancję uzyskania średniej arytmetycznej w próbie o numerze "k".