Dyskusja Wikibooks:Statystyki

Z Wikibooks, biblioteki wolnych podręczników.
Przejdź do nawigacji Przejdź do wyszukiwania

Bawiłem się ostatnio w pisanie botów dla Wikipedii i podliczyłem, ile tak naprawdę mamy podręczników. Oto, co wypłuł bot: Dla porównania Niemcy:

statystyka dla http://de.wikibooks.org/w/index.php?title=Special%3AAllpages&from=&namespace=0
odwiedzam Esperanto:_Kapitel_44
odwiedzam Kochbuch/Schoko-Bananen-Kuchen
odwiedzam Mathematik:_Statistik:_Tabelle_der_Chi-Quadrat-Verteilung
odwiedzam Traditionsrechtschreibung:_K
===
wszystkich podrecznikow: 771
20 najwiekszych podrecznikow:
Kochbuch: 376
LaTeX-Wörterbuch: 200
Mathematik: 199
Blender Dokumentation: 134
Traktorenlexikon: 125
Websiteentwicklung: 101
Cocktails: 87
Mambo: 84
Japanisch: 76
Gambas: 75
Portugiesisch: 75
Linux-Kompendium: 66
Esperanto: 53
Englisch: 47
Traditionsrechtschreibung: 42
CPlusPlus-Programmierung: 39
Ukrainisch: 39
Fruchtbringendes Wörterbuch: 37
FreeDOS-Kompendium: 35
Umgangsformen: 35 

Jak widać, mój sposób liczenia podaje mniejszą liczbę podręczników niż Specjalna:Statistics, ale myślę, że sposób liczenia jest prawidłowy - biorę listę wszystkich stron, omijając przestrzenie nazw Wikipedia: Dyskusja: etc, biorę też pod uwagę różne konwencje nazewnictwa. Można zauważyć, że mamy dość małe podręczniki - od 50 miejsca zaczynały się już podręczniki jednomodułowe. Powodem rozdrobnienia (200 podręczników jednomodułowych!) jest prawdopodobnie Książka kucharska, gdzie artykuły siedzą sobie w głównej przestrzeni. Napisałem na stronie tego podręcznika prośbę o pomoc w przenoszeniu artykułów - może nie jest to priorytetowe, ale wyklaruje trochę sytuację.

Jeśli ktoś byłby zainteresowany, mogę upublicznić paskudny i raczej nieciekawy kod źródłowy bota. --Derbeth 23:30, 4 paź 2005 (UTC)

Jeszcze jedna porcja statystyk, tym razem według rozmiaru podręcznika. Gratulacje dla OGRE, które w miesiąc wskoczyło na szóste miejsce! --Derbeth 18:57, 5 paź 2005 (UTC)

Uaktualniłem obie statystyki, uwzględniając książkę kucharską i wyrzucając redirekty. Liczba podręczników spadła w ten sposób poniżej 200. --Derbeth 23:09, 7 paź 2005 (UTC)
Jeszcze jeden update po dłuższej przerwie. Nie widzę komentarzy, czy tylko ja lubię bawić się statytykami? ;-) --Derbeth talk 14:01, 5 mar 2006 (UTC)
Zaskoczyło mnie, że generalnie zmniejszyła się objętość tych "topowych" podręczników. Np. podręczniki do japońskiego i chińskiego wg. statystyk zmniejszyły swoją objętość, w przypadku jap. z 703275 bajtów na 409583 bajtów, chiński z 139330 bajtów na 58724!. Zmalały także gry fabularne, ale tam chyba coś było kasowane, programowanie:c, mikrobiologia, debian itp. W nowej statystyce zabrakło indonezyjskiego, choć ostatnio był prawie dwukrotnie większy niż obecny teraz na ostatnim miejscu kaszubski, zabrakło piwowarstwa, które też było większe niż na przykład GnuPG. Coś tam chyba jednak zwiększyło swoją objętość wg. statystyk (napewno OGRE), ale bardziej zastanawia mnie dlaczego tamte zmalały, mimo, iż chyba nie usuwaliśmy z nich zbyt wielu informacji. Czy może się gdzieś mylę i jednak rzeczywiście zniknęła część informacji? A może błąd w zliczaniu bajtów? Bo aż ciężko w to uwierzyć... Może zamiast kasować poprzednie statystyki dodawać info (w tabelce) o bieżących (podobnie jest na Wikisłowniku z rankingiem języków) + może jakieś wykresy, wtedy można się podjąć próbę analizy tego co się dzieje, na podstawie jednego zbioru danych jest zdecydowanie zbyt trudno. Sposób wykonywania pomiarów też jest bardzo istotny, np. ze względu na istniejącą (u mnie przynajmniej) niepewność co do wyników.--Warszk  14:57, 5 mar 2006 (UTC)
Zmiany w "objętości" wynikają ze zmiany metodologii, mianowicie wcześniej brałem kod HTML a teraz liczę znaki w wikikodzie (co moim zdaniem jest bardziej sprawiedliwe i miarodajne). Natomiast liczba rozdziałów jest prawidłowa, nie liczy redirectów, natomiast rozdziałów takich, jak w Matematyka dla liceum (wklejających jako szablon inne rozdziały) nie jestem w stanie wyeliminować w liczeniu rozdziałów.
Stare wyniki mam na dysku, jak nazbiera się tego więcej będę mógł zrobić jakieś wykresy, na razie danych nie jest zbyt wiele. W każdym razie, zwracam uwagę na miejsca nowych książek: Szachy i Organiczna technika studiowania, które ostro wkroczyły do rankingu. --Derbeth talk 18:06, 5 mar 2006 (UTC)
Dzięki. Teraz rozumiem skąd te zmiany :-) Może stworzymy jakąs osobną stronę, na której będziemy prezentować te statystyki? Mam na mysli zarówno tabelki jak i wykresy, kiedy już powstaną. Warszk  18:29, 5 mar 2006 (UTC)
Zgodnie z sugestią utworzyłem osobną stronę. Stworzyłem też arkusz Excela z danymi z tego i poprzedniego miesiąca i zastanawiam się, co z nim zrobić. --Derbeth talk 09:19, 7 kwi 2006 (UTC)
Z danymi z dwóch miesięcy nic nie zrobimy raczej, do analizy się jeszcze nie nadaje bo to trochę za mało. Nie ma rady, trzeba jeszcze poczekać. Napewno trzeba zmienić jakiś sposób prezentacji danych, bo teraz ciężko je porównywać. Może zrobić np. tabelę zawierającą: nazwę podręcznika; liczbę modułów/rozdziałów; przyrost w bajtach; procentowy przyrost objętości (w stosunku do poprzedniego stanu) - choć w sumie te informacje pokażą nam to co już raczej wiemy (czyli aktywność poszczególnych podręczników). Poza tym przydałyby się tabele z informacjami, który obecnie podręcznik jest największy, podręcznik z największą liczbą rozdziałów, itp. Raczej na jakąś zaawansowaną analizę statystyczną nie ma co liczyć, ale na przyszłość takie informacje mogą się nam jeszcze przydać. A może zmobilizują autorów poszczególnych podręczników do dalszej pracy? ;) Warszk  13:35, 7 kwi 2006 (UTC)
Wrzuciłem roboczy arkusz na [1]. --Derbeth talk 18:23, 7 kwi 2006 (UTC)

Myślę, że potrzebna byłaby jeszcze informacja o średniej wielkości strony dla poszczególnych podręczników (najprościej to podzielić po prostu wielkość podręcznika w bajtach przez liczbę stron). Mimo, że podręcznik do japońskiego jest ciągle na pierwszym miejscu to ma względnie mniej informacji "na stronie" (coś około 3900 bajtów) w porównaniu do podręcznika języka C (średnio ok. 5500 bajtów). Taka informacja pokazuje (no może nie do końca) stopień zaawansowania prac nad stronami (przyjmując, że strony z dużą ilością tekstu są bardziej zaawansowane niż te z małą). Zawsze to jakaś nowa informacja dla kolejnego "rankingu", a przy okazji dzięki niej zmieni się trochę układ w tabeli...

Kilka spostrzeżeń bez analizy ;-) Perl faq zmniejszyło zdecydowanie liczbę stron. Pod tym względem wyjątkowo wyglądają C i Książka kucharska, reszta raczej śpi lub powoli zwiększa liczbę stron. Trzy największe podręczniki - japoński, gry fabularne, czyli głównie podręcznik do Utopii i programowanie:PHP ciągle na topie, choć powolutku zbliża się do tego ostatniego podręcznik do C. Patrząc na tabelę "wielkości podręczników" to wypadł nam z niej kaszubski, wskoczył natomiast chiński (to "dzięki" nieprzetłumaczonym jeszcze kopiom z angielskiej wiki - swoją drogą spory problem według mnie). Ogólnie to przybyło nam 62 strony i 9 nowych podręczników od ostatniego badania. Oby tak dalej :-) Warszk  07:33, 6 maj 2006 (UTC)

Nie wiem, czy kryterium średniej wielkości strony jest najlepsze - bo dużo zależy od tego, na jak drobne rozdziały podzieli się podręcznik. Oprócz tego, podręcznik do C ma oprócz dużych rozdziałów część z opisem funkcji - które to opisy nie przekraczają 1,5 KB, co powoduje, że średnia jest niemiarodajna.
Zaktualizowałem też arkusz Excela. Dziwi mnie trochę nagły spadek OGRE, nie zauważyłem, by było tam kasowane dużo treści, zastanawiam się, czy to nie błąd mojego bota. --Derbeth talk 07:46, 6 maj 2006 (UTC)
Spadło, ponieważ zrezygnowałem z opisu API i usunąłem stronę zawierającą ok. 70kb tekstu. --Piotr K. 10:18, 6 maj 2006 (UTC)