Dawno, dawno temu, za górami, za lasami… No dobrze, wcale nie działo się to aż tak dawno, bo niecały rok temu. I wcale nie daleko, bo pisałam przy tym samym komputerze, w tym samym dokładnie pokoju. W każdym razie wspominając populację, opisywałam jak można podzielić cechy na jakościowe i ilościowe. Obiecałam też, że jeśli tylko zajdzie potrzeba, to temat będę rozwijać. Potrzeba nadeszła (mogę tylko powiedzieć, że jest częściowo związana z Latającym Potworem Spaghetti), w związku z tym zapraszam do czytania.
Pamiętacie podział cech na ciągłe, skokowe, porządkowe i jakościowe? Jest to podział stosowany w polskiej systematyce podręcznikowej. Tymczasem na wielu szkoleniach i kursach, szczególnie anglojęzycznych, podaje się inny podział – zaproponowany przez Stanleya Smitha Stevensa. Jest on o tyle istotny, że pomaga przy decyzji, czy mając daną cechę możemy wykorzystać konkretną metodę statystyczną.
Cechy zostały podzielone na jakościowe (nominalne oraz porządkowe) i ilościowe (interwałowe i proporcjonalne). Omówmy sobie po kolei wszystkie rodzaje cech, a potem zastanowimy się, czy wszystkie można analizować w ten sam sposób.
Zacznijmy od cech nominalnych (ang. „nominal”). Są to takie, które mają jednoznacznie określone możliwe wartości i nie wyróżniają się niczym więcej. Nie są zwykle wyrażone liczbowo (choć mogą być – zaraz podam przykład), nie można ich uszeregować od najmniejszej do największej czy od najgorszej do najlepszej. Po prostu informują o tym, jaką cechę coś posiada, nazywa ją i tyle. Najprostszym i chyba najczęściej wykorzystywanym przykładem cechy nominalnej w statystyce jest płeć. Człowiek jest kobietą albo mężczyzną. Każdego człowieka można przyporządkować do jednej z tych dwóch kategorii i nie da się określić, czy lepiej być mężczyzną czy kobietą (choć ja pozwolę sobie mieć własne zdanie na ten temat). Inne przykłady to kolor oczu, grupa krwi, marka samochodu, wyznawana religia. Jest też obiecany przykład liczbowy: numer startowy zawodnika na wyścigu. Teoretycznie mogłoby się wydawać, że jest to cecha ilościowa, w końcu mamy 1, 2, 3, 4, 5, 6, 7… Ale czy numer 5 jest lepszy od numeru 3? Dopiero po wyścigu będzie można ocenić, który zawodnik był lepszy i równie dobrze może to być osoba o pierwszym jak i o ostatnim numerze.
Jak pójdziemy krok dalej, to mamy do czynienia z cechami porządkowymi (ang. „ordinal”). Podobnie jak cechy nominalne, muszą one jednoznacznie identyfikować wartość cechy, ale równocześnie musimy mieć możliwość uporządkowania cech w rosnącej kolejności. Przykładem jest wykształcenie, poziom zadowolenia, poziom sympatii. Bardzo często takie pytania pojawiają się w ankietach: „Czy lubisz…?” I mamy odpowiedzi do wyboru „wcale nie”, „trochę nie”, „jest mi obojętne”, „trochę tak”, „bardzo tak”. Istotna jest informacja, że nie da się ocenić, czy różnica między „wcale nie” i „trochę nie” jest taka sama jak różnica pomiędzy „trochę nie” i „jest mi obojętne”. Nawet jeśli poszczególnym odpowiedziom przypiszemy wartości liczbowe „wcale nie”=1, „trochę nie”=2, „jest mi obojętne”=3, „trochę tak”=4, „bardzo tak”=5, to i tak nie możemy powiedzieć, że różnica między 2 a 1 jest taka sama, jak różnica pomiędzy 3 i 2. A to właśnie by było wymagane, żebyśmy mieli do czynienia z kolejnym „poziomem” w podziale cech.
A ten kolejny poziom, to cechy interwałowe (ang. „interval”). Posiadają one nie tylko te same właściwości co cechy porządkowe (czyli możliwość ułożenia w określonej kolejności), ale również dystans (interwał) pomiędzy wartościami musi być stały. W efekcie można porównywać odległości pomiędzy wartościami z różnych obszarów skali – jest to tzw. addytywność. Przykładem jest data kalendarzowa. Różnica (w liczbach dni) pomiędzy 1 grudnia i 5 grudnia 2001 jest taka sama jak różnica pomiędzy 1 i 5 grudnia 2015. Do klasycznych przykładów cech interwałowych zalicza się również temperaturę w stopniach Celsujsza oraz Fahrenheita.
Najbardziej „restrykcyjne” cechy są nazwane proporcjonalnymi (ang. „ratio”). Nie tylko muszą jednoznacznie identyfikować wartość, nie tylko muszą być możliwe do uporządkowania, nie tylko muszą mieć stały dystans między wartościami, ale muszą również posiadać znaczące zero i dawać możliwość mówienia o proporcjach. Do addytywności dodajemy jeszcze multiplikatywność. Co to oznacza? Cechą proporcjonalną jest na przykład wzrost. Jeśli rodzic ma 170 centymetrów wzrostu, a dziecko 85, to możemy powiedzieć, że rodzic jest dwa razy wyższy od dziecka. Nie mogliśmy tego zrobić z temperaturą w stopniach Celsjusza, bo trudno powiedzieć, że dwadzieścia stopni to dwa razy więcej niż dziesięć stopni i że jest dwa razy cieplej. A jeśli nawet byśmy próbowali, to ile razy cieplej jest, jak mamy +1 stopień w stosunku do -1 stopnia? Albo do zera? Tak więc do przykładów cech proporcjonalnych możemy zaliczyć takie, o których możemy powiedzieć, że coś jest dwa razy większe. Cechy proporcjonalne nie powinny dopuszczać istnienia wartości ujemnych. Czy słyszał ktoś o osobie o ujemnym wzroście? Wszystko zaczyna się od zera – stąd określenie „znaczące zero”. Oprócz wzrostu możemy do cech proporcjonalnych zaliczyć masę, temperaturę w stopniach Kelwina, czas trwania, długość…
Żeby było łatwo zapamiętać różnice, postanowiłam w taki bardzo skondensowany sposób przedstawić Wam podział cech wg Stevensa na poniższym rysunku:
Można zapytać, po co to całe zamieszanie i dlaczego w tak dziwny sposób zostały wprowadzone kryteria przynależności do poszczególnych cech. Chodzi o to, że część metod statystycznych odnosi się tylko do niektórych rodzajów cech i nie może być stosowana dla innych. Chociażby z tym czasem trwania. Możemy powiedzieć, że coś trwało godzinę. Jeśli trwa dwa razy dłużej, to wiemy, że chodzi o dwie godziny. Mogliśmy pomnożyć, bo mamy do czynienia z cechą proporcjonalną. Jeśli natomiast ktoś urodził się 5 grudnia, to co by oznaczało, gdybyśmy chcieli powiedzieć, że ktoś inny urodził się dwa razy później? Możemy powiedzieć, że miesiąc później albo miesiąc wcześniej (czyli dodać jakąś jednostkę czasu), ale nie posiadamy punktu zerowego w czasie, do którego byśmy mogli odnosić pozostałe wartości. Data kalendarzowa jest to cecha interwałowa, której mnożenie nie przysługuje. Tym bardziej, jeśli mamy do czynienia z cechami jakościowymi. Nie możemy dodawać ani odejmować płci. Nie pomnożymy koloru oczu. Wykształcenie wyższe nie jest lepsze od średniego o żadną określoną konkretną jednostkę. I nawet jeśli poszczególnym cechom przypiszemy wartości liczbowe (np. kolor oczu brązowy = 1, kolor oczu niebieski = 2, kolor oczu zielony = 3, kolor oczu szary = 4, inny kolor oczu = 5), to nie będziemy mogli ich mnożyć i dodawać w ten sposób, żeby miało to jakikolwiek sens statystyczny. Trzeba pamiętać, żeby metod statystycznych przeznaczonych tylko dla cech ilościowych nie stosować nawet dla uporządkowanych cech jakościowych (co niestety zdarza się w niektórych badaniach). Jak już wspominałam „lubię bardzo” i „lubię trochę” nie zawsze się różnią między sobą o tyle samo co „lubię trochę” i „jest mi obojętne”. Nawet jeśli od razu wprowadzimy skalę liczbową dla wartości porządkowych, to i tak w subiektywnej ocenie ankietowanego w skali 1-10 odległość pomiędzy 1 i 2 może być inna niż odległość pomiędzy 4 i 5.
A jeśli chodzi o statystykę? Modę mogliśmy „obliczyć ” dla wszystkich rodzajów cech. Medianę od poziomu cech porządkowych, a średnią dopiero dla ilościowych (zarówno proporcjonalnych jak i interwałowych). Co z kwartylami, odchyleniem standardowym, kurtozą? Możecie sami przeanalizować dotychczas poznane wskaźniki, a jeśli będą jakieś wątpliwości, to zapytać. A jak już będziemy się uczyć różnych metod analiz dla poszczególnych cech, to pamiętajcie, że jeśli jakąś metodę możemy zastosować dla cech nominalnych, to na pewno nie będzie błędem jej użycie dla cech proporcjonalnych (najwyżej otrzymany wynik będzie mniej dokładny niż gdybyśmy korzystali z lepszej metody). W drugą stronę to nie działa.
Odpowiadając na tytułowe pytanie. Płci mnożyć nie należy. Jest to cecha nominalna, a mnożymy cechy proporcjonalne.
A co ma to wszystko wspólnego z Latającym Potworem Spaghetti? Przekonacie się już w kolejnym odcinku.
mapa myśli: podział cech statystycznych
Droga Czytelniczko! Drogi Czytelniku!
Dziękuję, że przeczytałaś/przeczytałeś mój artykuł. Mam nadzieję, że spełnił Twoje oczekiwania. Jeśli chcesz się podzielić swoimi przemyśleniami, to napisz do mnie na adres [email protected] albo znajdź mnie na Facebooku.
Zapraszam Cię również do zapoznania się ze spisem treści (staram się go aktualizować, choć nie zawsze to wychodzi) – jeśli lubisz statystykę, to na pewno znajdziesz coś do poczytania.
A jeśli w ramach podziękowania za ten wpis zechcesz zaprosić mnie na przysłowiową “wirtualną kawę”, to będę niezwykle zobowiązana. Co prawda kawy raczej nie pijam, ale kubek dobrej herbaty – z prawdziwą przyjemnością. A ponieważ w każdy artykuł wsadzam mnóstwo serducha i swojego wysiłku, to tym bardziej poczuję się doceniona.
Pozdrawiam Cię serdecznie i życzę miłego dnia!
Krystyna Piątkowska