Statystyka nie jest bardzo trudna. Ale jak każda dziedzina wiedzy wymaga, żeby się z nią zaprzyjaźnić i dobrze zrozumieć. I jak każda dziedzina wiedzy ma swoje pułapki, które bardziej doświadczone osoby widzą na pierwszy rzut oka, a początkujący łatwo mogą w nie wpaść. Dzisiaj przedstawiam kilka podpowiedzi, na co warto zwrócić uwagę podczas swojej przygody ze statystyką. Co trzeba zrobić, żeby nie wpaść w pułapki statystyczne?
Czytaj dalejTag: swoistość
Czułość a swoistość – dlaczego musimy się tym martwić?
Po przerwie wracam do tematu macierzy błędów oraz do czułości (TPR, ang. sensitivity) i swoistości (TNR, ang. specifity). Dlaczego czułość i swoistość są tak ważne? Dlaczego wciąż o tym piszę począwszy od tematu macierzy błędów, przez ROC, AUC i współczynnik Youdena? Dlaczego powtarzam, że zwiększając jedno, wpływamy na drugie i że szukanie punktu odcięcia – kiedy uznamy kogoś za chorego (albo badany obiekt za jabłko) to bardzo poważna decyzja? Już Wam mówię, dlaczego.
Czytaj dalejMacierz błędów i co z tego wynika
No dobrze, klasyfikuję tekst za pomocą metod machine learning. Ale raz to działa, a raz nie działa. Pojawiają się błędy. Jak sprawdzić, czy te błędy są duże? Które kategorie są najczęściej niedoszacowane? A do których trafiają najczęściej nasze teksty? Jaka jest dokładność naszej klasyfikacji?
Z jak najdokładniejszą analizą jakości naszej klasyfikacji pomoże nam macierz błędów (inaczej zwana tablicą pomyłek, a po angielsku confusion matrix).
Czytaj dalej