ROC czyli Receiver Operating Characteristic to temat, który zaskoczył mnie, kiedy podczas pracy nad jednym z moich projektów czytałam na temat przeprowadzanych badań medycznych. Pojawił się wraz z pojęciem AUC. I tak jak mi się wydawało, że o macierzy błędów wiem już wszystko, tak nagle się okazało, że wcale tak nie jest i dużo muszę jeszcze się nauczyć. Zapraszam do wspólnej nauki razem ze mną.
Czytaj dalejMacierz błędów i co z tego wynika
No dobrze, klasyfikuję tekst za pomocą metod machine learning. Ale raz to działa, a raz nie działa. Pojawiają się błędy. Jak sprawdzić, czy te błędy są duże? Które kategorie są najczęściej niedoszacowane? A do których trafiają najczęściej nasze teksty? Jaka jest dokładność naszej klasyfikacji?
Z jak najdokładniejszą analizą jakości naszej klasyfikacji pomoże nam macierz błędów (inaczej zwana tablicą pomyłek, a po angielsku confusion matrix).
Czytaj dalejGrupa ucząca, walidacyjna i testowa
Cofnijmy się o jeden kroczek. Bo napisałam już ogólnie o machine learning. Napisałam również o klasyfikacji tekstu. Nie wspomniałam jednak ani słowem czym jest grupa ucząca, walidacyjna i testowa. A to przecież jedna z podstawowych informacji, które warto zrozumieć, kiedy zabieramy się za tematykę machine learning. Zwłaszcza, że przyda się nie tylko w przypadku klasyfikacji.
Czytaj dalejustawa o statystyce publicznej – pojęcia
Już jakiś czas temu opublikowałam wpis, w którym wyjaśniałam co to takiego jest GUS. Dzisiaj postanowiłam pójść o krok dalej i przeanalizować trochę dokładniej, o czym mówi ustawa o statystyce publicznej. Biorąc pod uwagę, że wszyscy bierzemy udział w spisach powszechnych, że wielu z nas podaje swoje dane w różnych urzędach – ustawa ta dotyczy każdego z nas. A jeśli ktoś chce pracować w ogranach statystyki publicznej – to dotyczy go jeszcze bardziej. Czytaj dalej
Światowy Dzień Statystyki
Świętowany raz na 5 lat. Od 20 października 2010. Światowy Dzień Statystyki w 2020 roku jest obchodzony pod hasłem „Connecting the world with data we can trust”. Na polskim logo widnieje napis: „Łączymy dzięki wiarygodnym danym”.
Czytaj dalej