Współczynnik Youdena, jak połączyć czułość i swoistość i znaleźć punkt odcięcia

mapa myśli współczynnik Youdena indeks Youdena

Współczynnik Youdena (indeks Youdena), nazwany od swojego twórcy Williama J. Youdena, jest miarą jakości testu diagnostycznego. Jest obliczany jako suma czułości (True Positive Rate, TPR) i specyficzności (True Negative Rate, TNR) pomniejszona o 1. Współczynnik ten pomaga znaleźć punkt odcięcia pomiędzy obiektami pozytywnymi i negatywnymi. Maksymalizuje zdolność do jednoczesnego zminimalizowania błędów dla obu klas (pozytywnej i negatywnej).

Kim był Youden?

Youden żył w latach 1900-1971 i był amerykańskim statystykiem (aczkolwiek urodzonym w Australii). Stworzył co najmniej trzy nowe techniki statystyczne: indeks do oceny testów diagnostycznych (1950), wykres dwupróbkowy do graficznej diagnostyki wyników testów międzylaboratoryjnych (1959) oraz test sumy rang ekstremalnych dla wartości odstających (1963), opracowany w celu sprawdzenia istotności statystycznej laboratoriów odstających w testach współpracy między laboratoriami. Dzisiaj skupimy się na tym pierwszym temacie, czyli na indeksie zwanym współczynnikiem Youdena.

ROC – przypomnienie tematu i dalsze obliczenia dla współczynnika Youdena

Żeby dobrze zrozumieć niniejszy artykuł, należy dobrze zapoznać się z tematem ROC. Jeśli nie wiecie, czym jest ta krzywa, to zapraszam do przeczytania artykułu, który o niej opowiada.

Jak pisałam o ROC, to podawałam przykład klasyfikacji jabłek i pomidorów. Analizowałam cztery różne klasyfikatory, które odpowiednio ustawiały jabłka i pomidory w kolejności od największego prawdopodobieństwa bycia jabłkiem po lewej. Liczyłam następnie TPR i FPR, żeby przedstawić krzywą ROC na wykresie. Żeby obliczyć współczynnik Youdena, oprócz TPR potrzebujemy również TNR.

J = TPR + TNR -1

Myślę, że najlepiej będzie, jak do naszych wcześniejszych obliczeń dodamy również TNR i wartość współczynnika Youdena (J). Poniżej przykłady, które były już analizowane w artykule o ROC.

Zobaczmy, jak wygląda współczynnik Youdena dla pierwszego przykładu. Tego, który ustawiał odpowiednio w kolejności: jabłko, jabłko, pomidor, jabłko, pomidor, jabłko, pomidor, pomidor.

TPR, FPR, TNR, współczynnik Youdena

Jak widać współczynnik Youdena najpierw przyjmuje wartość 0. Następnie rośnie i spada na zmianę przyjmując wartości 1/4 i 1/2 aż do ostatniego punktu, gdzie znowu spada do 0.

W przykładzie drugim mieliśmy na zmianę zaklasyfikowane obiekty jako jabłko i pomidor. Współczynnik przyjmuje wartości albo 0 albo 1/4.

TPR, FPR, TNR, współczynnik Youdena

Jeśli klasyfikator idealnie sortuje wpierw jabłka, a potem pomidory, to współczynnik Youdena będzie rósł od 0 do 1, po czym znowu spadnie do 0. Punkt, w którym wynosi 1 jest najlepszym punktem do odcięcia pomiędzy jabłkami a pomidorami.

TPR, FPR, TNR, współczynnik Youdena

Współczynnik Youdena może przyjmować również wartości ujemne, jeśli mamy do czynienia z klasyfikatorem, który działa gorzej niż losowe przypisanie kategorii. Przypominam jednak, że zawsze możemy odwrócić przypisanie obiektów (ustalić, że skoro błędnie przypisuje, że pomidor jest bardziej jabłeczny niż jabłko, to jeśli klasyfikuje coś jako jabłko, to jednak my uznajemy, że jest to pomidor). Wtedy nie będziemy mieć ujemnych wartości, a znowu dodatnie.

TPR, FPR, TNR, współczynnik Youdena

Współczynnik Youdena a krzywa ROC

Jak to wygląda na naszych wykresach ROC?

Pamiętacie, że krzywa ROC dla najgorszego klasyfikatora wygląda tak:

Wszystko, co znajduje się na lewo od tej krzywej, ma większe AUC i pozwala lepiej klasyfikować obiekty. To co znajduje się po prawej, ma mniejsze AUC i gorzej klasyfikuje obiekty, ale możemy odwrócić wynik klasyfikatora (czyli powiedzieć, że jeśli zaklasyfikowało jako pomidora, to ma być jabłkiem i odwrotnie) i wtedy znajdujemy się z powrotem po lewej stronie tej lini.

Współczynnik Youdena to wartość, która mówi o odległości danego punktu (na krzywej ROC) od tej prostej przechodzącej przez punkt (0, 0) i (1, 1).

Po lewej stronie prostej będziemy mieć współczynniki Youdena większe od 0, po prawej ujemne.

Narysujmy współczynnik Youdena…

Popatrzcie, jak to wygląda, jak sobie do naszego pierwszego przykładu jabłkowo-pomidorowego dodamy na wykresie współczynnik Youdena:

współczynnik Youdena na wykresie

W tym przypadku mamy aż trzy punkty, dla których współczynnik Youdena wynosi 1/2 i jest to najwyższa wartość. W zależności od tego, na ile bardziej zależy nam na unikaniu FP i FN, powinniśmy wybrać jeden z tych trzech punktów na miejsce odcięcia. Przypomnijmy sobie tabelkę.

TPR, FPR, TNR, współczynnik Youdena

Pierwszy z punktów o wartości 1/2 to ten po pierwszych dwóch jabłkach i przed pierwszym pomidorem. Jeśli nie chcemy, żeby jakikolwiek pomidor został zaklasyfikowany jako jabłko, to powinniśmy tu się zatrzymać. Na tym etapie nie mamy żadnego FP, ale mamy dwa FN.

Drugi punkt o wartości 1/2 to ten, gdzie mamy prawidłowo zaklasyfikowane 3 jabłka i 3 pomidory. Na tym etapie mamy jedno FP i jedno FN. Jedno jabłko zostało zaklasyfikowane jako pomidor i jeden pomidor został uznany za jabłko.

Trzeci punkt, w którym współczynnik Youdena wynosi 1/2 to ten etap, gdzie mamy prawidłowo zaklasyfikowane wszystkie 4 jabłka, nie ma żadnego FN. Ale w tym punkcie tylko dwa pomidory są zaklasyfikowane jako pomidory, pozostałe dwa zostały uzane za jabłko (FP).

Który z tych trzech punktów jest najlepszy? Tak jak wspomniałam we wcześniejszych artykułach – wszystko zależy od tego, co jest dla nas najważniejsze. Czy chcemy minimalizować FP, czy FN czy jedno i drugie. Być może wcale nie szukamy też punktu o najwyższym współczynniku Youdena, a taki, który będzie wystarczająco wysoki i wystarczająco ograniczy FP albo FN (bo przecież nie zawsze krzywa wygląda tak symetrycznie, jak w analizowanych przykładzie).

Kiedy i gdzie używany jest współczynnik Youdena

Poniżej przedstawiam kilka przykładów zastosowania współczynnika Youdena:

  1. Ocena skuteczności testu diagnostycznego: Współczynnik Youdena używa się do oceny skuteczności testu diagnostycznego w rozpoznawaniu danej choroby lub stanu. Im wyższy współczynnik Youdena, tym lepsza zdolność testu do rozróżniania między osobami z daną chorobą a osobami bez niej.
  2. Wybór punktu odcięcia: W przypadku testów diagnostycznych, które generują wyniki w postaci ciągłej, współczynnik Youdena może być używany do wyboru optymalnego punktu odcięcia, który najlepiej rozdzieli wyniki pozytywne od negatywnych.
  3. Porównywanie różnych testów: Współczynnik Youdena można użyć do porównywania skuteczności różnych testów diagnostycznych. Porównanie wartości współczynnika Youdena dla różnych testów może pomóc w wyborze najlepszego testu do konkretnego zastosowania.
  4. Analiza badań epidemiologicznych: Współczynnik Youdena może być również stosowany do analizy badań epidemiologicznych, aby ocenić skuteczność czynnika ryzyka lub diagnostycznego w identyfikacji osób narażonych na dany stan lub chorobę.

Współczynnik Youdena jest wszechstronnym narzędziem, które znajduje zastosowanie w wielu dziedzinach medycyny i nauk zdrowotnych. Na co musimy uważać? Nie uwzględnia on kosztów związanych z błędną klasyfikacją. Czyli kosztów leczenia osób fałszywie pozytywnych oraz opóźnionego rozpoznania fałszywie negatywnych. I tutaj musimy sami zdecydować, czy współczynnik Youdena jest dobrym kryterium do wyboru punktu odcięcia. A nawet jeśli wybierzemy inne kryterium, to i tak warto wiedzieć, że taki współczynnik istnieje i o czym nam mówi.


Artykuł ten jest kontynuacją nieoficjalnego cyklu na tematy powiązane z Machine Learningiem, klasyfikacją oraz z macierzą błędów. Mam nadzieję, że ułatwiam Wam zrozumienie tych pojęć i dzięki temu lektura bardziej ambitnych artykułów naukowych staje się łatwiejsza i przyjemniejsza. Taki jest mój cel. Dajcie znać, czy rzeczywiście pomaga. Możecie łapać mnie na facebooku albo napisać maila na adres [email protected].

Zapraszam też do lektury spisu treści i wybrania sobie innych ciekawych tekstów do przeczytania. Niektóre z nich są mi naprawdę bliskie. A Wy? Macie jakieś ulubione?

Jeśli uważacie, że to co piszę jest wartościowe i chcielibyście w zamian podarować mi „kawkę” (herbatę, czekoladę, soczek…), to macie taką możliwość.

Postaw mi kawę na buycoffee.to

Pozdrawiam Was serdecznie! Życzę Wam miłego dnia! Dbajcie o siebie!

Krystyna Piątkowska