Indeks Jaccarda – to chyba kolejne pojęcie, które nie mówi zbyt dużo większości czytelników. Mnie zauroczył najbardziej jego początek – alpejskie łąki, kwiaty. Potrafię sobie wybrazić taki obrazek i tego „naukowca”, który zamiast zachwycać się pięknem przyrody, postanawia przeanalizować podobieństwo pomiędzy wspomnianymi łąkami. Jaki odsetek gatunków z jednej lokalizacji powtarza się na innej? Od tego się zaczęło, a potem było wykorzystywane do analizy zmian przebiegu koryta rzeki czy do porównań różnych tekstów. Aktualnie Indeks Jaccarda ma swoje zastosowanie w NLP więc warto jak najlepiej go poznać, żeby móc wykorzystać, kiedy pracujemy z danymi tekstowymi.
Tag: NLP
Klasyfikacja tekstu, czyli „text classification”
Machine Learning, o którym napisałam ostatnio to temat rzeka. Ale ponieważ pierwszy krok w tej rzece już uczyniłam, to pora na kolejny. Dzisiaj postanowiłam rzucić się na głęboką wodę i opisać nie tylko klasyfikację metodami uczenia maszynowego, ale pójść dalej i opowiedzieć, jak algorytmy radzą sobie z tak trudnym tematem jak klasyfikacja tekstu.
Czytaj dalej
