Wygładzanie danych Definicja i przykład |
PELSON - CZUJĘ DO DZIŚ feat. ELDO, DIOX, PROD. TORT, CUTY DJ B
Spisu treści:
Co to jest:
Wygładzanie danych to technika statystyczna, która polega na usuwaniu wartości odstających z zestawu danych w celu wzór bardziej widoczny.
Jak to działa (Przykład):
Załóżmy na przykład, że uniwersytet analizuje dane dotyczące przestępstw w ciągu ostatnich 10 lat. Liczba przestępstw z użyciem przemocy wygląda mniej więcej tak:
Jak widać, większość uniwersytetów doświadcza mniej niż 15 przestępstw rocznie. Jednak w 2006 i 2007 roku doświadczył 44 z powodu eksperymentalnego obowiązku raportowania przez publiczny zespół bezpieczeństwa publicznego uniwersytetu. Eksperyment sprawozdawczyni zmienił definicję brutalnej zbrodni w celu uwzględnienia kradzieży każdego rodzaju w ciągu tych lat, co spowodowało duży skok liczby "brutalnych" przestępstw na terenie kampusu. Jeśli uwzględnimy te lata w średniej - to znaczy, jeśli przeprowadzimy pewne wygładzanie danych - uniwersytet doświadczał średnio około 19 brutalnych przestępstw rocznie. Ale jeśli wyjdziemy z tych lat, możemy zauważyć, że realistyczna średnia to 13 gwałtownych przestępstw rocznie - różnica o 32%.
Dlaczego to ma znaczenie:
Istnieje wiele sposobów na wygładzenie danych, w tym za pomocą przenoszenia średnie i algorytmy. Chodzi o to, że wygładzanie danych sprawia, że wzorce są bardziej widoczne, a tym samym pomaga w prognozowaniu zmian cen akcji, trendów klientów lub innych informacji biznesowych. Jednak wygładzanie danych może przeoczyć kluczowe informacje lub sprawić, że ważne fakty będą mniej widoczne; innymi słowy, "zaokrąglanie krawędzi" danych może przecenić niektóre dane i zignorować inne dane.