반응형
극단치 처리
표본 중 다른 대상들과 확연히 구분되는 통계적 관측치를 의미한다. 변수의 분포에서 비정상적으로 분포를 벗어난 값을 극단치(outlier)라고 한다. 예를 들면 나이의 분포를 나타낸 변수에서 -2 또는 300과 같은 비정상적인 수치가 보인다면 이는 극단치에 해당한다.
1. 범주형 변수의 극단치 처리
변수 <- subset(dataframe, 조건식)
2. 연속형 변수의 극단치 처리
연소득이나 구매금액 등 연속된 데이터는 산점도를 이용하여 전반적인 분포형태를 보면서 극단치를 확인하는 것이 좋다. plot() 함수나 summary() 함수를 사용한다. boxplot() 함수를 이용해 상자 그래프로 시각화하여 확인한다.
1
2
3
4
|
boxplot(df$변수) # 상자 그래프로 이상치 보기
boxplot.stats(df$변수)$out # 이상치 확인
out.val <- boxplot.stats(df$변수)$out # 이상치를 변수 out.val에 저장
df$변수[df$변수 %in% out.val] # %in% : 벡터 내 특정값 포함 여부 확인 연산자 사용
|
반응형