반응형
데이터 전처리 Data Pre-processing
: 원시 자료에 대하여 데이터 정제/가공을 수행하여 분석에 적합한 형태로 만드는 과정
데이터 정제:
- 결측치(Missing Value)와 이상치(Outlier)에 대한 처리
1) Rational Approach
2) Listwise Deletion
3) Pairwise Deletion
4) 단순 대입법
5) 다중 대입법
이상치(Outlier)에 대한 처리:
1. 논리적으로 성립되지 않는 값
2. 상식적으로 용인되지 않는 값 - 상자그림 시각화 도구
데이터 가공: 정렬, 추가, 필터링, 집계, 병합
1. 데이터 셋 보기
데이터 분포 현황을 통해서 데이터의 유형과 결측치(NA) 그리고 극단치(Outlier) 등의 데이터를 발견할 수 있다. 주로 결측치는 응답자의 회피와 응답할 없는 상황(예를 들면 여성인 경우 군필 항목)에서 발생하며, 극단치는 데이터의 수집과 입력 과정에서 실수로 발생한다. 데이터 셋 전체를 볼 수 있는 함수는 print(dataset), View(dataset) 가 있다.
2. 데이터 셋 구조 보기
분석에 필요한 데이터 셋의 구조를 확인하는 함수로 데이터 셋의 세부 정보를 조회할 수 있다.
함수 | 설명 |
attributes(dataset) | 열 이름, 행 이름, 자료구조 정보 제공 |
str(dataset) | 자료구조, 관측치와 변수의 개수 제공 |
names(dataset) | 변수명(칼럼) 조회 |
3. 데이터 셋 조회
데이터프레임을 데이터 셋으로 구성한 경우, 특정 변수에 접근하기 위해서는 $ 기호를 사용하여 "객체$변수" 형식으로 이용한다.
함수 | 설명 |
plot(dataset$변수) | 산점도 형태로 변수를 조회 |
dataset["변수"] | 특정 변수 조회 |
dataset[2] | 2 번째 변수(칼럼) 조회 |
dataset[3, ] | 3 번째 관찰치(행) 전체 조회 |
dataset[-c(1:10), 4] | 1~10행 제외하고 4번째 변수(칼럼) 조회 |
반응형
'빅데이터 > R' 카테고리의 다른 글
[R] 데이터 전처리 - 코딩 변경 (0) | 2019.12.08 |
---|---|
[R] 데이터 전처리 - 결측치 처리 (제거 및 대체) (0) | 2019.12.08 |
[R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색 (0) | 2019.12.03 |
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트 (0) | 2019.12.02 |
[R] 데이터 시각화 - 도구 분류 (0) | 2019.12.02 |