young
is this it
young
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • 웹_프론트엔드 (1)
      • 로드맵 챌린지 (73)
      • Svelte (2)
      • React (6)
      • JavaScript (8)
      • TypeScript (2)
      • HTML+CSS (5)
    • 웹_백엔드 (0)
      • Django (0)
    • 빅데이터 (33)
      • R (30)
      • Python (2)
    • 기타 (11)
      • git (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 구글맵api
  • 암호화
  • Regex
  • ssl
  • 태스크러너
  • bem
  • owasp
  • 인증
  • 공개키
  • 버전관리
  • css네이밍
  • css후처리기
  • ggplot
  • 웹보안
  • vcs
  • 대칭키
  • 보안취약점
  • form
  • rstudio지도정보
  • ggmap()

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
young

is this it

빅데이터/R

[R] 데이터 전처리 - 데이터 셋 보기

2019. 12. 4. 23:25
반응형

데이터 전처리 Data Pre-processing

: 원시 자료에 대하여 데이터 정제/가공을 수행하여 분석에 적합한 형태로 만드는 과정

 

데이터 정제:

 - 결측치(Missing Value)와 이상치(Outlier)에 대한 처리

1) Rational Approach

2) Listwise Deletion

3) Pairwise Deletion

4) 단순 대입법

5) 다중 대입법

 

이상치(Outlier)에 대한 처리:

1. 논리적으로 성립되지 않는 값

2. 상식적으로 용인되지 않는 값 - 상자그림 시각화 도구

 

데이터 가공: 정렬, 추가, 필터링, 집계, 병합

 

 

1. 데이터 셋 보기

데이터 분포 현황을 통해서 데이터의 유형과 결측치(NA) 그리고 극단치(Outlier) 등의 데이터를 발견할 수 있다. 주로 결측치는 응답자의 회피와 응답할  없는 상황(예를 들면 여성인 경우 군필 항목)에서 발생하며, 극단치는 데이터의 수집과 입력 과정에서 실수로 발생한다. 데이터 셋 전체를 볼 수 있는 함수는 print(dataset), View(dataset) 가 있다. 

 

2. 데이터 셋 구조 보기

분석에 필요한 데이터 셋의 구조를 확인하는 함수로 데이터 셋의 세부 정보를 조회할 수 있다.

함수 설명
attributes(dataset) 열 이름, 행 이름, 자료구조 정보 제공
str(dataset) 자료구조, 관측치와 변수의 개수 제공
names(dataset) 변수명(칼럼) 조회

 

3. 데이터 셋 조회

데이터프레임을 데이터 셋으로 구성한 경우, 특정 변수에 접근하기 위해서는 $ 기호를 사용하여 "객체$변수" 형식으로 이용한다. 

함수 설명
plot(dataset$변수) 산점도 형태로 변수를 조회
dataset["변수"] 특정 변수 조회
dataset[2] 2 번째 변수(칼럼) 조회
dataset[3, ] 3 번째 관찰치(행) 전체 조회
dataset[-c(1:10), 4] 1~10행 제외하고 4번째 변수(칼럼) 조회

 

반응형

'빅데이터 > R' 카테고리의 다른 글

[R] 데이터 전처리 - 코딩 변경  (0) 2019.12.08
[R] 데이터 전처리 - 결측치 처리 (제거 및 대체)  (0) 2019.12.08
[R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색  (0) 2019.12.03
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트  (0) 2019.12.02
[R] 데이터 시각화 - 도구 분류  (0) 2019.12.02
    '빅데이터/R' 카테고리의 다른 글
    • [R] 데이터 전처리 - 코딩 변경
    • [R] 데이터 전처리 - 결측치 처리 (제거 및 대체)
    • [R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색
    • [R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트
    young
    young

    티스토리툴바