반응형
데이터프레임은 R에서 가장 많이 사용되는 자료구조 중의 하나이다. 특히 리스트 자료구조보다 자료 처리가 효과적이기 때문에 데이터 프레임을 더 많이 사용한다.
데이터프레임 자료구조 특징:
- 데이터베이스의 테이블 구조와 유사하다.
- R에서 가장 많이 사용하는 자료구조이다.
- 칼럼 단위로 서로 다른 데이터의 저장이 가능하다.
- 리스트와 벡터의 혼합형으로 칼럼은 리스트, 칼럼 내의 데이터는 벡터 자료구조를 갖는다.
- 데이터프레임 생성 함수: data.frama(), read.table(), read.csv()
- 데이터프레임 자료 처리 함수: str(), ncol(), nrow(), apply(), summary(), subset()
- 데이터프레임 생성 방법: Vector, matrix, 파일(txt, excel, csv) 이용
data.frame 객체 생성
예시 | 결과 |
name <- c("KANG","PENG","KIM") age <- c(40, 10, 11) gender <- factor(c("M","N","F")) blood.type = factor(c("O","?","A")) person.info <- data.frame(name,age,gender,blood.type) person.info |
name age gender blood.type 1 KANG 40 M O 2 PENG 10 N ? 3 KIM 11 F A |
person2.info <- data.frame(name = c("KANG", "PENG","KIM"), age = c(40,10,11), gender = factor(c("M","N","F")), blood.type = factor (c("O", "?","A"))) |
data.frame 객체 자료 처리 함수
함수 | 설명 |
str(df) | 데이터프레임의 자료구조, 열수, 행수, 칼럼명을 보여줌. |
summary(df) |
요약 통계량 - 최소값(min), 최대값(max), 중위수(median), 평균(mean), 사분위수(1st, 3rd) 값을 요약하여 보여줌. |
apply(df, 행:1/열:2, 함수) | 데이터프레임 자료에 함수 적용 |
변수 <- subset(데이터프레임, 조건) | 데이터프레임의 부분 객체 만들기 |
matrix와 data.frame에서 자주 사용하는 함수
함수 | 설명 |
dim() | 관측치의 수와 칼럼(변수)의 수를 출력 |
nrow() | 행의 수 |
ncol() | 열의 수 |
head() | 앞에서 6개 행 출력(괄호 안에 ',숫자' 추가입력시 해당하는 숫자만큼의 행을 보여줌) |
tail() | 뒤에서 6개 행 출력(괄호 안에 ',숫자' 추가입력시 해당하는 숫자만큼의 행을 보여줌) |
str() | 자료 구조 확인 |
unique() | 중복 제거 후 출력 |
table() | 종류별 횟수 (팩터타입일 때만 사용 가능) |
colSums(df, [ , 1:3]) | 1열부터 3열까지 각 열의 합 출력 |
colMeans(df, [ , -5]) | 5열 제외하고 각 열의 평균값 출력 |
rowSums(df) | 각 행의 합 |
rowMeans(df) | 각 행의 평균값 |
t() | 전치행렬(행, 열 방향 전환) |
반응형
'빅데이터 > R' 카테고리의 다른 글
[R] 데이터 분석 절차와 데이터 종류 | 단일 변수(일변량) 자료 탐색 (0) | 2019.12.02 |
---|---|
[R] 로컬 파일 가져오기 (csv 파일 읽기 & 쓰기, 엑셀 xlsx 파일 읽기) (0) | 2019.12.01 |
[R] Matrix 매트릭스 자료 구조 (0) | 2019.12.01 |
[R] 집합연산 관련 내장함수 (0) | 2019.11.28 |
[R] 수학 관련 내장함수 (0) | 2019.11.28 |