빅데이터

    [R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색

    데이터 분석 목적: 현상을 파악하고 이면을 찾음 데이터 분석 절차 : 문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서 정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용 데이터 종류: 1. 특성에 따른 분류 1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음) 1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 ) 2. 변수 개수에 의한 분류 2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용 2.2 다변량 (..

    [R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트

    이산변수(Discrete Quantitative Data)는 정수 단위로 나누어 측정할 수 있는 변수를 의미한다. 이러한 변수들은 막대 차트, 점 차트, 원 차트 등을 이용하여 시각화하면 효과적이다. 막대 차트 시각화 - 세로 1 2 3 4 5 barplot(vector, ylim=c(0,600), col=rainbow(8), xlab = "x축 속성", ylab = "y축 속성", main = "그래프 제목") ylim: y축 값 범위 col = rainbow(8): 8가지 무지개 색상 main: 차트 제목 막대 차트 시각화 - 가로 1 2 3 4 5 barplot(vector, ylim=c(0,600), horiz=T, col=rainbow(8), xlab = "x축 속성", ylab = "y축 속성..

    [R] 데이터 시각화 - 도구 분류

    데이터 분석의 도입부에서 전체적인 데이터의 구조를 살펴보기 위해서 시각화 도구를 사용한다. 기본 시각화 도구는 이산변수와 연속 변수에 따라서 이용될 수 있는 도구가 달라지는데, 이산변수는 막대, 점, 원형 차트를 주로 이용하고, 연속변수는 상자박스, 히스토그램, 산점도 등을 이용한다. 칼럼 특성의 시각화 도구 분류 칼럼 특성 시각화 도구 설명 칼럼 수 숫자형 범주형 1 1 hist, plot ,barplot 숫자형 칼럼 1개 1 1 pie, barplot 범주형 칼럼 1개 2 2 plot, abline, boxplot 숫자형 칼럼 2개 3 3 scatterplot3d 숫자형 칼럼 3개 n n n pairs n개의 칼럼 hist: 히스토그램 plot: 산점도 barplot: 막대 차트 pie: 원형 차트 ..

    [R] 데이터 분석 절차와 데이터 종류 | 단일 변수(일변량) 자료 탐색

    데이터 분석 목적: 현상을 파악하고 이면을 찾음 데이터 분석 절차 : 문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서 정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용 데이터 종류: 1. 특성에 따른 분류 1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음) 1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 ) 2. 변수 개수에 의한 분류 2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용 2.2 다변량 (..

    [R] 로컬 파일 가져오기 (csv 파일 읽기 & 쓰기, 엑셀 xlsx 파일 읽기)

    1. read.table() 함수 테이블(칼럼이 모여서 레코드 구성) 형태로 작성되어 있으며, 칼럼이 공백, 탭, 콜론(:), 세미콜론(;), 콤마(,) 등으로 구분된 자료 파일을 불러올 수 이는 함수. 만약 구분자가 공백이거나 탭이면 sep 속성을 생략할 수 있다. 또한, 칼럼명이 있는 경우 header 속성을 'header=TRUE'로 지정한다. 1 read.table(file="경로명/파일명", sep="칼럼구분자", header="T|F") cs 탐색기를 통해서 불러올 파일을 선택하기: file.choose() 함수 read.table(file.choose=(), header="TRUE") #파일 열기 대화상자 결측치를 처리하여 파일 불러오기: na.string="특정문자열" read.table(..

    [R] DataFrame 데이터프레임 자료구조

    데이터프레임은 R에서 가장 많이 사용되는 자료구조 중의 하나이다. 특히 리스트 자료구조보다 자료 처리가 효과적이기 때문에 데이터 프레임을 더 많이 사용한다. 데이터프레임 자료구조 특징: 데이터베이스의 테이블 구조와 유사하다. R에서 가장 많이 사용하는 자료구조이다. 칼럼 단위로 서로 다른 데이터의 저장이 가능하다. 리스트와 벡터의 혼합형으로 칼럼은 리스트, 칼럼 내의 데이터는 벡터 자료구조를 갖는다. 데이터프레임 생성 함수: data.frama(), read.table(), read.csv() 데이터프레임 자료 처리 함수: str(), ncol(), nrow(), apply(), summary(), subset() 데이터프레임 생성 방법: Vector, matrix, 파일(txt, excel, csv) ..

    [R] Matrix 매트릭스 자료 구조

    행렬(Matrix) 자료구조는 동일한 자료형을 갖는 2차원의 배열구조를 갖는다. 행렬 자료구조의 특징은 다음과 같다. 행과 열의 2차원 배열구조의 객체를 생성한다. 동일한 타입의 데이터만 저장할 수 있다. 행렬 생성 함수: matrix(), rbind(), cbind() 행렬 자료 처리 함수: apply() 열: 변수(Variable), 특성(Feature) 행: 관측치(Observation) R 기본 방식: 열 우선 방식 > 행 우선 방식 (byrow = T) 벡터 행렬 객체 생성하기 함수 및 예시 실행 결과 설명 matrix(c(1:5)) [,1] [1,] 1 [2,] 2 [3,] 3 [4,] 4 [5,] 5 c()함수를 이용하여 1에서 5까지 벡터 자료로 객체 생성 matrix(c(1:5), nro..

    [R] 집합연산 관련 내장함수

    R의 집합연산 관련 내장함수 함수 의미 union(x, y) 집합 x와 y의 합집합 setequal(x, y) 집합 x와 y의 동일성 검사 (TRUE or FALSE 반환) intersect(x, y) 집합 x와 y의 교집합 setdiff(x, y) 집합 x와 y의 차집합 c %in% y c가 집합 y의 원소인지 검사

    [R] 수학 관련 내장함수

    R의 수학 관련 내장함수 함수 의미 abs(x) 절댓값을 구하는 함수 sqrt(x) 제곱근을 구하는 함수 ceiling(x), floor(x), round(x) 값의 올림, 내림, 반올림 factorial(x) 계승(팩토리얼)값 which.min(x), which.max(x) 벡터 내 최소값과 최대값의 인덱스를 구함 p.min(x), p.max(x) 여러 벡터에서의 원소 단위 최소값과 최대값 prod() 벡터의 원소들의 곱 cumsum(), cumprod() 벡터의 원소들의 누적합과 누적곱을 구하는 함ㅅ cos(x), sin(x), tan(x) 삼각함수: 코사인, 사인, 탄젠트 log(x) 자연로그 log10(x) 10을 밑으로 하는 일반 로그 함수(​e^​x) exp(x) 지수함수

    [R] 기술 통계량 처리 관련 내장함수

    함수 의미 min(vec) 벡터 대상 최소값을 구하는 함수 max(vec) 벡터 대상 최대값을 구하는 함수 range(vec) 벡터 대상 범위값을 구하는 함수(최소값 ~ 최대값) mean(vec) 벡터 대상 평균값을 구하는 함수 median(vec) 벡터 대상 중위수를 구하는 함수(중앙값) - 총 갯수가 짝수일 때는 가운데 두 개 값의 평균값 sum(vec) 벡터 대상 합계를 구하는 함수 sort(x) 벡터 데이터 정렬(단, 원래의 값이 변경되지 않음) order(x) 벡터의 정렬된 값의 색인(index)을 보여주는 함수 rank(x) 벡터의 각 원소의 순위를 제공하는 함수 sd(x) 표준편차를 구하는 함수 summary(x) x에 대한 기초 통계량을 구하는 함수 table(x) x에 대한 빈도수를 구하..