빅데이터

    [R] 연산자(Operator)

    R의 연산자 기호 구분 연산자 기능 설명 산술연산자 +, -, *, /, %%, ^, ** 사칙연산, 나머지 계산, 제곱계산 관계연산자 ==, !=, >, >=,

    [R] List 리스트형 자료구조

    리스트는 성격이 다른 자료구조(벡터, 행렬, 리스트, 데이터프레임 등)를 객체로 생성할 수 있다. 특징: 하나의 메모리 영역에는 키(key)와 값(value)이 한 쌍으로 저장된다. C 언어의 구조체, Python의 dict(딕셔너리) 자료구조와 유사하다. key를 통해서 value를 불러올 수 있는데, value에 해당하는 자료는 Vector, Matrix, Array, List, DataFrame 등 대부분의 R 자료구조의 객체가 저장될 수 있다. 함수 내에서 여러 값을 하나의 키로 묶어서 반환하는 경우 유용하다. 리스트 생성 함수: list() 리스트 자료 처리 함수: unlist(), lapply(), sapply() 1차원 리스트 객체 생성하기 리스트에 저장된 데이터를 출력하면 [[n]]과 [n..

    [R] Vector 벡터형 자료구조

    벡터는 R에서 가장 기본이 되는 자료구조이다. 특징: 1차원의 선형 자료구조 자료는 '변수[첨자]' 형태로 접근한다. 첨자(index)는 1부터 시작한다. 동일한 자료형의 데이터만 저장 가능 벡터 생성 함수: c(), seq(), rep() 벡터 자료 처리 함수: union(), setdiff(), intersect() 사용 예시 함수 결과 특징 비고 c(2:5) 2 3 4 5 콜론(:) 또는 콤마(,) 사용 콤마는 개별 데이터 지정 seq(1, 10, 2) 1 3 5 7 9 증감값에 따라 순차적으로 값(sequence value)을 증가 1부터 10까지, 증감값은 2 rep(1:3, 3) 1 2 3 1 2 3 1 2 3 두번째 파라미터에서 지정하는 반복 횟수만큼 동일한 값이 복제(replicate)됨 ..

    [R] 데이터 유형과 구조 5가지

    R에서 제공하는 주요 자료구조는 크게 5가지로 분류된다. Vector (1차원 배열) Matrix (2차원 배열) Array (다차원 배열) List (자료구조 중첩) Data Frame (2차원 테이블 구조)

    [R] 함수와 패키지

    함수(Function): 단위 기능을 수행하는 코드 집합(Block). 반복적인 기능을 별도로 작성하기 위함. 내장 함수: 라이브러리 함수(기본 제공) 사용자 정의 함수: 제 3자 함수(third-party, 필요시 설치), 사용자 정의 함수 - R 사용자 정의 함수 만들기 함수명

    [R] R에서 제공하는 기본 자료형 Data Type

    R에서 제공하는 기본 자료형 Data Type 숫자형: 산술 연산 가능 (정수 또는 실수) 문자형: 산술 연산 불가능 (문자, 문자열) 논리형: True or False [T or F] (참, 거짓) 결측 데이터: 결측치, 비 숫자 NULL: No Value, 값이 없음. 아무 것도 없음'을 의미. NA (Not Available): 결측치(Missing Value). '읽을 수 없음'을 의미. NaN (Not a Number): ‘계산할 수 없음’을 의미. Scalar (원시값): 하나의 값(숫자, 문자, 논리) Vector (1차원 배열, 열의 집합): 'a'라는 이름의 리스트가 있다면 'a'를 벡터명이라고 하며, 원소에 index를 붙임.동일 자료형 집합. 0 base vector: 0부터 시작 e..

    [R] 변수란?

    R 프로그래밍에서 사용되는 대부분 자료는 변수와 자료형이라는 용어와 관련이 있다. 변수는 자료를 일시적으로 보관하는 역할을 하며, 자료형은 숫자, 또는 문자와 같은 자료의 유형을 의미. 변수: 분석에 필요한 자료를 일시적으로 저장하거나 처리결과를 담을 수 있는 기억장소를 지정해주는 역할 1. 속성(Attribute) – 기억 장소 모양 1.1 자료형(Data Type) 1.2 기억장소 크기 1.3 값 저장 방식 1.4 값의 범위: Overflow / Underflow Error 2. 연산(기능, 동작) 연산은 기억 장소를 이용하여 변경하고 동작 2.1 읽기 기능(R value) 2.2 쓰기 기능(L value) 2.3 산술/관계/논리연산 - 산술(사칙연산): 결과는 숫자형 - 관계(대소비교): 결과는 논..

    4차 산업혁명의 빅데이터와 데이터 과학

    1차 산업혁명: 증기 이용 2차 산업혁명: 전기 이용 3차 산업혁명: 인터넷(World Wide Web) 이용 - 인터넷 1.0 시대: 단순 검색 수준 - 인터넷 2.0 시대: 참여가 가능(쌍방향) - 인터넷 3.0시대: 사용자에 의한 contents 생성 미래 4차 산업혁명: - IoT (사물 인터넷) - Big Data: 사물 인터넷으로부터 무수히 더 많은 데이터가 발생 – 숨겨진 이면을 분석 - AI (Artificial Intelligence) & Machine Learning - Blockchain 빅데이터 Big Data: - 정의: 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터. 빅데이터의 크기는 단일 데이터 집합의 크기가 수십 테라 바이트에..

    버전 관리 시스템 Version Control System [Git]

    Version Control System Server (Service Provider) Client 중앙집중식 각 클라이언트가 작업한 것을 중앙 서버로 보내는 형식이며, SVN와 CVS 등이 있다. 최근에는 잘 사용되지 않는 방식. 분산식 각 클라이언트가 각 VCS를 운영하며 필요할 때 클라이언트끼리 연결됨(각각의 버전 유지가 됨). Git (각 로컬) – GitHub (협업할 때 서버 역할). Git: 버전 관리 tool - Local 영역 버전 관리: git tool - Global 영역 버전 관리: git tool, GitHub Git 유틸리티 다운 받고 설치: https://git-scm.com/ 명령 프롬프트에서 git --version 입력하여 잘 설치되었는지 확인. 초보자는 Visual St..