[정보처리기사 실기] 데이터 입출력 구현

- 기간 데이터시스템에서 추출되어 새롭게 생성한 데이터베이스

- 주제지향적, 통합적, 시계열적, 비갱신 특징 갖는 다차원 데이터 집합체 (큐브)

- OLAP 작업 통해 가공, 조직 의사결정 시스템 지원 가능

OLAP (On-Line Analytical Processing)

데이터웨어하우스의 다차원 데이터 분석작업으로 다음과 같은 기본 연산 제공

기존 관리 방식으로는 처리하기 어려운 대용량의 정형, 비정형, 반정형 데이터의 집합체

데이터 형태	활용	처리 난이도
정형 데이터	관계데이터베이스 스키마 구조에 맞는 형식화된 데이터	하
반정형 데이터	XML, HTML, 파일과 같은 형식으로 저장된 데이터	중
비정형 데이터	언어분석 가능한 신문기사, SNS 등 텍스트 이미지, 동영상 데이터	상

빅 데이터 3요소 (3V)

빅 데이터 처리기술

종류	내용
Hadoop	대용량 데이터를 분산 처리할 수 있는 자바 기반 오픈 소스 프레임워크로 HDFS 및 MapReduce로 구성
R	대용량 데이터 통계 분석 및 데이터 마이닝 위한 프로그래밍 언어
NoSQL	- 비관계형 DB로 테이블 스키마 고정되지 않고, 테이블 간 조인 연산 지원 안함 - 분산 가능성에 중점 두고 일관성과 유효성 보장하지 않음
Sqoop	Hadoop과 관계 데이터베이스 간 데이터 변환 수행 도구

- Google에 의해 고안된 기술로, 대용량 데이터 처리 위한 병렬 처리 기법 제공

- 임의 순서로 정렬된 데이터 분산 처리하고 이를 다시 합치는 과정 거침

- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델

- 대규모로 저장된 데이터 안에서 통계적 규칙이나 패턴 분석해 가치 있는 정보 추출하는 과정

- KDD (Knowledge Discovery in Database, 지식 발견) 이라고도 함

- 대량의 데이터를 분석해 데이터에 내재된 변수 사이 상호관계를 규명하여 일정한 패턴 찾아내는 기술

주요 기법

이름	내용
연관 규칙 (Association)	데이터들 간 종속관계를 찾는 기법, 장바구니 분석이라 함 ex) (노트, 볼펜), (넥타이, 셔츠)
순차 패턴 (Sequence)	연관 규칙에 시간이라는 개념 포함한 분석 기법 ex) 컴퓨터 구매 → 가까운 시간 내 → 프린터 구입
분류 규칙 (Classification)	데이터 특성을 분류 모혀오하 시켜 새로운 결과 예측하는 기법 ex) 신용평가 등급
군집화 (Clustering)	데이터를 유사한 성질 집단으로 각각 구분하는 기법 ex) 지역별, 나이별, 직급별 구분
분결정 트리 (Decision Tree)	목표 변수에 영향 줄 수 있는 입력 변수들을 이용해 최적 분류 위한 의사결정 규칙 생성하고 트리 구조로 표현하는 기법 ex) 데이터 값 비교 통한 참 / 거짓 결정

[정보처리기사 실기] 통합구현 _ 내·외부 연계 모듈 구현 (0)	2025.02.28
[정보처리기사 실기] 통합구현 _ 연계 데이터 구성 및 연계 메커니즘 (0)	2025.02.25
[정보처리기사 실기] 데이터 입출력 구현 _ 물리 데이터 저장소 (0)	2025.02.21
[정보처리기사 실기] 데이터 입출력 구현 _ 논리 데이터 저장소 (2) (0)	2025.02.19
[정보처리기사 실기] 데이터 입출력 구현 _ 논리 데이터 저장소 (1) (0)	2025.02.17

김빙봉의 IT 공부