데이터 입출력 구현
데이터모델의 개념 : 현실 세계의 정보를 인간과 컴퓨터가 이해할 수 있도록 추상화하여 표현한 모델
데이터모델 절차 (개논물)
- 개념적 데이터모델 : 현실 세계에 대한 인식을 추상적, 개념적으로 도출하여 표현한다 산출물 : 개체관계 다이어그램 = 개체 관계 모델
- 논리적 데이터모델 : 스키마를 설계하고 인터페이스를 설계하며 정규화를 진행한다.
- 물리적 데이터모델 : 스키마를 만드는 데이터 모델, 성능 측면에서 반정규화를 진행한다.
논리적 데이터 모델의 개념 : 업무의 모습을 형상화하여 이해하기 쉽게 표현
논리적 데이터 모델링 종류 : 관계 데이터 모델, 계층 데이터 모델, 네트워크 모델
- 관계 데이터 모델 : 2차원 테이블 형태, 기본키와 외래키로 관계를 표현, 일대일 일대다 다대다
- 계층 데이터 모델 : 트리 형태, 상하 관계, 일대다
- 네트워크 모델 (CODASYL DBTG 모델) : 그래프 형태, 다대다
관계 데이터 모델의 개념 : 데이터를 행과 열로 구성된 2차원 테이블 형태로 구성
관계 데이터 모델의 구성요소
- 릴레이션 : 행과 열로 구성된 테이블
- 튜플 : 릴레이션의 행(Row)을 의미
- 속성(Attribute) : 릴레의션의 열(Culumn)을 의미
- 카디널리티 : 튜플의 수
- 차수 (Degree): 컬럼의 수
- 스키마 : 데이터베이스의 구조와 제약사항을 담은 기본적인 구조
- 인스턴스 : 실제 저장된 데이터의 집합
관계형 데이터 모델의 표현 : 관계형 데이터 모델 & 개체 관계 모델
- 관계형 데이터 모델 : 데이터를 개체 테이블과 관계 테이블로 표현
- 개체 관계 모델 : 데이터를 개체, 속성, 관계로 표시
관계 대수 : 원하는 정보와 정보를 어떻게 유도하는가를 기술하는 절차적 언어
관계 대수의 연산자 종류 : 일반 집합 연산자 / 순수 관계 연산자
- 일반 집합 연산자 (합교차카)
- 합집합 Union : ∪ R과 S의 합집합
- 교집합 Intersection : ∩ R과 S의 교집합
- 차집합 Difference : − R에는 있고 S에는 없는 튜플
- 카디션 프로덕트 : × R과 S의 속한 모든 튜플을 연결
- 순수관계 연산자 (셀프조디)
- 셀렉트 𝛔 : 𝛔 조건 (R) 릴레이션 R에서 조건을 만족하는 튜플 반환
- 프로젝트 𝛑 : 𝛑 속성 (R) 릴레이션 R에서 주어진 속성들의 값으로만 구성 된 튜플 반환
- 조인 ⋈ : R ⋈ S 공통 속성을 이용해 R과 S의 튜플을 연결해 만든 튜플 반환
- 디비전 ÷ : R ÷ S 릴레이션 S의 모든 튜플과 관련있는 R의 튜플 반환
관계 해석의 개념 : 튜플 관계 해석과 도메인 관계 해석을 하는 비절차적 언어 관계 해석의 특징 : 프레디킷 해석에 기반한 언어, 원하는 정보
가 무엇이라는 것만 선언
논리 데이터 모델링 속성 (개속관) : 개체 속성 관계
- 개체 : □ 사물
- 속성 : ○ 개체가 가지고 있는 요소 또는 성질
- 관계 : ◇ 개체 간의 관계
개체 관계 모델(E-R 모델)의 개념 : 현실에 존재하는 데이터와 관계를 사람이 이해할 수 있는 형태로 표현
- 논리 데이터 모델링에서 보조 자료로 E-R 모델을 활용
E-R다이어그램 기호
- 개체 : □ 사물
- 속성 : ○ 개체가 가지고 있는 요소 또는 성질
- 관계 : ◇ 개체 간의 관계
- 다중 값 속성 : ◎
- 관계/속성 연결 : ⎯
정규화 : 데이터의 중복을 제거하여 이상 현상을 방지하며 데이터의 일관성과 정확성을 위해 무손실 분해하는 과정
이상현상 (Anomaly) : 데이터의 중복성으로 인해 릴레이션을 조작할 때 발생하는 비합리적인 현상
- 삽입 이상 : 데이터 삽입 시 불필요한 세부 정보를 입력해야 하는 경우
- 삭제 이상 : 데이터 삭제 시 다른 정보가 같이 삭제되는 경우
- 갱신 이상 : 중복 데이터 중에서 특정 부분만 수정되어 중복된 값이 모순을 일으키는 경우
정규화의 단계 (원부이결다조)
- 제1정규형 : 도메인이 원자값으로만 구성
- 제2정규형 : 부분 함수 종속 제거
- 제3정규형 : 이행적 함수 종속 제거 (A→C)
-보이스 코드 정규형 BCNF : 모든 결정자가 후보키여야함
- 제4정규형 : 다중 값 종속 제거
- 제5정규형 : 조인 종속 제거
반정규화 : 정규화된 릴레이션을 성능 향상을 위해 병합,분할,중복을 허용하는 기법 반정규화 기법 (테병분중 컬중 관중)
- 테이블 병합 : 일대일 일대다 관계를 병합하여 조인 횟수를 줄여 성능 향상
- 테이블 분할 : 수평 분할-레코드(행) 기준으로 분할 / 수직 분할(속성 분할)
- 테이블 중복 : 대량의 데이터에 집계함수 사용하여 통계정보를 계산하는 경우 통계 테이블이나 중복 테이블 추가
- 컬럼 중복 : 조인 성능 향상을 위한 중복 허용
- 관계 중복 : 성능 저하를 예방하기 위해 관계 중복 ****
물리데이터 모델링 개념 : 논리 모델을 적용하고자 하는 기술에 맞도록 상세화하는 과정
물리데이터 모델링 변환 절차
- 개체를 테이블로 변환 : 테이블과 개체 명을 동일하게, 가독성을 위해 테이블 명은 영어
- 속성을 컬럼으로 변환
- UID를 기본키로 변환
- 관계를 외래키로 변환
- 컬럼 유형과 길이 정의
- 반 정규화 수행, 기법(테병분중 컬중 관중)
테이블 제약조건 설계
- 참조 무결성 제약조건 : 참조하는 외래키의 값은 참조되는 릴레이션의 기본키여야함
- 연쇄 (Cascade) : 참조되는 릴레이션에서 튜플을 삭제하면 참조하는 릴레이션의 튜플도 함께 삭제
- 널값 (Nullify): 참조되는 릴레이션에서 튜플을 삭제하면 참조하는 릴레이션의 외래키 값에 NULL 값을 넣는 옵션
*만약 참조하는 릴레이션에서 해당 속성 값에 NOT NULL을 명시하면 삭제 연산 거절
인덱스의 개념 : 데이터의 검색 성능을 향상시켜주는 자료구조
- 인덱스 컬럼 선정
- 분포도가 좋은 컬럼은 단독 생성
- 자주 조합되어 사용되는 컬럼은 결합 인덱스로 생성
- 수정이 빈번하지 않은 컬럼 선정
뷰 속성
- REPLACE : 뷰가 이미 존재하는 경우 재생성
- FORCE : 테이블의 존재 여부와 관계없이 생성
- NO FORCE : 테이블이 존재할 때만 생성
- WITH CHECK OPTION : 서브 쿼리 내의 조건을 만족하는 행만 변경
- WITH READ ONLY : 데이터 조작어 작업 불가
클러스터 : 인덱스의 단점을 해결한 기법, 분포도가 넗을수록 유리, 대량의 범위를 자주 액세스할 때 사용
파티션의 종류 (레해리컴)
- 레인지 파티셔닝 : 연속적인 숫자나 날짜를 기준으로 파티셔닝
- 해쉬 파티셔닝 : 파티션 키의 해시 함수 값의 의한 파니셔닝 기법
- 리스트 파티셔닝 : 저장 될 데이터에 대한 명시적 제어가 가능한 파티셔닝
- 컴포지트 파티셔닝 : 레해리 중 2개 이상을 결합하는 파티셔닝
파티션의 장점 (성가백합)
- 성능 향상
- 가용성 향상
- 백업 가능
- 경합 감소 : 디스크 스트라이핑으로 입출력 성능 향상 및 , 디스크 컨트롤러에 대한 경합 감소
데이터베이스의 개념 : 다수의 인원이나 시스템이 사용할 목적으로 통합하여 관리되는 데이터의 집합
데이터베이스의 정의 (통저운공)
- 통합 데이터 : 자료의 중복을 제거한 데이터의 모임
- 저장 데이터 : 저장된 데이터 모임
- 운영 데이터 : 업무를 수행하는데 필요한 데이터 모임
- 공용 데이터 : 시스템이나 프로그램이 사용하는 공동 데이터 모임
데이터베이스 특성
- 실시간 접근성 : 쿼리에 실시간 응답 가능
- 지속적인 변화 : 새로운 데이터의 삽입,삭제,갱신으로 최신 데이터 유지
- 동시 공용 : 다수의 사용자가 동시에 같은 데이터를 이용
- 내용 참조 : 사용자가 요구하는 데이터 내용으로 데이터를 검색
데이터베이스의 종류
- 파일시스템 : 파일에 이름을 부여하고 논리적으로 어디에 위치시켜야하는지 정의한 뒤 관리하는 데이터베이스 전 단계의 데이터 관리 방식 (ISAM : 자료 내용은 주 저장부 자료의 색인은 색인부, VASM: 대형 운영체제에서 사용)
- 관계형 데이터베이스 관리시스템 (RDBMS) : 관계형 데이터 모델을 기반으로하는 가장 보편화된 DBMS 데이터 구조에 대한 유연성이 좋아 유지관리 용이, 종류-Oracle, SQL Server, Mysql, Maria DB
- 계층형 데이터베이스 관리시스템 (HDBMS) : 데이터를 상하종속적인 관계로 계층화하여 관리 데이터 접근 속도가 빠르지만 종속적인 구조로 데이터의 유연성이 좋지 않다. 종류-IMS,System2000
- 네트워크 데이터베이스 관리시스템 (NDBMS) : 데이터의 구조를 네트워크상의 망 형태로 표현 설계가 복잡하다. 종류-IDS,IDMS
데이터베이스 관리 툴 : DBA들이 데이터베이스를 편리하고 쉽게 다룰수 있게 도와주는 도구
DBMS : 데이터 관리의 복잡성을 해결하고 데이터 조작 기능을 지원하는 소프트웨어
DBMS 유형 (키컬도그)
- 키/값 DBMS : 유니크한 키에 하나의 값, 키 기반 Get,Put,Delete 제공, 빅데이터를 처리 가능한 DBMS *Redis, DynamoDB
- 컬럼 기반 데이터 저장 DBMS : 키 안에 컬럼,벨류 조합, 구글의 Bigtable 기반으로 구현, 조인 미지원 *Cassandra,Hbase
- 문서(Document) 저장 DBMS : 값의 데이터 타입이 문서 타입을 사용, XML,JSON,YAML 같이 구조화된 데이터 타입으로 복잡한 계층 구조 표현 가능 *MongDB, Couchbase
- 그래프 DBMS : 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DBMS *Neo4j, AllegroGraph
DBMS 특징
- 데이터 무결성 : 동일한 내용에 대해 서로 다른 데이터가 저장되는 것을 허용하지 않는 성질
- 데이터 일관성 : 삽입, 삭제, 갱신, 생성 후에도 데이터가 변함없이 일정한 성질
- 데이터 회복성 : 장애가 발생하였을 때 특정 상태로 복구되어야하는 성질
- 데이터 보안성 : 불법적인 노출, 변경, 손실로 부터 보호되어야하는 성질
- 데이터 효율성 : 사용자, 소프트웨어, 시스템의 요구조건을 만족시켜야하는 성질
빅데이터 : 페타바이트 크기의 비정형 데이터
빅데이터의 특성
- 데이터의 양 : 페타바이트 수준의 데이터 양
- 데이터의 다양성 : 정형, 비정형, 반정형의 다양한 데이터
- 데이터 속도 : 빠르게 증가하고 수집되며 처리되는 데이터
HDFS : 대용량 데이터 처리를 위한 하둡 분산 파일시스템
맵리듀스 : 구글에서 대용량 데이터를 분산 병렬 컴퓨팅 처리를 위해 만든 프레임워크
NoSQL : 고정된 스키마가 필요하지 않고 수평적으로 확장 가능한 DBMS, 조인 연산 미지원
NoSQL의 특성 (BASE)
- Basically Available : 언제든지 접근이 가능해야함, 분산시스템으로 항상 가용성 중시
- Soft State : 특정 시점에서는 데이터의 일관성이 보장되지 않음
- Eventually Consistency : 일정 시간이 지나면 데이터의 일관성이 유지되는 속성, 일관성을 중시하고지향
NoSQL의 유형 (키컬도그)
- 키/값 저장 : 유니크한 키에 한 값을 가지고 있는 형태, 빅데이터 처리 가능, 키 기반 Get,Put,Delete 지원 *Redis, DynamoDB
- 컬럼 기반 데이터 저장 : 키안에 컬럼,벨류 조합, 조인 미지원, 구글의 Bigtable 기반 구현 *Cassandra, Hbase
- 문서 저장 : 벨류의 데이터 타입이 문서 타입을 사용, XML,JSON,YAML 구조화된 데이터 타입, 복잡한 계층 표현 가능 *MongDB, Couchbase
- 그래프 저장 : 시멘틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터 표현
온톨로지의 개념 : 현실 세계의 개념들을 컴퓨터가 이해할 수 있도록 서술해놓은 지식베이스
시맨틱 웹의 개념 : 온톨로지를 활용하여 서비스를 기술
데이터마이닝의 개념 : 대량의 데이터 안에서 통계적인 규칙이나 패턴을 찾아내는 기술
데이터마이닝 주요 기법 (분연연데)
- 분류 규칙 : 과거 데이터로부터 특성을 찾아냄
- 연관 규칙 : 데이터 안에 존재하는 항목들간에 종속 관계를 찾아냄
- 연속 규칙 : 연관 규칙에 시간 관련 정보가 포함된 형태의 기법
- 데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할하는 작업
텍스트 마이닝 : 대량의 텍스트 데이터 안에서 통계적인 규칙이나 패턴을 찾아내는 기술
웹 마이닝 : 웹에서 얻어진 대량의 데이터 안에서 통계적인 규칙이나 패턴을 찾아내는 기술
'정보처리기사 실기 요약본' 카테고리의 다른 글
[정보처리기사] 6. 프로그래밍 언어 (2) | 2023.03.12 |
---|---|
[정보처리기사] 1. 요구사항 확인 (3) | 2023.03.11 |
[정보처리기사] 4. 통합구현 (5) | 2023.03.11 |
[정보처리기사] 5.인터페이스 구현 (3) | 2023.03.11 |
[정보처리기사] 11.응용 SW 기초 기술 활용 (0) | 2023.03.09 |