ADSP 데이터분석준전문가

ADSP 1과목 데이터의 이해(데이터와 정보) 요약정리

tivana 2024. 10. 24. 00:54
728x90
반응형

1과목 주요 출제 영역


1. 데이터와 정보
   - 데이터의 정의, 데이터의 특성
   - 정보와 지식의 구분
   - 데이터의 종류 (정형, 비정형 데이터)
   - 빅데이터의 정의와 특성 (3V: Volume, Velocity, Variety)

2. 데이터의 가치와 역할
   - 데이터의 활용과 중요성
   - 데이터 경제의 개념
   - 데이터 주도 혁신

3. 데이터 처리 과정
   - 데이터 수집, 정제, 분석, 저장
   - 데이터 마이닝의 개념과 과정
   - 데이터 전처리 (이상값 처리, 결측값 처리, 정규화 등)

4. 데이터의 종류와 분류
   - 정량 데이터 vs 정성 데이터
   - 변수의 종류 (명목형, 서열형, 등간형, 비율형)

5. 통계 기초
   - 평균, 중앙값, 최빈값, 분산, 표준편차 등의 기본 개념
   - 데이터 분포와 히스토그램
   - 상관관계와 인과관계의 차이


1. 데이터와 정보

1.1 데이터의 정의

데이터(Data) : 관찰이나 측정을 통해 수집된 사실이나 값들의 집합
그 자체로는 의미가 없지만, 적절한 처리 및 분석을 통해 유의미한 정보를 도출할 수 있는 기초 자료

더보기

- 예시: 나이, 키, 소득, 날짜 등
- 특성: 데이터는 숫자, 문자, 이미지 등 다양한 형식으로 존재할 수 있습니다. 중요한 것은 이러한 데이터가 아직 해석되지 않았다는 것입니다.


1.2 데이터의 특성

데이터는 그 자체로는 가공되지 않은 상태로 있으며, 여러 특성을 가지고 있습니다:

1. 정확성(Accuracy) : 데이터가 얼마나 사실에 부합하는지 여부.
2. 완전성(Completeness) : 데이터가 누락 없이 완전한지를 나타냅니다.
3. 일관성(Consistency) : 데이터가 동일한 형식과 구조를 유지하는지.
4. 적시성(Timeliness) : 데이터가 필요한 시점에 적시에 제공되는지.
5. 신뢰성(Reliability) : 데이터가 정확하고 신뢰할 수 있는지.

1.3 정보와 지식의 구분


정보(Information) : 데이터를 특정 목적에 맞게 처리하고 가공하여 의미 있는 내용을 도출한 결과물
즉, 데이터는 정보로 변환될 때 의미를 갖게 됩니다.

- 정보 : 데이터를 분석하거나 가공하여 의미를 부여한 결과. 의사결정에 활용됩니다.

더보기

여러 사람의 키 데이터를 분석하여 평균 키를 계산한 것

-지식(Knowledge): 정보에 대한 이해와 통찰을 통해 문제를 해결하거나 예측하는 능력.
                                정보가 축적되면서 경험과 결합하여 지식이 형성됩니다.

더보기

평균 키가 특정 범위 안에 있으면, 그 사람들의 건강 상태를 예측할 수 있다는 판단



1.4 데이터의 종류 (정형, 비정형 데이터)

- 정형 데이터(Structured Data)
- 구조화된 형식으로 저장된 데이터.
- 데이터베이스의 테이블 형식처럼 고정된 필드에 맞춰 정리된 데이터
- 데이터의 형식이 정해져 있어서 쉽게 검색 및 분석 가능

더보기

Excel 시트, 관계형 데이터베이스의 데이터, CSV 파일


- 비정형 데이터(Unstructured Data)
- 정해진 구조 없이 다양한 형식으로 존재하는 데이터(텍스트, 이미지, 비디오)
- 구조화되지 않아서 처리와 분석이 어렵지만, 대량의 데이터를 다룰 수 있는 도구와 기술이 발전하면서 중요한 분석 자원으로 사용

더보기

SNS 게시물, 이메일, 동영상 파일, PDF 문서



1.5 빅데이터의 정의와 특성 (3V)

빅데이터(Big Data) : 기존 데이터 처리 방법으로는 처리할 수 없을 정도로 대규모의 데이터

1. Volume (규모):
   - 데이터의 양이 매우 큽니다. 페타바이트(PB) 이상의 데이터가 생성되고 축적됩니다. 
   - 소셜 미디어, 센서 네트워크, 거래 기록 등에서 방대한 양의 데이터가 지속적으로 생성됩니다.

2. Velocity (속도):
   - 데이터가 매우 빠른 속도로 생성되고, 실시간으로 수집되고 처리되어야 합니다. 
   - 트위터에서의 실시간 트렌드 분석, 금융 거래의 실시간 모니터링 등이 이에 해당합니다.

3. Variety (다양성):
   - 데이터의 종류가 매우 다양합니다. 정형 데이터뿐만 아니라 비정형 데이터(텍스트, 이미지, 동영상 등)까지 포함되어 분석 대상이 됩니다.

이 외에도, 정확성(Veracity)이나 가치(Value)를 포함하여 빅데이터의 특성을 설명하기도 합니다.

728x90
반응형