어쩌면 일지

[출근 전 30분] ADsP 데이터 분석 준전문가 자격증 준비하기: 4일차 본문

[데이터]

[출근 전 30분] ADsP 데이터 분석 준전문가 자격증 준비하기: 4일차

조아라세연 2023. 4. 24. 19:00
728x90

(1과목 문제풀이)

 

1.     암묵지와 형식지의 상호작용 관계는 공통화->표출화->연결화->내면화

2.     데이터 마스킹 : 식과 같은 속성을 유지한 채, 새롭게 읽기 쉬운 데이터를 익명으로 생성하는 기술

3.     반정형 데이터 : 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일형태로 저장됨

4.     지식: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

5.     데이터웨어하우스 : 데이터의 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성 4가지 특성이 있다.

6.     데이터 마이닝 : 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술.

                   딥 러닝 : 다층구조 형태의 신경망을 바탕으로 하는 머신 러닝의 한 분야

7.     에너지의 분석 애플리케이션 : 트레이딩, 공급/수요 예측

8.     빅데이터 : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일

               하둡 : 빅데이터 플랫폼 환경 구축을 위해 사용할 뿐, 빅데이터가 하둡을 기반으로 하는 것은 아니다.

9.     빅데이터의 기능- 원유 : , 렌즈: , 석탄 :

10.  빅데이터의 등장으로 데이터 수집비용의 감소클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되         었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를         발견하는 방식으로 데이터 활용방법이 변화되었다. (사소한 몇 개의 오류 데이터 ok)

11.  플랫폼형 비즈니스 모델은 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 모델이다.

12.  데이터의 가치를 측정하기 어려운 이유 : 데이터의 활용방식이 재사용, 재조합이다. 새로운 가치를 창출한다. 분석 기술이 발전했다.

13.  유형분석은 사용자가 어떤 특성을 가진 집단에 속하는지 알아볼 때 사용한다.

14.  핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있는 분야는 신용평가

15.  Anaconda는 머신러닝 기능을 강화해주는 소프트웨어다.
딥 러닝 소프트웨어는 Caffe, Tensorflow Theano, Deep Learning이 있다.

16.  객체지향DB는 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게, 정보를 객체형태로 표현하는 데이터베이스 모델이다. 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS.

17.  데이터시각화는 비즈니스 컨설팅 영역이다.

18.  데이터 사이언스는 통찰력 있는 분석에 초점을 두고 진행한다.(<->정확성) 기존의 통계학과 달리 총체적 접근법을 사용한다.

 

2과목 <데이터 분석 기획>

개요 : KDD분석 방법론, CRISP-DM 분석 방법론, 각 단계별 내용을 알아야 한다.

-      정형 데이터 마이닝 프로세스로 가장 많이 활용되는 프로세스는 KDD CRISP-DM

 

데이터 사이언티스트의 역량 : 전문성 역량, 수학/통계학적 분석 역량, 프로그래밍 기술 역량

분석의 대상, 분석의 방법이 Known Un-Known인지에 따라 분석방법이 OSID(Optimization, Solution, Insight, Discovery)

-      과제 중심적인 접근 방식 : 빠르게 해결- 속도, 단기, 문제해결

-      장기적인 마스터 플랜 방식 : 지속적인 분석 내재화-정확도, 장기, 문제정의

 

정형 데이터 : 데이터 자체로 분석, RDB 구조의 데이터, DB로 관리 ex. ERP, CRM, SCM 등 정보시스템

반정형 데이터 : 데이터로 분석이 가능 해거 불가능, 메타정보를 활용해 해석가능, ex. 로그데이터, 모바일데이터, 센싱데이터

비정형 데이터 : 데이터 자체로 분석이 불가능, 특정한 처리 프로세스를 거쳐 분석데이터로 변경 ex. 영상, 음성, 문자

 

기업의 합리적 의사 결정을  가로막는 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과 -> 데이터 기반 의사결정의 필요성

 

방법론의 생성과정 : 형식지->(체계화)->방법론, 형식지->(형식화)->암묵지, 방법론->(내재화)->암묵지

암묵지의 상호작용 : 공통화, 내면화

형식지의 상호작용 : 표출화 연결화

         

           방법론의 모델

           1) 폭포수 모델 단계를 순차적으로 진행 ex.기존 ITSW개발 방식

           2) 프로토타입 모델 고객의 요구를 완전히 이해하기 어려울 때, 일부분을 우선 개발, 그 결과를 통한 개선 작업

           3) 나선형 모델 반복, 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계가 없는 경우 복잡도가 상승할 수 있음

 

           방법론의 구성

·        단계 : 기준선으로 설정, 버전관리로 통제 -> 단계별 완료 보고서

·        테스크 : 물리적 논리적 단위 -> 보고서

·        스탭 : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 -> 보고서 구성요소

 

*KDD 분석방법론

KDD(Knowledge Discovery in Databases) : 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스.

 

  KDD 분석절차

  1)    데이터셋 선택(Selection) : 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수, 데이터마이닝에 필요한 목표데이터 구성

  2)    데이터 전처리(Preprocessing) : 잡음과 이상치, 결측치 식별 정제. 추가 데이터 셋이 필요하다면 1)과정 다시

  3)    데이터 변환(Transformation) : 분석 목적에 맞게 변수를 생성, 데이터의 차원을 축소, 변경. 학습용 데이터와 시험용 데이터로 분리

  4)    데이터 마이닝(Data Mining) : 학습용 데이터의 데이터마이닝 기법 선택, 필요에 따라 2),3)과정 다시

  5)    데이터 마이닝 결과 평가(Interpetation/Evaluation) : 데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인, 지식을 업무에 활용하기 위한 방안 마련 필요에 따라 1)~4) 다시

 

*CRISP-DM 분석 방법론

           CRISP-DM(Cross Industry Standard Process for Data Mining)1996년 유럽연합의 ESPRIT에서 시작. 주요 업체 (Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)가 주도. 계층적 프로세스 모델(4가지 레벨로 구성)

 

  CRISP-DM 4레벨 구조

1)    Phases 단계

2)    Generic Tasks 일반화 테스크 ex.데이터 정제

3)    Specialized Tasks 세분화 테스크 ex. 범주형 데이터 정제, 연속형 데이터 정제

4)    Process Instances 프로세스 실행

 

  CRISP-DM의 프로세스 (6단계)

단방향X, 단계 간 피드백을 통해 완성도를 높임

1)    Business Understanding 업무이해 데이터 마이닝 목표 설정, 계획 수립

2)    데이터 이해 데이터 수집, 기술 분석, 품질 확인

3)    데이터준비 데이터 셋 선택, 데이터 정제, 데이터 셋 편성, 데이터 통합, 포맷팅

4)    모델링 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

5)    평가 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

6)    전개 전개 계획 수립, 모니터링과 유지보수 계획 수립, 보고서 작성, 프로젝트 리뷰

728x90
Comments