어쩌면 일지

[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 3일차 본문

[데이터]

[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 3일차

조아라세연 2023. 4. 21. 18:00
728x90

로직 오류 : 의도치 않은 ,바라지 않은 결과 유발

프로세스 오류 : 작동에 문제가 발생한 오류

 

분석 애플리케이션이 어느 산업에서 활용되는가?

-      금융 서비스 : 신용점수 산정, 사기 탐지, 클레임 분석, 고객 수익성분석, 프로그램트레이딩

-      소매업 : 판촉, 매대 관리

-      제조업 : 공급사슬 최적화

-      운송업 : 노선 배정

-      헬스케어 : 약픔 거래

-      병원 : 가격 책정, 고객 로열티, 수익 관리

-      에너지 : 트레이딩, 공급/수요 예측

-      커뮤니케이션 : 가격 계획 최적화, 고객 보유

-      서비스 : 콜센터 직원관리, 서비스-수익 사슬 관리

-      정부 : 사기 탐지, 사례관리, 범죄방지, 수익 최적화

-      온라인 : 웹 매트릭스, 사이트 설계, 고객 추천

일차적인 분석과 전략도출 가치기반과 관련하여 잘못된 설명을 고르시오*

-      일차적인 분석의 문제점 : 환경변화와 같은 큰 변화에 제대로 대응하거나, 고객 환경의 변화를 파악하고 새로운 기회를 포착하기 어렵다.

-      전략도출 가치기반 분석 : 사업에 중요한 기회를 발굴, 주요 경영진의 지원을 얻어낼 수 있다, 활용 범위를 더 넓고 전략적으로 변화, 전략적 인사이트를 주는 가치기반 분석단계

 

데이터 사이언스 : 정형 비정형을 막론하고 다양한 유형의 데이터를 대상으로 분석, 구현, 전달

           영역) 분석, 처리, 컨설팅

           Skill) Hard Skill: 이론적 지식, 숙련 / Soft Skill : 통찰력, 설득력, 협력

           인문학 열풍의 이유 1)컨버전스->디버전스 2)생산->서비스 3) 생산->시장창조

           한계 1)인간의 해석 개입 2)분석은 가정에 근거

 

DBMS(Data Base Management System) 데이터베이스관리시스템 : DB 공유하면서 사용가능한 환경 제공하는 SW

-      DB 구축틀 제공, 효율적 data 검색 및 저장

-      Ex. 오라클, 인포믹스, 엑세스

종류) 관계형 DBMS – 테이블(엔티티타입) =컬럼(속성값), 로우(레코드, 튜플) by 고유키=인스턴스

     객체지향 DBMS – ‘객체형태 표현

     네트워크 DBMS – 그래프 = 레코드 to ‘노드’, 그 관계는 by 간선

     계층형 DBMS – 트리구조의 계층 데이터베이스 모델

 

DB 설계절차 : 요구사항분석->개념적 설계, 논리적 설계 ->물리적 설계 ->구현

Relationship : 엔티티 사이의 관계 1)1:1(잘 없다) 2)m:1(흔하다) 부모와 자식 3) m:n 쇼핑몰 회원과 상품

 

DW 데이터 웨어하우스 구축시 ETL

DW : 따로 운영되는 DBMS를 효율적으로 통합

ETL (Extract, Transform, Load) 데이터의 추출, 가공, 적재

NoSQL(Not only SQL) 분산데이터베이스 기술, 확장성up, 가용성up (수평적 확장성 제공)

-      Key, Value 형태로 자료 저장 / 대부분 open source

-      Ex. Mongo DB, Hbase, Redis, Cassandra

SQL(Structure Query Language) : 데이터베이스 하부언어 완전한 데이터의 정의와 조작 기능, 테이블 단위 연산수행

DDL (Data Definition Language) 데이터 생성, 수정, 삭제 CREATE, ALTER, DROP

DML (Manipulation) 레코드 조회, 수정, 삭제 SELECT, INSERT, UPDATE

DCL (Control) 데이터 보안, 무결성, 회복 GRANT, REVOKE, COMMIT

함수: AVG, SUM, STDDEV(수치데이터), COUNT(수치형, 문자형)

 

인덱스 : 검색 속도를 향샹시키는 자료구조

트리거 : 이벤트에 반응해 자동으로 실행되는 작업

 

주요구문

WHERE : SELECT UPDATE DELETE문 등에서 특정 레코드에 대한 조건을 설정할 때 사용

ORDER BY : 오름차순으로 정렬 desc는 내림차순

GROUP BY : 데이터를 그룹별로 나눠 연산을 할 경우 사용

HAVING : GROUP BY를 이용해 결과값에 조건식을 달기 위해 사용하는 구문.

-      연산 함수들의 결과값은 직접 WHERE절에서 조건식으로 사용될 수 없음. WEHREROW 레벨 필터링을 제공하는 반면, HAVINGGROUP 레벨 필터링을 제공

(결과값은 정해져 있는게 아니니까 정해져 있는 위치를 가야되는 where에 오면 안된다는 뜻)

 

SQL 예시1

SELECT NAME, GNEDERER, SALARY 추출하고자 하는 데이터명

FROM CUSTOMERS 테이블을 지정해줌

WHERE AGE BETWEEN 20 AND 39 데이터를 추출하는 선택 조건식 지정

 

SQL 예시2

SELECT CUSTIOMER_NAME, 고객명, CUSTOMER_ENAME, 고객영문명

FROM CUSTOMER

WHERE CUSTOMER_ENAME LIKE’_A%’

-      LIKE는 문자열의 패턴을 검색하는 데 사용

-      %는 모든 문자

-      _는 한 글자 의미

-      ‘_A%’는 맨 앞에 한 글자 뒤에 ‘A’글자가 있는 ROW 의미

 

개인정보 비식별 기술

-      개인을 식별할 수 있는 요소를 전부, 일부를 삭제하거나 다른 값으로 대체

데이터 마스킹 : 속성 유지한 채 익명으로 생성

가명처리 : 다른 이름으로 변경(규칙이 노출되지 않도록 주의

총계처리 : 데이터의 총합 값을 보임. (, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하면 안됨.)

데이터값 삭제 : 필요 없는 값 또는 개인 식별에 중요한 값을 삭제. 날짜 정보는 연단위로 처리

데이터 범주화 : 범주의 값으로 변환

난수화 : 데이터를 무작위 숫자로 변환

익명화 : 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환

 

무결성과 레이크

-      데이터 무결성 : 데이터 변경/수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증. (개체 무결성, 참조 무결성, 범위 무결성)

-      데이터 레이크 : 방식에 상관없이 데이터를 저장하는 시스템 ex. Apache Hadoop, Teradata Integrated Big Data Platform 1700 등의 플랫폼 사용

 

하둡

-      여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술.

-      분산파일 시스템HDFS을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을

-      맵리듀스 Map ReduceHDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술

-      하둡의 부족한 기능을 서로 보완하는 하둡 에코시스템

Apache Spark

-      실시간 분산형 컴퓨팅 플랫폼

-      스칼라로 작성 되어 있지만 스칼라, 자바, R, 파이썬, API를 지원

-      In-Memory 방식으로 처리(하둡보다 빠름)

Smart Factory

-      공장 내 설비와 기계에 사물인터넷 IoT가 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화할 수 있는 기술

Machine Learning&Deep Learning

-      머신 러닝 : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법

-      딥 러닝 : 인공 신경망 등의 기술을 기반하여 구축한 기계 학습 기술 중 하나 ex. DNN, CNN, RNN, LSTM, Autoencoder, RBM/ 음성, 영상인식, 자연어 처리/ 소프트웨어 라이브러리 : Tensorflow, Caffe, Torch, Theano, Gensim

데이터양의 단위

-      바이트 2 0->킬로바이트 2 10->메가바이트->기가바이트->테라바이트->페타바이트->엑사바이트->제타바이트->요타바이트 (B->KMGT->DEZY)

블록체인

-      거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부

-      거래에 참여하는 모든 사용자에게 거래 내역을 보내주고 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용

 

메타데이터 : 데이터에 관한 구조화된 데이터, 다른 데이터를 설명해주는 데이터

스키마 : 데이터베이스 전반적인 명세를 기술한 메타데이터의 집합

 

정형 데이터 : 형태가 있으며, 연산이 가능,

-      주로 관계형 데이터베이스에 저장(RDBMS)

-      데이터 수집 난이도가 낮고 처리가 쉬운 편

-      Ex.. 관계형 데이터베이스, 스프레드시트, CSV

반정형 데이터 : 형태(스키마, 메타데이터)가 있으며, 연산이  불가능

-      주로 파일로 저장.

-      데이터 수집 난이도 중간, 보통 API 형태로 제공, 데이터 처리 기술(파싱)이 요구됨

-      Ex. XML, TNL, JSON, 로그형태(웹로그, 센서데이터)

비정형 데이터 : 형태가 없으며, 연산이 불가능

-      주로 NoSQL에 저장

-      데이터 수집 난이도 높음, 텍스트 마이닝 혹은 피싱필요

-      Ex. 소셜데이터(트위터 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF)

 

XML : Extensible Markup Language 다목적 마크업 언어 태그를 이용한 언어

-      인터넷에 연결된 시스템끼리 데이터를 쉽게 주고받을 수 있게 하여 HTML의 한계 극복

-      Ex. XHTML, SVG

728x90
Comments