어쩌면 일지

[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 1, 2일차 본문

[데이터]

[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 1, 2일차

조아라세연 2023. 4. 19. 18:00
728x90

데이터 = “추론과 추정의 근거를 이루는 사실

           = 라틴어 Dare(주어진 것)

 

정성적 데이터 : 언어, 문자 -> 분석필요

정량적 데이터 수치, 도형, 기호 -> 정형화됨

 

암묵지(체화) 1) 공통화 : tell 2) 표준화 : to 형식지

형식지(형상화) 1)연결화 : 추가 2) 내면화 : to 암묵지

 

DIKW(데정지지) : Data(사실) ~더라 -> Info(의미) ~하다 -> Knowledge(내재화) ~해야겠다 -> Wisdom(창의) ~판단한다

 

 

DB 정의 1) 정형 데이터 관리(EU, 저작권법) -> 2) 빅데이터 출현, 비정형 데이터 포함

특징 1) 통합(중복x) 2) 저장(컴퓨터 접근) 3) 공용(공동이용) 4) 변화(삽입, 삭제, 갱신 but 정확도 유지)

1) 기계/검색/원격 가독성 2)신속/경제적 3)추가/갱신 용이 4) 네트워크 기술발전 5) 산업 효율성 제고

1980년대

-      OLTP(On-Line Transaction Processing) : 수시 갱신 (주문입력시스템, 재고관리시스템) – 정규적 핵심 데이터(수 기가)

-      OLAP(On-Line Analytical Processing) : 데이터 조회 (판매 추이, 구매 성향 파악, 재무 회계 분석) – 비정규적 요약된 데이터(수 테라)

2000년대

-      CRM(Customer Relationship Management) : 고객관계관리(마케팅)

-      SCM(Supply Chain Management) : 공급망 관리(실시간 정보공유)

제조분야

-      ERP(Enterprise Resource Planning) : 전사적 자원관리

-      BI(Business Intelligence) : 데이터를 의사결정에 활용하는 일련의 프로세스

-      CRM

-      RTE(Real-Time Enterprise) : ERP, SCM, CRM에서 나아가 회사 전 부문의 정보를 통합(실시간)

금융부문

-      EAI(Enterprise Application integration) : 애플리케이션 유기적 연동, 정보 중앙 집중화

-      EDW(Enterprise Data Warehouse) : BPR, CRM, BSC와 같은 애플리케이션의 원천, 빠른 전달X, 유기적 통합 데이터 중복 방지를 위한 시스템 재설계

유통부문

-      KMS(Knowledge Management System) : 지식관리시스템

-      RFID(Radio Frequency, RF) : 주파수를 이용해 ID를 식별 (전자태그)

사회기반구조로서의 DB : SOC(사회간접자본) 차원에서 EDI를 활용하여 VAN(부가가치통신망)을 통해 정보망이 구축되기 시작.

-      EDI(Electronic Data Interchange) : 서류를 전자적 신호로 바꿔 전송

-      VAN(Value Added Network) : 부가가치통신망- 부가가치가 높은 서비스를 하는 것

-      CALS(Commerce At Light Speed) : 제품의 라이프 사이클 전반에 관련된 데이터 통합, 공유, 교환

물류부문

-      CVO(Commercial Vehicle Operation System, 화물운송정보)

-      PORT-MIS(항만운영정보시스템)

-      KROIS(철도운영정보시스템)

지리/교통부문

-      GIS(Geographic Information System, 지리정보시스템)

-      RS(Remote Sensing, 원격탐사)

-      GPS(Global Positioning System, 범지구위치결정시스템)

-      ITS(Intelligent Transport System, 지능형교통시스템)

-      LBS(Location Based Service, 위치기반서비스)

-      SIM(Satial Information Management, 공간정보관리)

의료부몬

-      PACS(Picture Archiving and Communication System)

-      U헬스(Ubiquitous-Health)

교육부문

-      NEIS(National Education Information System, 교육행정정보시스템)

 

 

빅데이터 정의 1) 3V-데이터 자체의 특성 변화 2) 기술변화 : 처리, 분석 3) 인재, 조직 변화

 

3V= Volume(센싱데이터, 비정형데이터), Variety(정형, 비정형데이터), Velocity(데이터의 추출 및 분석속도)

4V= Value, Veracity, Validity, Volatility

 

데이터 규모의 발전 : EB(Exa Byte)->ZB(Zetta Byte)->ZB 본격화

데이터 유형의 발전 : 정형 데이터(DB)->비정형 데이터(이메일, SNS)->사물정보, 인지정보(RFID, Sensor, 사물통신)

사전처리->사후처리

표본조사->전수조사

->

인과관계->상관관계

 

기본 테크닉 1)연관규칙학습(변인들 간 상관관계) 2)유형분석(특성에 따른 분류) 3)기계학습(예측) 4)회귀분석(두 변인의 관계 파악) 4)감정분석 (감정을 분석: 평가) 5) 사회관계망분석 (영향력 있는 사람을 찾아냄)

 

 

위기요인

1.     사생활 침해 : 여행 사실 트위터 보고 강도

2.     책임 원칙 훼손 : 분석대상이 되는 사람들이 예측 알고리즘의 희생양(부당한 대출 거절)

3.     데이터 오용 : 잘못된 지표를 사용

-      결과 기반 책임 원칙 고수

-      알고리즘 접근 허용 : 알고리즈미스트가 필요

데이터사이언티스트 : 빅데이터의 다각적 분석, 전략 방향제시

알고리즈미스트 : 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제

728x90
Comments