어쩌면 일지
[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 1, 2일차 본문
데이터 = “추론과 추정의 근거를 이루는 사실”
= 라틴어 Dare(주어진 것)
정성적 데이터 : 언어, 문자 -> 분석필요
정량적 데이터 수치, 도형, 기호 -> 정형화됨
암묵지(체화) 1) 공통화 : tell 2) 표준화 : to 형식지
형식지(형상화) 1)연결화 : 추가 2) 내면화 : to 암묵지
DIKW(데정지지) : Data(사실) ~더라 -> Info(의미) ~하다 -> Knowledge(내재화) ~해야겠다 -> Wisdom(창의) ~판단한다
DB 정의 1) 정형 데이터 관리(EU, 저작권법) -> 2) 빅데이터 출현, 비정형 데이터 포함
특징 1) 통합(중복x) 2) 저장(컴퓨터 접근) 3) 공용(공동이용) 4) 변화(삽입, 삭제, 갱신 but 정확도 유지)
1) 기계/검색/원격 가독성 2)신속/경제적 3)추가/갱신 용이 4) 네트워크 기술발전 5) 산업 효율성 제고
1980년대
- OLTP(On-Line Transaction Processing) : 수시 갱신 (주문입력시스템, 재고관리시스템) – 정규적 핵심 데이터(수 기가)
- OLAP(On-Line Analytical Processing) : 데이터 조회 (판매 추이, 구매 성향 파악, 재무 회계 분석) – 비정규적 요약된 데이터(수 테라)
2000년대
- CRM(Customer Relationship Management) : 고객관계관리(마케팅)
- SCM(Supply Chain Management) : 공급망 관리(실시간 정보공유)
제조분야
- ERP(Enterprise Resource Planning) : 전사적 자원관리
- BI(Business Intelligence) : 데이터를 의사결정에 활용하는 일련의 프로세스
- CRM
- RTE(Real-Time Enterprise) : ERP, SCM, CRM에서 나아가 회사 전 부문의 정보를 통합(실시간)
금융부문
- EAI(Enterprise Application integration) : 애플리케이션 유기적 연동, 정보 중앙 집중화
- EDW(Enterprise Data Warehouse) : BPR, CRM, BSC와 같은 애플리케이션의 원천, 빠른 전달X, 유기적 통합 데이터 중복 방지를 위한 시스템 재설계
유통부문
- KMS(Knowledge Management System) : 지식관리시스템
- RFID(Radio Frequency, RF) : 주파수를 이용해 ID를 식별 (전자태그)
사회기반구조로서의 DB : SOC(사회간접자본) 차원에서 EDI를 활용하여 VAN(부가가치통신망)을 통해 정보망이 구축되기 시작.
- EDI(Electronic Data Interchange) : 서류를 전자적 신호로 바꿔 전송
- VAN(Value Added Network) : 부가가치통신망- 부가가치가 높은 서비스를 하는 것
- CALS(Commerce At Light Speed) : 제품의 라이프 사이클 전반에 관련된 데이터 통합, 공유, 교환
물류부문
- CVO(Commercial Vehicle Operation System, 화물운송정보)
- PORT-MIS(항만운영정보시스템)
- KROIS(철도운영정보시스템)
지리/교통부문
- GIS(Geographic Information System, 지리정보시스템)
- RS(Remote Sensing, 원격탐사)
- GPS(Global Positioning System, 범지구위치결정시스템)
- ITS(Intelligent Transport System, 지능형교통시스템)
- LBS(Location Based Service, 위치기반서비스)
- SIM(Satial Information Management, 공간정보관리)
의료부몬
- PACS(Picture Archiving and Communication System)
- U헬스(Ubiquitous-Health)
교육부문
- NEIS(National Education Information System, 교육행정정보시스템)
빅데이터 정의 1) 3V-데이터 자체의 특성 변화 2) 기술변화 : 처리, 분석 3) 인재, 조직 변화
3V= Volume(센싱데이터, 비정형데이터), Variety(정형, 비정형데이터), Velocity(데이터의 추출 및 분석속도)
4V= Value, Veracity, Validity, Volatility
데이터 규모의 발전 : EB(Exa Byte)->ZB(Zetta Byte)->ZB 본격화
데이터 유형의 발전 : 정형 데이터(DB)->비정형 데이터(이메일, SNS)->사물정보, 인지정보(RFID, Sensor, 사물통신)
사전처리->사후처리
표본조사->전수조사
질->양
인과관계->상관관계
기본 테크닉 1)연관규칙학습(변인들 간 상관관계) 2)유형분석(특성에 따른 분류) 3)기계학습(예측) 4)회귀분석(두 변인의 관계 파악) 4)감정분석 (감정을 분석: 평가) 5) 사회관계망분석 (영향력 있는 사람을 찾아냄)
위기요인
1. 사생활 침해 : 여행 사실 트위터 보고 강도
2. 책임 원칙 훼손 : 분석대상이 되는 사람들이 예측 알고리즘의 희생양(부당한 대출 거절)
3. 데이터 오용 : 잘못된 지표를 사용
- 결과 기반 책임 원칙 고수
- 알고리즘 접근 허용 : 알고리즈미스트가 필요
데이터사이언티스트 : 빅데이터의 다각적 분석, 전략 방향제시
알고리즈미스트 : 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제
'[데이터]' 카테고리의 다른 글
빅데이터 분석이 정말 실생활에 활용되고 있을까? (0) | 2023.05.04 |
---|---|
[출근 전 30분] ADsP 데이터 분석 준전문가 자격증 준비하기: 4일차 (0) | 2023.04.24 |
[출근 전 30분] ADsP 데이터 분석 준전문가 준비하기: 3일차 (0) | 2023.04.21 |