경영정보시각화능력 필기_ 2과목 데이터 해석 및 활용
01. 경영정보일반
02. 데이터 해석 및 활용
03. 경영정보 시각화 디자인
1) 데이터 개념
[데이터의 정의]
데이터>정보>지식>통찰
[데이터의 역할과 가치]
- 의사결정 지원
- 문제해결
- 미래예측
- 성과관리
- 개인화 서비스
- 추세분석
- 품질 관리
- 위험 관리
- 과학적 연구
- 사회적 통찰
[구조에 따른 데이터 분류]
- 정형데이터
- 반정형데이터 : XML, JSON, HTML, YAML, 로그파일, 소셜미디어데이터, 이메일
- 비정형데이터 : 텍스트 문서, 소셜미디어콘텐츠, 이미지, 오디오, 비디오, 센서 데이터
[특성에 따른 데이터 분류]
- 범주형 데이터
> 명목형 데이터
> 순서형 데이터
- 숫자형 데이터
>이산형 데이터 /정수
>연속형 데이터 /실수
-기타 특성에 따른 데이터 유형
시계열데이터
텍스트데이터
멀티미디어데이터
공간데이터
생성데이터
[데이터 수명 주기]
- 데이터 수집>저장>처리>분석>보관>폐기
[빅데이터 개념]
- 컴퓨터 기술발전, 데이터저장 비용감소, 오픈소스 기술등장, 클라우드컴퓨팅 확산, 인터네과 디지털화, 사무일너텟 증가, 고급분석 및 러신머닝 등장, 데이터 기반의 의사결정, 데이터 과학의 부상으로 출현
- 특징 : 규모, 속도, 다양성, 진정성, 가치
- 기술 : 데이터수집, 데이터 저장, 데이터 처리, 데이터분석, 데이터 시각화, 데이터 보완, 분산컴퓨팅, 도구와 플랫폼, 빅데이터 분석 언어 및 프레임워크
빅데이터활용 : 의사결정, 운영 효율성 향상, 고객이해향상, 혁신 및 제품개발, 리스크 관리, 경쟁우위, 최적화된 마케팅 및 광고, 실기간 통찰
02. 데이터 해석
[데이터 해석의 주요관점]
- 통계적 관점
- 비즈니스 관점
- 맥락적 관점
- 데이터 품질관점
-윤리적관점
- 시각적관점
- 기술적 관점
[데이터 해석 관점의 중요성]
- 정확한 이사결정
- 전략적 통찰
-문제해결
-혁신촉진
-사회적영향
[데이터 해석 오류]
- 표본 편향/모집단 대표하지 못할 때 발생
- 측정오류
- 거짓 인과관계
- 이상치 무시
-일반화 오류 / 확증평향, 과대적합, 과소적합, 단일 변수 오류, 심슨의 역설
- 적절하지 않은 모델 선텍
-통계적 허위성
[데이터 탐색] EDA
- 주어진 데이터 세트를 다양한 각도에서 분석하고 이해하는 과정
데이터 탐색역할
데이터 탐색의 주요단계
[기초통계]
- 통계 정의 : 데이터를 수집, 분석, 결과해석, 요약, 불확실성 처리
- 기술통계 :
중심경향성 : 평균, 중앙값, 최빈
분산, 변동성 : 범위, 사분위수, 분산 표춘편
- 추론통계 : 표본데이터를 사용해서 전체 모집단 결론 도출
모집단>표본>표본추출>모수추청>신뢰구간>가설검정>상관관계>회귀분석
[확률]
- 불확실성한 사건의 발생가능성을 수학적으로 표현하는 방법
(정의)
확률 : 특정 사건이 발생할 가능성을 수치로 나태난 것으로 0~1사이 값.
사건 : 확률에서 고려되는 일련의 결과
표본공간 : 가능한 모든 결과 집합
(종류)
고전적 확률
빈도주의확률
베이지안 확률 : 사건의 발생가능성을 주관적인 믿음이나 추정에 근거하여 정의
[확률분포]
-확률변수
- 확률 질량 함수 pmf
- 확률 밀도 함수 pdf
[이산 확률 분포]
이항분포 : 성공/실패 두가지 결과만을 가지는 독립적인 베르누이 시행을 일정횟수 반복했을 떄 확률분포/ 동전 던지기
포아송분포 : 일정 시간, 공간에서 발생하는 사건의 평균 발생률 . 도착패턴, 고객 서비스 요청 등
[연속 확률 분포]
정규분포, 연속 균일 분포, 지수분포, 카이제곱분포, 스튜던트 t분포
[데이터마이닝]
분석기술 : 연관분석(데이터 집합에서 항목간의 인과성 찾는 기법) 지지도, 신뢰도, 향상도 측정
군집분석 : 데이터 유사한 집단으로 그룹화하여 성격파악하는 기법
분류분석 : 데이터 포인트를 미리 정의된 클래스 또는 범주로 할당하는 작업
회귀예측 : 연속형 변수값을 예측하는 기법
차원축소 : 주성분분석PCA, t-SNE 등
이상탐지
텍스트 마이닝
신경망 및 딥러