1-1 데이터란?
데이터는 우리 생활 모든 곳에 널려있다.
이런 데이터를 기록하고 수집하는 것 = Digitization
데이터 크기보다 데이터 품질이 중요.
1-2 데이터팀의 미션
데이터를 파는 것이 아니다.
데이터 = 촉매제 -> 신뢰할 수 있는 데이터를 바탕으로 부가가치를 생성
Decision Science
결정을 과학적으로.
data informed decisions vs data driven decisions
data driven decisions - 데이터를 중심으로 하는 결정.
data informed decisions - data를 참고하는 느낌. 내가 잘하는 일이 있고 그것을 최적화 할 때Product Science
과학적으로 제품 개선 by ML model
데이터 흐름과 데이터 팀
- 데이터 인프라 by data engineer
- 데이터 분석 by data analyst
- 데이터 과학 -> 사용자 경험 개선 by data scientist
1-3 데이터팀의 발전 단계 - 데이터 인프라
1. 데이터 인프라 구축
데이터 소스로부터 데이터를 ETL -> 데이터 웨어하우스 by 데이터 엔지니어(SQL, Python)
데이터 파이프라인 or ETL - (Extract, Transform, Load) - airflow?
빅데이터 분산 처리 - Spark
데이터 웨어하우스
SQL기반 관계형 데이터베이스. 구조화된 데이터 프로세싱. 비쌈
Production DB는 회사 서비스 운영을 위한 DB로 빠른 처리 필요
데이터 분석을 위한 별도 DB가 데이터 웨어하우스 - 보통 클라우드 사용
데이터 레이크
모든 데이터를 원래 형태로 보존하는 스토리지에 가까움. 쌈
로그같은 비구조화된 크기가 큰 데이터, 활용 불 분명한 데이터
보통 데이터레이크에서 -> 필요한 데이터 가공해서 웨어하우스로 옮기는 식
#
1-4 데이터팀의 발전 단계 - 데이터 분석
2. 데이터 분석 수행
Decision science
지표 정의, 시각화, 리포팅 by 데이터 분석가
ETL로 웨어하우스나 레이크로 적재된 테이블 조합해서 새로운 정보를 만들어 내는 과정 (ELT or T)
tool (DBT - 데이빗 테스트?)
KPI
Key Performance Indicator
조직 내 달성하고자 하는 중요한 목표
ex) 매출액, 유료 회원 수, 강의 만족도 등
KPI 적을 수록 좋다.
시각화 대시보드
일반적으로 중요한 지표를 시간의 흐름과 함께 보여줌
지표의 경우 3A(Accessible, Actionable, Auditable)가 중요
- Tableau
- Power BI
- Looker
1-5 데이터팀의 발전 단계 - 데이터 과학
3. 데이터 과학 적용
Product science
데이터 과학자가 머신러닝 모델을 만들어서 수행함
행동패턴 -> 개인화(추천)
1-6 클라우드란?
컴퓨팅 자원(SW, HW)을 네트워크를 통해 서비스 형태로 사용하는 것
"No provisioning"- 준비할 필요가 없다.
"Pay as you go" - 쓴만큼 돈을 낸다.
클라우드가 없다면?
- 서버, 네트워크, 스토리지 구매, 설정 필요
- 데이터 센터 공간 필요
- Peak time 기준으로 맞춰야 함 -> 평소에는 노는 자원이 많다.
클라우드 장점
- 초기 투자 비용 줄어듦. 자산(감가상각o)의 형태가 아니라 쓴만큼 비용을 지불한다.
- 기회비용
- 노는 리소스 제거
- 글로벌 확장 용이
- 소프트웨어 개발 시간 단축
1-7 AWS란?
Amazon Web Service
EC2(Elastic Compute Cloud) - 서버 호스팅 서비스
구매옵션
- On-Demand - 시간당 비용 지불
- Reserved - 1년이나 3년 사용 보장하고 디스카운트
- Spot Instance - 경매방식. 뺏길 수 있음
S3 - 대용량 클라우드 스토리지 서비스
RDS - Production DB 서비스
Redshift - 데이터 웨어하우스 서비스
등등
1-8 데이터 조직 구성원
데이터 엔지니어
- 기본적으로 소프트웨어 개발자(python, sql, airflow, spark)
- 데이터 인프라 구축
- 보통 외부 요청에 의해 새로운 데이터 소스 추가 ETL (PII: Personal Identifiable Info = 개인정보)
데이터 분석가
- 데이터 웨어하우스의 데이터를 기반으로 지표를 만들고 시각화
- dbt
ETL vs ELT
ETL - 데이터 시스템 밖에 있는 데이터를 안으로
ELT - 이미 데이터 시스템 안에 있는 데이터를 조합하여 새로운 데이터를 만드는 것
데이터 리니지가 중요 - 관계도 계승도. x라는 테이블을 만들기 위해 사용된 테이블?
데이터 과학자
- 과거 데이터를 기반으로 미래를 예측하는 머신러닝 모델 생성
- 데이터 수집에 있어 왜곡 있는지? 개인정보?
- 모델의 동작에 대해 설명할 수 있는지? Model = Black box.
- 배포 과정 자동화? MLOps
머신러닝 모델 사이클
- 문제정의
- 훈련용 데이터 수집
- 모델 빌딩과 테스트
- 모델 배포
- 모델 A/B 테스트
- A/B 테스트 결과 분석
- 비즈니스 개선
머신러닝 모델 사이클도 Waterfall보다는 Agile한 형태로.
A/B 테스트
사용자를 두 개의 그룹으로 구분 후 기존 방법과 새로운 방법의 결과를 비교하는 테스트
1-9 데이터 문해력 정의
데이터 문해력 = 데이터를 이해하고 활용할 수 있는 능력
결국 데이터 문해력 = 데이터 기반 의사 결정, 데이터 기반 생산성 증대, 생성AI 데이터 기반 생산성 증대.
데이터 문해력 발전 트렌드
모든 조직이 데이터를 활용(Decentraliztion)
생성AI와 같은 툴을 사용 GhatGPT, Copilot
데이터 거버넌스? data governance
데이터가 중요하고 데이터의 잘못된 관리에 의한 페널티가 있으니까 조심해라
1-10 데이터 교훈
무슨 일을 하건 그 일의 성공 지표를 생각하자 A/B 테스트?
'데브코스 > TIL' 카테고리의 다른 글
| 2023-11-27 데브코스 2주차 - 1 TIL (0) | 2023.11.27 |
|---|---|
| 2023-11-24 데이터 활용 시 고려할 점 (0) | 2023.11.24 |
| 2023-11-23 Gen AI를 이용한 생산성 증대 (0) | 2023.11.23 |
| 2023-11-22 데이터 기반 제품 개선 (0) | 2023.11.22 |
| 2023-11-21 데이터 기반 의사 결정 (0) | 2023.11.21 |