데브코스/TIL

2023-11-24 데이터 활용 시 고려할 점

Hynnjnn 2023. 11. 24. 17:00

데이터 관련 주의해야 할 이슈들

데이터 관련한 최근 변화

  • 데이터의 양 증가
  • Data Decentralization, Data Democratization
  • 클라우드
  • 데이터 거버넌스

-> 새로운 형태의 데이터 관리를 필요로 함


데이터 관련 이슈

  • 무분별한 데이터 전파
    한번 노출되면 악순환

    • 개인정보 생성 시 태그
    • 접근 권한 제어, 로깅 -> 감사
    • 개인정보 추출, 삭제 자동화

  • 같은 데이터, 다른 해석

    • 지표등의 정확한 정의 사전 필요 -> 데이터 사전
    • 각 지표 계산에서 바탕이 되는 데이터 = Source of Truth

  • 너무 많은 대시보드, 테이블 중복
    Data Democratization -> 정보 과잉, 찾는데 비용 증가, 데이터 중복 처리 비용 증가

    • Data Catalog 도입

  • 메타 데이터의 부족 (메타데이터 = 데이터의 데이터: 이 테이블에서 어떤 것이 개인정보인지 태그)

    • 누가 주인인가? 어떻게 생성되었는가? -> Data Lineage 데이터 계승도
    • 데이터 별 오너 지정
    • 데이터 별 다양한 태그, 분류 체계 적용

  • 불분명한 데이터 오너십

    • 위 내용과 비슷

  • Data Silo
    데이터 독점 현상. 한 조직이 데이터를 많이 가지고 있어서 다른 조직이 접근하기 어려움. 이것이 권력이 될 수도 있음.

    • Data Mesh 개념

개인정보와 보호

PII(Personally Identifiable Info)

  • 보호가 필요한 중요 정보가 무엇인가?
  • 이런 정보들이 정말 우리에게 필요한 정보인가?
  • 이 정보에 대한 접근이 정말로 필요한 사람은 누구인가?
  • 이 사람들이 정말로 해당 정보가 필요할 때 접근을 하는가?
  • 이런 접근들이 모두 기록이 되는가?
  • 기록을 주기적으로 감사하는가?