파파스머프의 블로그: 클라우드 전쟁: AWS Summit 2019 seoul 둘째날 #2

오늘 참석한 세션중에 아마존 이노베이션 세션 2개와 데이터 레이크가 무척 재미 있었습니다. ^^

간단하게 요약한 내용들입니다.

이펙티브 데이터 레이크
Effective data lake 고객 경험을 통한 사례 탐구
유다니엘 솔루션 아키텍트

데이터 분석 트렌드
가장 가치 있는 자원은 데이터 이다

Faang가 아닌 Maang의 시대
시가 총액 기준 상위 업체 5개
데이터를 잘 다루는 업체가 상위에 있다

스마트폰 iot 데이터가 증가됨
데이터는 예측하는 규모가 아닌 기하급수적으로 급증
데이터는 5년마다 10배 이상 늘고 있다
10년이면 1천배

언스트럭쳐 세미스트럭처 데이타가 늘고 있다
다양해진 데이터 유형
Rdb는 여기에 최적화 되어 있지 않다

그 어느때 보다 빠르게 발전하는 데이터 분석 기술
기술적 진입이 낮아짐

더 다양한 데이터 소비자
다 복잡한 요구사항
분석도구가 다르다 복잡도 증가

레거시 환경의 data silos문제
단일의 데이터 뷰가 필요하다

Aws data lake
중앙 집중식 클라우드 스토리지 s3를 사용
데이터 포맷에 제한이 없다
중앙 집중식 아키텍쳐로 뎅터 거버넌스
컴퓨팅과 분석을 위한 그토리지 분리
빠른 데이터 수집
가장 적합한 도구를 사용하면 된다
싱글뷰로 접근하는 최적의 도구

Data lake amazon s3 설계 구조
티어1 원본 데이터를 가져온다
티어2 분석용 데이터
티어3 특정한 분석 목적 데이터 필수는 아님
각각의 버킷에 담아서 처리한다
Redshift emr athena AI service
다양한 팀에서 요구하는 데이터를 버킷에 담아서 처리한다

Data Warehouse에서 Data lake로 확장
구조화된 뎅터를 위해 빠른 응답 지원
DW와 data lake간의 joint쿼맆지원
Redshift Spectrum query 엔진으로 전체 데이터를 분석한다
비용절감에 활용해도 된다

Layers of data lake
S3에 모든 데이터가 저장된다
Msk managed service for kafka
축적된 데이터를 이해하는 방법
Ingest. Discover
Aws glue
ETL기능을 제공해준다
대규모 데이터를 에드혹 하게 분석한다면 아테나 콘솔에 집중한다
분석에 필요한 쿼리에 집중할 수 있다
쿼리단으로 비용이 발생한다
Dw dm이라면 레드쉬프트를 사용한다
검색엔진은 엘라스틱
머신러닝은 세이즈메니져 사용
보안을 최우선으로 하고 있다
Kms iam cloudTrail CloudWatch

금융고객도 사용중
맥도날드 매일 7천만건 처리
전세계 인구의 1프로를 매일 먹이고 있다
비즈니스 모델의 변화
디지털화 하는 고객의 변화
우버이트를 통한 배달 미니 레스트랑 오픈
흩어져 있던 데이터 소스를 모았다
Ai ml에 대해서는 제약이 있었다

맥도날드 글로벌 뎅터 분석 플랫폼
글로벌한 뎅터는 s3 data lake로 수집 축적한다
엑세스 패턴이 잘 정의되지 않은 경우도 있다 아테나를 사용해서 분석 서버리스를 사용 쿼리당 비용이 발생한다
데이터 사이언스 머신 러닝을 위한 패턴

원본 데이터 수집 첫번째 버킷
분석용 뎅터 두반째 버킷 글루로 카탈로그
아웃바운드 피드를 위한 외부 공유 데이터

글로벌 한 모든 뎅터를 한곳에서 수집
뎅터 거버넌스 중앙에서 구축
데이터를 통해 비즈니스 통찰력과 성장 속도 향상

다우존스의 사례
데이터에 대한 도전 과제
혼란스러운 데이터 버전
데이터에 대한 제한된 가시성
데이터를 찾는 낭비되는 시간
누락된 통찰력
셀프서비스의 부재

데이터 분석 로드맵
예측 분석과 머신 러닝을 위한 단계
데이터를 모으는 작업이 일단계이다
나는 어떤 단계에 도달해 있는가? 인사이트를 얻자
데이터 분석 플랫폼
많은 버킷들로 구성됨
서로간의 뎅터 센터가 전용선으로 연결되어 있다

데이터 레이크 세부구조
랜딩로그 스테이징 로그 웨어하우스로그 마츠로그
스테이징은 원본 데이터를 정재하고 가공한다
웨아하우스는 집계
데이터마트는 특정 도메인에 맞게 데이터를 만든다

최종결과
12개의 대시보드를 사용
118테라 데이터를 사용한다
100명이 매일 사용한다
빠른 속도가 필요하면 레드쉬프트에 두고 사용한다

데이터 레이크를 신속하게 구축 관리하려면
S3버킷 생성
데이터 수집
데이터 프로세식 및 카탈로그화 셀프서비스를 위함
보안 및 컴플라이언스 정책 설정 누가 엑세스하는지?
데이터 활용 및 분석 amazon athena 사용
러닝커브에 대한 문제가 있었다
운영가능한 뎅터 레이크 구축에 수개월이 걸림

Aws lake Formation
신속하게 data lake 구축
감편해진 보안 설정
데이터 건색 및 공유 향상
아직은 프리뷰로 제공됨
쉽게 뎅터 레이크를 구축할 수 있다
추가 비용은 발생하지 않는다