1. redshift가 뭔가요?
- postgresql를 기반으로한 AWS의 서비스입니다.
- 실습에서는 데이터웨어하우스로 사용하기 위해 구축합니다.
- 관리형 데이터베이스 서비스인 RDS를 사용하면 Zero-ETL을 구축할 수 있습니다.
https://docs.aws.amazon.com/ko_kr/redshift/latest/dg/c_redshift-and-postgres-sql.html
https://docs.aws.amazon.com/ko_kr/redshift/latest/mgmt/serverless-whatis.html
2. Zero-ETL은 뭔가요?
- ETL 과정에서 복잡한 파이프라인 생성을 생략하는 기능입니다.
- AWS의 관리형 데이터베이스인 RDS를 사용하면 CDC 기능을 사용해서 redshift에 데이터를 바로 쌓을 수 있습니다.
- ETL은 데이터른 추출하고 변환하고 적재하는 과정을 말합니다.
- CDC는 데이터베이스의 변경되는 데이터를 바로 다른 DB나 저장소에 반영하는 것으로 생각하면 됩니다.
https://aws.amazon.com/ko/what-is/zero-etl/
3. 요금은 어떻게 나올까
- 기본적으로 저장된 데이터의 용량에 따라 월별 요금이 나옵니다.
- 그리고 쿼리 작업을 하는데 사용하는 컴퓨팅 리소스에 따라 요금이 나옵니다.
https://aws.amazon.com/ko/redshift/pricing/
4. 너무 복잡해요!
- 용어에 대해서 너무 깊게 이해할 필요는 없습니다.
- 실습을 진행하면서 어떤 기능인지 눈으로 확인하고 이해해도 괜찮아요.
- 생각보다 redshift를 이용한 CDC 방법이 제일 쉬울 수 있습니다.
4. 다음 글 예고
- AWS에서 redshift를 직접 생성합니다.
'데이터 시스템 구축 정보 공유 > Aws Data Pipeline' 카테고리의 다른 글
1. AWS에서 데이터 레이크 만들기 (0) | 2024.01.20 |
---|