1. 데이터 레이크란 무엇인가요?

- 어떤 서비스에서 생성되는 데이터를 모두 적재하는 저장소를 운영하는 것으로 생각하면 됩니다.

- 원천 데이터에서 저장소 까지 데이터를 적재하는 작업과 적재한 데이터를 잘 사용할 수 있도록 하는 작업이 주를 이룹니다.

 

2. AWS는 어렵지 않나요?

- 익히기는 어렵지만 로컬 컴퓨터에 실제 구축을 하는 것 보다 훨씬 적은 노력이 들어갑니다.

- 현재는 대부분의 기능은 자동으로 관리되는 관리형 기능이 많기 때문에 인프라 지식도 생각보다 많이 필요 없습니다.

 

3. 시작하며

- 대략적인 구조는 원천 데이터 베이스와 동일한 데이터를 가지는 데이터 웨어하우스를 만들고 파일로 적재합니다.

- 사용되는 기능은 s3, redshift, RDS, DMS, Athena 등이 있습니다.

- 당연히 AWS에 가입해서 리소스를 생성하는 작업이 있으니 AWS 계정을 생성하고 시작하세요!

- 사용에 따라 금액이 나올 수 있으나, 공부를 위해 조금은 투자를 한다고 생각하면 안 아까울지도??

1. airflow 테스트 환경 구축

- 간단한 테스트 환경 구축을 위해 airflow에서 제공하는 docker compose yaml파일을 사용한다.

- 아래의 스크린샷과 같은 부분에서 다운받을 수 있다.

- 링크 : https://airflow.apache.org/docs/apache-airflow/stable/howto/docker-compose/index.html

curl로 다운하는 것도 가능하다

2. airflow에서 사용할 파이썬 라이브러리 추가 방법

- docker compose 파일에 간단하게 라이브러리를 추가하는 방법이 있다.

- airflow에서 pymysql이 기본으로 제공되지 않는데, pymysql을 설치하려면 아래와 같이 내용을 수정하고 저장하자.

## docker compose 파일에서 추가로 설치할 python module을 등록하는 경우
## 아래와 같은 environment 찾아서 수정 후 docker compose up -d
_PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- pymysql}

## module을 여러개 설치해야하는 경우는 아래와 같이 공백으로 구분하여 추가한다
_PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- pymysql pandas numpy}

3. airflow를 실행하자

- docker compose 파일이 있는 폴더에서 docker compose up -d으로 airflow 환경을 구축한다.

- airflow에서 사용하려는 port를 이미 사용하고 있는 경우 yaml에서 port 번호를 바꿔주도록 하자.

- 공식적으로 제공하는 파일에서는 id와 password는 모두 airflow이므로 변경이 필요하면 yaml에서 바꿔주자.

- localhost:8080 으로 접속해서 아래와 같은 창이 뜨면 테스트 환경 구축에 성공한 것이다.

 

1. 2023년 정리
- 2023년에는 새로운 것을 많이 공부했지만 글로 정리는 많이 하지 못했다.
- 10월 말 부터는 건강에 큰 문제가 생겨서 회복에만 집중했다.
- 아직도 기복이 좀 있지만 이제 일상생활은 어느 정도 잘할 수 있게 됐다.

 


2. 블로그 계획
- 그동안 노션에만 정리하고 블로그에 올리지 못한 것을 정리해서 올리기로 했다.
- 초기 세팅부터 자세하게 쓰는 것을 목표로 했는데, 그것 때문에 오히려 작성을 미루는 경우가 많은 것 같았다.
- 이제는 실질적으로 필요한 내용만 적고, 참고했던 블로그나 문서를 레퍼런스로 달아두는 방식으로 하기로 했다.
- 너무 중복되는 내용들은 다른 블로그에도 많고, 나에게 필요한 내용이나 기억하고 싶은 것을 위주로 하기로 했다.


3. 주요 작성 내용
- 이번에는 에어플로우와 데이터레이크 구축 관련 내용을 주로 작성할 것 같다.
- 아마도 이번에는 데이터베이스나 실시간 데이터 처리에 대해서 많은 추가 내용을 적을 수 있을 것 같다.

'잡담' 카테고리의 다른 글

TIL 방식으로 데이터 엔지니어링 공부 시작  (0) 2025.09.19

+ Recent posts