1. airflow 테스트 환경 구축

- 간단한 테스트 환경 구축을 위해 airflow에서 제공하는 docker compose yaml파일을 사용한다.

- 아래의 스크린샷과 같은 부분에서 다운받을 수 있다.

- 링크 : https://airflow.apache.org/docs/apache-airflow/stable/howto/docker-compose/index.html

curl로 다운하는 것도 가능하다

2. airflow에서 사용할 파이썬 라이브러리 추가 방법

- docker compose 파일에 간단하게 라이브러리를 추가하는 방법이 있다.

- airflow에서 pymysql이 기본으로 제공되지 않는데, pymysql을 설치하려면 아래와 같이 내용을 수정하고 저장하자.

## docker compose 파일에서 추가로 설치할 python module을 등록하는 경우
## 아래와 같은 environment 찾아서 수정 후 docker compose up -d
_PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- pymysql}

## module을 여러개 설치해야하는 경우는 아래와 같이 공백으로 구분하여 추가한다
_PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- pymysql pandas numpy}

3. airflow를 실행하자

- docker compose 파일이 있는 폴더에서 docker compose up -d으로 airflow 환경을 구축한다.

- airflow에서 사용하려는 port를 이미 사용하고 있는 경우 yaml에서 port 번호를 바꿔주도록 하자.

- 공식적으로 제공하는 파일에서는 id와 password는 모두 airflow이므로 변경이 필요하면 yaml에서 바꿔주자.

- localhost:8080 으로 접속해서 아래와 같은 창이 뜨면 테스트 환경 구축에 성공한 것이다.

 

'데이터 시스템 구축 정보 공유 > airflow' 카테고리의 다른 글

1. Airflow란?  (0) 2022.07.31

1. 2023년 정리
- 2023년에는 새로운 것을 많이 공부했지만 글로 정리는 많이 하지 못했다.
- 10월 말 부터는 건강에 큰 문제가 생겨서 회복에만 집중했다.
- 아직도 기복이 좀 있지만 이제 일상생활은 어느 정도 잘할 수 있게 됐다.

 


2. 블로그 계획
- 그동안 노션에만 정리하고 블로그에 올리지 못한 것을 정리해서 올리기로 했다.
- 초기 세팅부터 자세하게 쓰는 것을 목표로 했는데, 그것 때문에 오히려 작성을 미루는 경우가 많은 것 같았다.
- 이제는 실질적으로 필요한 내용만 적고, 참고했던 블로그나 문서를 레퍼런스로 달아두는 방식으로 하기로 했다.
- 너무 중복되는 내용들은 다른 블로그에도 많고, 나에게 필요한 내용이나 기억하고 싶은 것을 위주로 하기로 했다.


3. 주요 작성 내용
- 이번에는 에어플로우와 데이터레이크 구축 관련 내용을 주로 작성할 것 같다.
- 아마도 이번에는 데이터베이스나 실시간 데이터 처리에 대해서 많은 추가 내용을 적을 수 있을 것 같다.

1. 문제 상황

- with문으로 임시로 subquery를 작성하고 select를 하면서 확인하는 상황

- subquery 결과를 확인하는 도중 에러가 발생

 

2. 해결 방법

- athena에서는 주석이 있는 쿼리라고 해도 마지막 줄에 적어두면 안된다.

 

3. 예시

- 아래와 같은 경우에는 에러가 발생한다.

select * from my_kt1_subset;
-- select * from my_kt2_subset;

 

- 주석이 있어도 마지막 줄이 아닌 다른 줄에 쿼리를 임시로 저장해두자

-- select * from my_kt2_subset;
select * from my_kt1_subset;

+ Recent posts