목록2024/10/06 (1)
NIRVANA
ETL 파이프라인 설계해 보기 (1)
이 글에서 이어집니다!https://nervertheless.tistory.com/221 [Apache Airflow] 웹 크롤링 DAG 작성하기(복습을 위해 살펴보는) Airflow 구조 Scheduler스케줄된 Workflow(DAG)을 트리거하고 제출된 Task를 실행(조건을 만족할 경우, Task를 실행할 수 있게 함)executor에게 Task를 제공해주는 역할을 수행 생성된nervertheless.tistory.com 이 전에 웹 크롤링 DAG를 작성했던 적이 있었는데 그 때는 목표에 의하면 s3 버킷에 저장을 했어야 했지만 EC2 인스턴스 문제로 저장까지 못했었다.. 그래서 이번에는 AWS 말고 그냥 로컬 환경에서 크롤링 데이터를 수집하고 HDFS에 저장 해보려고 한다. 먼저 환경을 구축..
DataEngineering
2024. 10. 6. 20:17