목록2024/07/25 (1)
NIRVANA
[Apache Airflow] Apache Airflow 기반의 데이터 파이프라인 CH2 정리
2.1 다양한 소스에서 데이터 수집 로켓에 대한 뉴스를 한 곳에 수집하길 원하는 JohnJohn은 모든 로켓 발사에 대한 정보를 자동으로 수집, 최신의 로켓 발사에 대한 정보를 자동으로 수집하여 최신의 로켓 발사에 대해 간파할 수 있도록 하는 프로그램을 작성하고자 함 2.1.1 데이터 탐색데이터 수집을 위해 과거및 예정된 로켓 발사 데이터를 수집하는 온라인 저장소 Launch Library 1를 사용Launch Library2는 누구나 사용할 수 있는 오픈 API 2.1.2 첫번째 Airflow DAG 작성Airflow를 사용하면 하나 이상의 단계로 구성된 대규모 작업을 개별 태스크로 분할하고 DAG로 작성할 수 있음다중 태스크를 병렬로 실행하며 서로 다른 기술 사용 가능 Airflow에서 John의 ..
DataEngineering
2024. 7. 25. 22:02