목록분류 전체보기 (213)
NIRVANA
이 글에서 이어집니다!https://nervertheless.tistory.com/221 [Apache Airflow] 웹 크롤링 DAG 작성하기(복습을 위해 살펴보는) Airflow 구조 Scheduler스케줄된 Workflow(DAG)을 트리거하고 제출된 Task를 실행(조건을 만족할 경우, Task를 실행할 수 있게 함)executor에게 Task를 제공해주는 역할을 수행 생성된nervertheless.tistory.com 이 전에 웹 크롤링 DAG를 작성했던 적이 있었는데 그 때는 목표에 의하면 s3 버킷에 저장을 했어야 했지만 EC2 인스턴스 문제로 저장까지 못했었다.. 그래서 이번에는 AWS 말고 그냥 로컬 환경에서 크롤링 데이터를 수집하고 HDFS에 저장 해보려고 한다. 먼저 환경을 구축..
데이터 집계 시간을 단축하기 위해 사용하는 방법에는 2가지가 있다. 데이터가 작을 경우, 데이터를 모두 메모리에 올리는 방법압축과 분산을 통해서 지연을 줄이는 방법 1. 압축 - 열 지향 데이터베이스 vs 행 지향 데이터베이스 우리가 잘 알고 사용하는 RDB는 행 지향 데이터베이스로 데이터를 행 단위로 추가하며, 레코드 단위의 읽고 쓰기에 최적화 되어 있다. 행 지향 데이터베이스에서는 데이터 검색을 고속화하기 위해 인덱스를 사용한다. 행 지향 데이터베이스의 경우 레코드 단위로 데이터가 저장되므로 특정 쿼리에서는 행의 모든 데이터가 필요하지 않는 경우가 종종 생기게 된다. 이런 행 지향 데이터베이스의 경우, 쓰기 작업이 작은 I/O 데이터 분석 작업에는 유용하나, 데이터가 많은 분석 환경에서는 집계에..
(복습을 위해 살펴보는) Airflow 구조 Scheduler스케줄된 Workflow(DAG)을 트리거하고 제출된 Task를 실행(조건을 만족할 경우, Task를 실행할 수 있게 함)executor에게 Task를 제공해주는 역할을 수행 생성된 DAG를 지속적으로 모니터링하고, 종속성 및 타이밍 구성에 따라 실행할 작업을 예약한다 ExecutorTask를 수행하는 역할 스케줄러와 통신하여 실행할 작업에 대한 정보를 받고, 다음 작업을 실행하는 데 필요한 프로세스나 컨테이너를 시작한다인프라나 요구사항에 따라 LocalExecutor, CeleryExecutor, KubernetesExecutor 등 다양한 유형의 실행자가 존재 WorkerExecutor가 할당한 작업을 수행하는 구성 요소 (실제 Task 실..
시맨틱 검색이란?단어와 구문의 의미를 해석하는 검색 엔진 기술, 단순히 쿼리의 단어와 문자가 그대로 일치하는 콘텐츠가 아닌, 쿼리의 '의미'와 일치하는 콘텐츠를 반환자연어를 보다 정확하고 상황에 맞게 해석하여 검색 결과의 품질을 향상시키기 위해 사용 시맨틱 검색 vs 키워드 검색키워드 검색은 단어와 단어, 단어와 동의어, 단어와 유사한 단어가 일치하는 결과를 반환하는 반면 시맨틱 검색은 쿼리에 포함된 단어의 의미와 일치하는 것을 찾음시맨틱 검색이 직접적인 단어 일치가 있는 결과를 생성하지 않을 수도 있지만 사용자의 의도와는 일치하는 경우도 존재키워드 검색 엔진의 경우 동의어나 단어 생략과 같은 쿼리 확장 혹은 완화 도구를 사용하고 오타 허용, 토큰화, 정규화와 같은 자연어 처리 및 이해 도구를 사용시맨..
1. 문제계속되는 폭우로 일부 지역이 물에 잠겼습니다. 물에 잠기지 않은 지역을 통해 학교를 가려고 합니다. 집에서 학교까지 가는 길은 m x n 크기의 격자모양으로 나타낼 수 있습니다.아래 그림은 m = 4, n = 3 인 경우입니다.가장 왼쪽 위, 즉 집이 있는 곳의 좌표는 (1, 1)로 나타내고 가장 오른쪽 아래, 즉 학교가 있는 곳의 좌표는 (m, n)으로 나타냅니다.격자의 크기 m, n과 물이 잠긴 지역의 좌표를 담은 2차원 배열 puddles이 매개변수로 주어집니다. 오른쪽과 아래쪽으로만 움직여 집에서 학교까지 갈 수 있는 최단경로의 개수를 1,000,000,007로 나눈 나머지를 return 하도록 solution 함수를 작성해주세요.제한사항격자의 크기 m, n은 1 이상 100 이하인 자연..
1. 문제 위와 같은 삼각형의 꼭대기에서 바닥까지 이어지는 경로 중, 거쳐간 숫자의 합이 가장 큰 경우를 찾아보려고 합니다. 아래 칸으로 이동할 때는 대각선 방향으로 한 칸 오른쪽 또는 왼쪽으로만 이동 가능합니다. 예를 들어 3에서는 그 아래칸의 8 또는 1로만 이동이 가능합니다.삼각형의 정보가 담긴 배열 triangle이 매개변수로 주어질 때, 거쳐간 숫자의 최댓값을 return 하도록 solution 함수를 완성하세요.제한사항삼각형의 높이는 1 이상 500 이하입니다.삼각형을 이루고 있는 숫자는 0 이상 9,999 이하의 정수입니다 2. 문제 풀이 맨 끝에 있는 숫자의 경우에는 각자 오른쪽/왼쪽에 따라 각각 자신의 오른쪽 혹은 왼쪽의 값을 더하면 된다.중앙에 있는 숫자의 경우 두 개의 숫자와 더할 수..