Productionizing Airflow
프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python을 듣고 정리한 내용입니다. Docker와 Kubernetes Docker Docker Image 단순히 응용프로그램 뿐 아니라 그 프로그램이 필요로 하는 모든 다른 환경까지 포함한 소프트웨어 패키...
프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python을 듣고 정리한 내용입니다. Docker와 Kubernetes Docker Docker Image 단순히 응용프로그램 뿐 아니라 그 프로그램이 필요로 하는 모든 다른 환경까지 포함한 소프트웨어 패키...
프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python을 듣고 정리한 내용입니다. 질문 리뷰 Airflow worker 노드에서 spark 처리하지는 않고, spark를 처리한 걸 받아서 실행 쿠버네티스 하나의 서버 자원을 효율적으로 쓸 수 있게 해줌 데이터 양이 많아...
프로그래머스 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python을 듣고 정리한 내용입니다. Spark / Athena 사용 시나리오 비구조화된 데이터 처리 매우 큰 비구조화된 데이터 → S3 → Spark, Athena를 통해 정제하고 크기를 줄이고 → Redshift Redshift 비싸...
머신러닝 모델에서 Data Drift가 무엇이며 어떻게 발견하는지에 대한 글입니다. Drift란 무엇인가 그리스의 철학자 헤라클레이토스는 “같은 강물에 두 번 발을 담글 수 없다”라는 말을 남겼다고 합니다. 강물이 끊임없이 흐르기 때문에 어떤 사람이 똑같은 자리에 서서 두번째로 발을 넣는다 한들 그건 처음과 같은 강물이 아니라는 뜻이죠. 마...
글또 또 한다 4기부터 시작해서 벌써 5기수째다. 4기를 시작할 때 나는 갓 대학원을 졸업하고 인턴을 끝낸, 내가 하고 싶은 일로 취업을 했다는 것에 적당히 신나있는 신입이었는데, 진짜 좀 무서울 정도로 빠르게 3년이 지났다. 그때와 지금 나라는 사람이 본질적으로 많이 바뀌었다고 생각하진 않지만 겉으로 달라진 것들은 있겠다. 우선 일적으로는 주니어라...
글또 7기 올해도 글또에 참여했고, 이 글은 글또 7기 마지막 글이다. 작성한 글들 (이 글 제외 총 9개) DBSCAN 이해하기 트위터의 이미지 크롭 알고리즘은 뭐가 문제였을까 스파크가 뭔지만 대충 아는 사람을 위한 RDD 설명 MLFlow Tracking 튜토리얼 Attenti...
토픽 모델링 기법인 LDA의 가정과 추론 방식을 쉽게 설명한 글입니다. 오늘은 잘 알려진 토픽 모델링 기법인 LDA에 대해서 알아보겠습니다. LDA는 Latent Dirichlet Allocation, 즉 잠재 디리클레 할당이라는 이름이며, 보다시피 이 이름은 3개의 단어로 이루어져 있습니다. 이 세 단어를 하나씩 뜯어보면 LDA를 이해할 수...
데이터 전체의 기댓값과 동떨어진 부분집합을 찾아내는 Subset Scanning 알고리즘의 간단한 접근 방식과 사용법에 대해 알아봅니다. Searching for Anomalous Subsets? All You Need is Scanning- Tanya Akumu / SciPy 2022 및 관련 자료들을 기반으로 작성하였습니다. 어떨 때 필요...
그래프 데이터베이스의 질의 언어인 Cypher를 처음부터 따라해 볼 수 있는 가이드입니다. 데이터 생성, 검색, 변경, 삭제에 필요한 기초 구문들을 배웁니다. 그래프DB - Cypher 기초 이전에 그래프 데이터베이스 Neo4j에 대해 소개글을 쓴 적이 있습니다. 그 글에서는 그래프 DB에 대한 간단한 설명, Neo4j 샌드박스 DB 생성과...
데이터 분석가로 일을 하면서 구독하게 된 뉴스레터들 이야기입니다. 왜 보나요? 일단 뉴스레터를 구독하는 이유부터 이야기해보겠습니다. 진부한 이야기인데, 뭔가 잘 하려면 인풋을 늘려야 한다고 많이 하잖아요. 예를 들어 글을 잘 쓰려면 다양하게 읽고 필사도 해야 늘더라 라는 말도 그렇고, 외국어를 잘하려면 그 언어를 접하는 창구를 최대한 늘려...