Data Drift 발견하기
머신러닝 모델에서 Data Drift가 무엇이며 어떻게 발견하는지에 대한 글입니다. Drift란 무엇인가 그리스의 철학자 헤라클레이토스는 “같은 강물에 두 번 발을 담글 수 없다”라는 말을 남겼다고 합니다. 강물이 끊임없이 흐르기 때문에 어떤 사람이 똑같은 자리에 서서 두번째로 발을 넣는다 한들 그건 처음과 같은 강물이 아니라는 뜻이죠. 마...
머신러닝 모델에서 Data Drift가 무엇이며 어떻게 발견하는지에 대한 글입니다. Drift란 무엇인가 그리스의 철학자 헤라클레이토스는 “같은 강물에 두 번 발을 담글 수 없다”라는 말을 남겼다고 합니다. 강물이 끊임없이 흐르기 때문에 어떤 사람이 똑같은 자리에 서서 두번째로 발을 넣는다 한들 그건 처음과 같은 강물이 아니라는 뜻이죠. 마...
글또 또 한다 4기부터 시작해서 벌써 5기수째다. 4기를 시작할 때 나는 갓 대학원을 졸업하고 인턴을 끝낸, 내가 하고 싶은 일로 취업을 했다는 것에 적당히 신나있는 신입이었는데, 진짜 좀 무서울 정도로 빠르게 3년이 지났다. 그때와 지금 나라는 사람이 본질적으로 많이 바뀌었다고 생각하진 않지만 겉으로 달라진 것들은 있겠다. 우선 일적으로는 주니어라...
글또 7기 올해도 글또에 참여했고, 이 글은 글또 7기 마지막 글이다. 작성한 글들 (이 글 제외 총 9개) DBSCAN 이해하기 트위터의 이미지 크롭 알고리즘은 뭐가 문제였을까 스파크가 뭔지만 대충 아는 사람을 위한 RDD 설명 MLFlow Tracking 튜토리얼 Attenti...
토픽 모델링 기법인 LDA의 가정과 추론 방식을 쉽게 설명한 글입니다. 오늘은 잘 알려진 토픽 모델링 기법인 LDA에 대해서 알아보겠습니다. LDA는 Latent Dirichlet Allocation, 즉 잠재 디리클레 할당이라는 이름이며, 보다시피 이 이름은 3개의 단어로 이루어져 있습니다. 이 세 단어를 하나씩 뜯어보면 LDA를 이해할 수...
데이터 전체의 기댓값과 동떨어진 부분집합을 찾아내는 Subset Scanning 알고리즘의 간단한 접근 방식과 사용법에 대해 알아봅니다. Searching for Anomalous Subsets? All You Need is Scanning- Tanya Akumu / SciPy 2022 및 관련 자료들을 기반으로 작성하였습니다. 어떨 때 필요...
그래프 데이터베이스의 질의 언어인 Cypher를 처음부터 따라해 볼 수 있는 가이드입니다. 데이터 생성, 검색, 변경, 삭제에 필요한 기초 구문들을 배웁니다. 그래프DB - Cypher 기초 이전에 그래프 데이터베이스 Neo4j에 대해 소개글을 쓴 적이 있습니다. 그 글에서는 그래프 DB에 대한 간단한 설명, Neo4j 샌드박스 DB 생성과...
데이터 분석가로 일을 하면서 구독하게 된 뉴스레터들 이야기입니다. 왜 보나요? 일단 뉴스레터를 구독하는 이유부터 이야기해보겠습니다. 진부한 이야기인데, 뭔가 잘 하려면 인풋을 늘려야 한다고 많이 하잖아요. 예를 들어 글을 잘 쓰려면 다양하게 읽고 필사도 해야 늘더라 라는 말도 그렇고, 외국어를 잘하려면 그 언어를 접하는 창구를 최대한 늘려...
Attention의 설명력에 대한 논쟁들, Attention is not Explanation과 Attention is not not Explanation을 읽어보았습니다. 설명인가 아닌가, 설명이란 무엇인가… 어텐션은 설명이다? 어텐션(Attention) 매커니즘은 seq2seq RNN의 문제점을 해결하고 다양한 자연어처리 과제에서 뛰어난...
MLFlow 로 머신러닝 모델의 실험 트래킹/로깅을 처음 해보는 사람을 위한 간단한 튜토리얼입니다. 제가 처음 해보면서 썼습니다. 들어가기 전에 이 글을 보고 얻을 수 있는 정보는: MLflow 로 ML 실험을 기록하고 싶은데 어떻게 하는지 간단하게 알고 싶다/따라하고 싶다 Pyspark로도 쓰고 싶다 (+ Pan...
스파크의 RDD와 관련된 개념들(Transformation & Action, DAG, Lazy Evaluation)에 대해 무엇인지 쉽고 간단하게 정리해보는 글입니다. 스파크를 처음 접하게 되면 보통 아래와 같은 정보들을 순차적으로 접하게 됩니다. 아파치 스파크는 빅데이터를 위한 분산 병렬 처리 프레임워크다. 이전에 비슷한 목적...