글또를 보내며 테크 블로그 5년 돌아보기

안 올 것 같던 날이 와버렸다 글또를 시작한 건 2020년, 4기 때부터였다. 무섭게도 그게 벌써 5년 전이다. 일을 시작한 지 얼마 안 된 시점이었고, 6개월 간의 인턴+논문 병행의 터널을 뚫고 다행히 척척석사와 정규직이라는 미션을 완료했다는 안도감이 제일 크던 때였다. 가장 큰 목표 두 개를 이루고 이젠 뭐하지 살짝 근질근질하던 그 순...

Mar 28, 2025 Posts, Personal

LLM 시대의 추천 시스템

Recommender Systems in the Era of Large Language Models 을 읽어 보았습니다. LLM의 시대에 모든 것에 LLM을 붙이는 경향도 없잖아 있지만 추천 시스템은 가장 자연스러운 확장을 만들어낼 수 있는 영역 중 하나입니다. 추천 모델이 실험실을 떠나서 실제 서비스에 적용될 때는 정적인 예측의 정확도만 중...

Mar 8, 2025 Posts, Data

ML 코드로 배워보는 SOLID 원칙

객체 지향 설계의 5가지 원칙을 데이터쟁이가 알아들을 수 있는 예시를 통해 공부해본 내용입니다. 주피터 노트북 좋아하세요? 주피터 노트북은 데이터 분석이나 ML 모델 개발을 하는 사람에게 매우 편리한 도구입니다. 일반적인 소프트웨어 개발에 비해 분석이나 모델 개발을 할 때는 실험이 작업의 많은 비중을 차지하거든요. 따라서 코드를 작성할 ...

Feb 14, 2025 Posts, Data

스포티파이는 어떻게 유저의 변하는 관심사를 모델링할까

음악 스트리밍 서비스에서 유저의 빠르게 변하는 선호와 장기적인 특성을 동시에 추천 시스템에 활용한 사례를 들여다봅니다. 문제 정의 온라인 콘텐츠의 소비 패턴은 시간에 따라 끊임없이 변화하며, 보통 사용자의 관심사는 단순한 선호도의 누적이 아니라 장기적인 취향과 순간적인 관심이 복합적으로 반영된 결과입니다. 특히 음악 스트리밍 서비스는 더더...

Feb 7, 2025 Posts, Data

GPU OOM과 이별하는 법

GPU를 사용한 모델 개발 중 메모리가 모자라다는 문제(CUDA OutOfMemory)에 대한 해결책을 모아보았습니다. 다른 머리 아픈 에러도 많은데 이 친구랑은 오래 보지 않도록 합시다. GPU 메모리 상황 확인하는 법 OOM이라는 건 마치 어느 날 길에서 붕어빵 사먹고 계좌이체 하려고 송금 버튼을 눌렀는데 야 니 통장 잔고 0원임! 이라...

Jan 18, 2025 Posts, Data

산은 산이 있는 곳에 있다

연말 회고인지 새해 다짐인지 뭔지 시드 마이어의 문명 시리즈는 내가 살면서 가장 많은 시간을 쏟은 게임 중 하나다. 10년 전쯤 대학 합격 발표가 나던 순간에도 문명을 하고 있었고(아버지가 방문을 두드리고 나서야 결과 나온 줄 알았다) 5년 전쯤 대학원에 다닐 때도 매일 새벽 4시까지 문명을 하고 남은 시간에 논문을 썼다(룸메를 깨우지 않...

Dec 25, 2024 Posts, Personal

Variational Autoencoder 이해하기

Autoencoder와 비슷한 듯 다른 Variational Autoencoder(VAE)의 구조와 손실함수를 이해해 봅니다. 일단 Autoencoder는 뭐였더라 이름에 오토인코더가 들어가니까 VAE를 알려면 기본 오토인코더를 일단 알아야만 할 것 같습니다. 간단하게 개념을 되살려 보겠습니다. 그림 출처 Autoencoder란 인코더와...

Nov 30, 2024 Posts, Data

라벨이 불균형하면 오버샘플링을 하라던데

그런데 다들 말하는 것만큼 효과가 있는 게 맞을까요? Is Augmentation Eﬀective in Improving Prediction in Imbalanced Datasets? (2024) 를 읽어보았습니다. 분류 문제에서 모델이 예측하고자 하는 타겟 Y의 분포는 현실 세계에서는 대부분 불균형하기 마련입니다. 즉 어떤 라벨의 데이터 수...

Nov 10, 2024 Posts, Data

6년차 데이터 어쩌구의 첫 이직 준비 후기와 팁

처음으로 이직을 준비하면서 후기와 나름의 팁을 적어보았습니다. 지극히 개인적인 경험에 따른 내용임 주의…! 요약 기간(첫 서류 제출부터 전체 전형 결과가 나오기까지, 처우협의 기간은 빼고) 약 3.5개월 지원한 공고 ...

Oct 16, 2024 Posts, Personal

시계열 이상 탐지할 때 데이터 분포가 바뀐다면

When Model Meets New Normals: Test-Time Adaptation for Unsupervised Time-Series Anomaly Detection (2024) 를 읽어보았습니다. 시계열 데이터에서 이상을 탐지하려면 보통 과거 데이터로 이후 데이터를 예측하였을 때 예측 범위에서 많이 벗어나는 경우, 혹은 학습된 ...

Oct 12, 2024 Posts, Data