라벨이 불균형하면 오버샘플링을 하라던데
그런데 다들 말하는 것만큼 효과가 있는 게 맞을까요? Is Augmentation Effective in Improving Prediction in Imbalanced Datasets? (2024) 를 읽어보았습니다. 분류 문제에서 모델이 예측하고자 하는 타겟 Y의 분포는 현실 세계에서는 대부분 불균형하기 마련입니다. 즉 어떤 라벨의 데이터 수...
그런데 다들 말하는 것만큼 효과가 있는 게 맞을까요? Is Augmentation Effective in Improving Prediction in Imbalanced Datasets? (2024) 를 읽어보았습니다. 분류 문제에서 모델이 예측하고자 하는 타겟 Y의 분포는 현실 세계에서는 대부분 불균형하기 마련입니다. 즉 어떤 라벨의 데이터 수...
처음으로 이직을 준비하면서 후기와 나름의 팁을 적어보았습니다. 지극히 개인적인 경험에 따른 내용임 주의…! 요약 기간(첫 서류 제출부터 전체 전형 결과가 나오기까지, 처우협의 기간은 빼고) 약 3.5개월 지원한 공고 ...
When Model Meets New Normals: Test-Time Adaptation for Unsupervised Time-Series Anomaly Detection (2024) 를 읽어보았습니다. 시계열 데이터에서 이상을 탐지하려면 보통 과거 데이터로 이후 데이터를 예측하였을 때 예측 범위에서 많이 벗어나는 경우, 혹은 학습된 ...
무려 6번째 글또 후기 글또 9기 - 제출한 글들은 데이터와 모델만 있으면 끝인 건가? 에 대한 단상 슬랙 워크플로(workflow)로 팀 생산성 높이기 수학을 까먹은 사람을 위한 고유값분해와 주성분분석(PCA) DTW로 시계열 클러스터링하기 스파크 UDTF(User-Defined Table Function) 수학을 ...
내 모델의 예측은 얼마나 확실한가 머신러닝 모델을 사용해서 의사결정을 할 때 누구나 할 법한 생각은 이 모델의 판단을 얼마나 믿을 수 있을까? 라는 것입니다. 이런 어려운 문제들에서조차 모델은 “이 사진은 대걸레다”라고 하지 “이 사진은 대걸레일 수도 있고 쉽독일 수도 있다”라고 하는 경우는 없습니다(그러면 사실 의미가 없죠). 기본적으로 특정...
General Pitfalls of Model-Agnostic Interpretation Methods for Machine Learning Models (2021) 를 읽어보았습니다. PFI, LIME, SHAP, PDP와 같은 머신러닝 모델을 해석하기 위한 방법론들을 IML(Interpretable Machine Learning)이라고 합...
들어가기 전에 이 글은 옵시디언이 무엇인지나 왜 옵시디언을 써야 하는지에 대한 글은 아닙니다(찾아보면 그런 글들도 많이 있습니다). 이 글은 옵시디언을 쓰기로 결정했을 때 처음에 어떤 플러그인을 추천하는지와 제가 어떤 목적으로 주로 활용하고 있는지를 공유하기 위한 목적으로 작성하였습니다. 다만 간단하게만 적어보자면, 옵시디언을 사용하게 된 개인적인 ...
특이값분해(SVD)에 대해 대부분의 선수지식을 포함하여 이해하기 쉽게 설명한 글입니다. SVD의 증명, 기하학적 의미, python으로 이미지 압축하는 예시를 포함하고 있습니다. 제가 이전에 작성한 고유값분해에 대한 글을 읽고 오시거나 어떤 통로로든 고유값분해가 무엇인지를 알고 오시면 좋습니다. SVD 식 만들어보기 일단 정의부터 써봅시다....
스파크 3.5에 새로 추가된 UDTF의 사용법을 예시와 함께 작성한 글입니다. UDTF (User-Defined Table Function) 사용자 정의 테이블 함수는 스파크 3.5.0에서 새로 생긴 피쳐입니다. 빌트인 함수로는 뭔가 한계가 있을 때 사용한다는 목적에 있어서는 UDF(User-Defined Function)와 같지만, 스칼라...
이 글을 읽으면 DTW(Dynamic Time Warping)라는 시계열 데이터에서 유용하게 쓰이는 거리 개념을 이해할 수 있고, Python으로 DTW 기반의 시계열 클러스터링(K-means, DBSCAN, Hierarchical)을 해볼 수 있습니다. DTW(Dynamic Time Warping) 이해하기 (그림 출처) 라벨이 없는 시...