Posts 62
- 라벨이 불균형하면 오버샘플링을 하라던데
- 6년차 데이터 어쩌구의 첫 이직 준비 후기와 팁
- 시계열 이상 탐지할 때 데이터 분포가 바뀐다면
- 글또 9기 끝
- Conformal Prediction으로 모델의 불확실성 계산하기
- 머신러닝 모델을 해석할 때 주의해야 할 8가지
- 옵시디언 사용기 (필수 플러그인, 블로그 글 쓰기, 해빗 트래커, 디지털 서재)
- 수학을 까먹은 사람을 위한 특이값분해(SVD)
- 스파크 UDTF(User-Defined Table Function)
- DTW로 시계열 클러스터링하기
- 수학을 까먹은 사람을 위한 고유값분해와 주성분분석(PCA)
- 슬랙 워크플로(workflow)로 팀 생산성 높이기
- 데이터와 모델만 있으면 끝인 건가? 에 대한 단상
- 글또 8기 회고
- AI의 존재론적 위협보다 중요한 것들에 대해
- 아직도 커널이 뭔지 모르겠어요
- 1년 간 데이터 분석가 채용에 참여하며 느낀 점
- GPT가 내 일자리를 뺏을 가능성은?
- 왜 딥러닝은 정형 데이터에 잘 안 통할까
- 기록이 나 대신 업무를 기억하게 하는 법
- Data Drift 발견하기
- 글또 8기 시작
- 글또 7기 회고
- LDA (잠재 디리클레 할당) 이해하기
- Subset Scanning으로 이상한 부분집합 찾기
- 그래프 DB - Cypher 기초
- 새로운 인풋을 찾는 데이터 분석가를 위한 뉴스레터 추천
- Attention은 설명인가 아닌가
- MLFlow Tracking 튜토리얼
- 스파크가 뭔지만 대충 아는 사람을 위한 RDD 설명
- 트위터의 이미지 크롭 알고리즘은 뭐가 문제였을까
- DBSCAN 이해하기
- 그래프 데이터베이스 소개와 Neo4j
- 글또 6기와 2021년 회고
- Isolation Forest 로 이상치 찾기 (+ SHAP로 설명하기)
- 스파크의 Adaptive Query Execution
- 네트워크 분석이 알려주는 온라인 혐오 집단 대응법
- 라벨은 없지만 이상치는 찾고 싶어
- 스파크는 내 코드를 어떻게 실행할까? (Logical Plan과 Physical Plan)
- 차별하지 않는 분류 모델 만들기
- Label Propagation Algorithm
- 글또 6기 시작
- 데이터로 한국의 2030년 탄소 배출량 목표를 제안한다면
- 단변량 분포 간 거리 함수
- 내 스파크 잡을 구해줘 (아마도 성능 향상 팁들)
- Pygame으로 게임 만들어본 후기
- 스펙트럴 클러스터링 이해하기
- Koalas: 스파크에서 쓰는 Pandas API
- 사전훈련된 NLP 모델에서 성별 상관의 측정과 완화
- 인과 추론 3. 개입
- 인과 추론 2. 그래프와 확률
- 자동화된 팩트 체킹은 어디까지 왔나
- 유튜브 추천 알고리즘과 극단주의 논쟁
- NLP 모델은 배리어 프리일까?
- 스파크 3.0의 새로워진 Pandas UDF
- 신경망 기반 언어 모델의 약점: Stolen Probability Effect
- [번역] PEGASUS: 추출된 빈 문장으로 사전훈련을 하는 새로운 추상적 문서 요약 모델
- 비모수 밀도 추정을 통한 클러스터링
- 스파크 GraphFrames 튜토리얼
- 주성분분석과 요인분석의 차이
- Fairness gym: 머신러닝 시스템의 장기적 영향
- 인과 추론 1. 상관은 인과가 아닌데