pizzathief
Preview Image

데이터로 한국의 2030년 탄소 배출량 목표를 제안한다면

쏘프라이즈에 제출한 글이며, 데이터를 기반으로 한국 탄소배출량의 2030년 감축 목표를 제안할 수 있을까? 라는 질문에 대한 답입니다. 여기 에서도 볼 수 있습니다. 한국의 2030년 탄소배출량 감축 목표를 제안하기 위해 데이터를 살펴봤습니다. [상태 점검] 우선 전반적인 탄소배출량 지표와 인구/경제 성장 면에서 한국과 가장 비슷한 위...

내 스파크 잡을 구해줘 (아마도 성능 향상 팁들)

주로 데이터 편향에서 비롯되는 스파크 성능 저하 또는 처참한 실패에 부딪혔을 때, 시도해 볼 수 있는 코드 작성 수준의 스파크 성능 최적화 방법들을 알아보았습니다. 이 글을 쓰게 된 이유 저는 회사에서 일정 시간마다 돌아가는 스파크 배치 잡을 pyspark로 작성하는 일이 많습니다. 며칠 전에 등록한 배치 잡이 실패한 일이 있었는데요. 처음...

Preview Image

스펙트럴 클러스터링 이해하기

스펙트럴 클러스터링을 어떻게 하는지에 대한 글이며 써보기보다는 이해하기를 목적으로 적었습니다. 뭘까? 스펙트럴 클러스터링은 클러스터링, 즉 군집화 기법의 일종입니다. 클러스터링의 기본 목적은 주어진 라벨 없는 데이터에 대해 비슷한 것끼리 군집으로 묶어주는 것이죠. 비슷한 것들은 같은 군집에 속하고 다른 것들은 다른 군집에 속하도록 합니다. ...

사전훈련된 NLP 모델에서 성별 상관의 측정과 완화

지난 몇 년 간 자연어처리 분야에서는 BERT, ALBERT, XLNet, ELECTRA처럼 사전훈련된 모델을 다운스트림 태스크를 위해 파인튜닝하는 것이 가장 좋은 성능을 낼 수 있는 선택이었습니다. 이 과정에서 모델은 필연적으로 훈련 데이터에서 특정 단어, 혹은 특정 개념들 간의 강한 상관을 학습하게 됩니다. 그러나 어떤 상관은 잘못 형성되면 사회적...