pizzathief

유튜브 추천 알고리즘과 극단주의 논쟁

지난 수 년 간 학계와 언론에서 유튜브의 추천 알고리즘이 사용자들을 온라인 상에서 점점 더 극단적인 정보와 의견을 접하도록 만든다는 주장이 등장했습니다. 사용자들의 이용 기록을 바탕으로 아직 사용자가 접하지는 않았으나 흥미를 가질 법한 컨텐츠를 노출시키는 것을 목표로 하는 알고리즘이 결국 점점 더 극단의 컨텐츠를 추천하게 되고, 사용자의 의견 또한 이...

Preview Image

NLP 모델은 배리어 프리일까?

전세계 인구 중 15%, 10억 명이 넘는 사람들이 어떤 종류든 장애를 가지고 있다. 장애를 가진 사람은 평균적으로 그렇지 않은 사람보다 사회경제적인 불리함을 경험할 가능성이 크다. 이미지 출처 배리어 프리(barrier-free) 란 장애인의 생활 및 활동에 지장이 되는 물리적/사회적/심리적 장벽을 없앤 것을 뜻합니다. 문턱이 없는 건물 ...

스파크 3.0의 새로워진 Pandas UDF

지난달(6월 18일)에 Spark 3.0 이 릴리즈되었습니다. 어떤 변화와 기능 추가가 있는지 살펴보다가, 업무에서 자주 사용하게 되는 Pandas UDF 관련 내용이 있어 우선적으로 파악해야겠다 싶었습니다. 이 글은 데이터브릭스 엔지니어링 블로그에 권혁진님께서 작성해주신 포스팅을 참고하여 익힌 내용을 간단하게 정리한 글입니다. 그 외의 Spar...

신경망 기반 언어 모델의 약점: Stolen Probability Effect

단어 시퀀스에 확률을 부여하여 특정 시퀀스가 얼마나 발생할 확률이 높은지, 즉 “자연스러운” 언어 시퀀스인지를 판단하도록 학습시킨 모델을 언어 모델(Language model) 이라고 부릅니다. 이전에 통계 기반의 전통적인 언어 모델은 주로 학습 데이터에 계산하는 단어들을 카운팅하는, 즉 빈도를 통해 확률을 계산하는 식의 접근을 취했습니다. 이런 통계...

[번역] PEGASUS: 추출된 빈 문장으로 사전훈련을 하는 새로운 추상적 문서 요약 모델

번역글이며, 원문은 여기입니다. 학생들에게는 종종 읽고 이해하는 능력과 글 쓰는 능력을 모두 보여주기 위해 문서를 읽고 요약을 하는 것이 과제로 주어지곤 합니다. 이러한 추상적 문서 요약은 자연어처리 분야의 가장 어려운 과제 중 하나인데요, 긴 문단들에 대한 이해, 정보 압축, 그리고 언어 생성이 모두 관여되는 작업이기 때문이죠. 이러한 목적...

비모수 밀도 추정을 통한 클러스터링

기본 개념 라벨링되어 있지 않은 데이터 포인트들을 비슷한 특성을 가진 한 개 이상의 군집으로 묶는 것을 클러스터링이라고 부르고, 이러한 군집화에는 다양한 접근법이 있습니다. 그 중 하나의 아이디어는 데이터 공간에서 데이터 포인트가 가깝게 모여 있는, 굉장히 밀도가 높은 어떤 특정 지역이 있어서 다른 지역들과 구분될 것이고 이 지역에 모인 포인트들은 ...

Fairness gym: 머신러닝 시스템의 장기적 영향

머신 러닝의 공정성(fairness)은 최근 매우 주목받는 주제입니다. 이 논의는 우리가 학습시키고 실제 의사결정에 적용하는 ML 모델들이 현실에서 차별받기 쉬운 집단에게 불리하게 작용함으로써 의도치 않게 그 차별을 더욱 강화할 수 있다는 문제의식에서 출발했습니다. 데이터가 공적인 사회 정책에 이용될 때는 물론, 일반적으로 기업이 제공하는 서비스나 영...