[Python] 메소드 ADVANCED
우리를 위한 프로그래밍 : 파이썬 중급 (Inflearn Original)을 듣고 정리한 내용입니다. 객체지향 프로그래밍의 장점 코드의 재사용, 코드 중복 방지, 유지보수 쉬움 클래스 중심 = 데이터 중심, 객체로 관리 → 대형 프로젝트에 적합 ↔ 절차지향 프로그래밍(함수중심); 데이터가 방대해지면 복잡, 협업/개선이 어려움...
우리를 위한 프로그래밍 : 파이썬 중급 (Inflearn Original)을 듣고 정리한 내용입니다. 객체지향 프로그래밍의 장점 코드의 재사용, 코드 중복 방지, 유지보수 쉬움 클래스 중심 = 데이터 중심, 객체로 관리 → 대형 프로젝트에 적합 ↔ 절차지향 프로그래밍(함수중심); 데이터가 방대해지면 복잡, 협업/개선이 어려움...
지난 수 년 간 학계와 언론에서 유튜브의 추천 알고리즘이 사용자들을 온라인 상에서 점점 더 극단적인 정보와 의견을 접하도록 만든다는 주장이 등장했습니다. 사용자들의 이용 기록을 바탕으로 아직 사용자가 접하지는 않았으나 흥미를 가질 법한 컨텐츠를 노출시키는 것을 목표로 하는 알고리즘이 결국 점점 더 극단의 컨텐츠를 추천하게 되고, 사용자의 의견 또한 이...
전세계 인구 중 15%, 10억 명이 넘는 사람들이 어떤 종류든 장애를 가지고 있다. 장애를 가진 사람은 평균적으로 그렇지 않은 사람보다 사회경제적인 불리함을 경험할 가능성이 크다. 이미지 출처 배리어 프리(barrier-free) 란 장애인의 생활 및 활동에 지장이 되는 물리적/사회적/심리적 장벽을 없앤 것을 뜻합니다. 문턱이 없는 건물 ...
지난달(6월 18일)에 Spark 3.0 이 릴리즈되었습니다. 어떤 변화와 기능 추가가 있는지 살펴보다가, 업무에서 자주 사용하게 되는 Pandas UDF 관련 내용이 있어 우선적으로 파악해야겠다 싶었습니다. 이 글은 데이터브릭스 엔지니어링 블로그에 권혁진님께서 작성해주신 포스팅을 참고하여 익힌 내용을 간단하게 정리한 글입니다. 그 외의 Spar...
단어 시퀀스에 확률을 부여하여 특정 시퀀스가 얼마나 발생할 확률이 높은지, 즉 “자연스러운” 언어 시퀀스인지를 판단하도록 학습시킨 모델을 언어 모델(Language model) 이라고 부릅니다. 이전에 통계 기반의 전통적인 언어 모델은 주로 학습 데이터에 계산하는 단어들을 카운팅하는, 즉 빈도를 통해 확률을 계산하는 식의 접근을 취했습니다. 이런 통계...
번역글이며, 원문은 여기입니다. 학생들에게는 종종 읽고 이해하는 능력과 글 쓰는 능력을 모두 보여주기 위해 문서를 읽고 요약을 하는 것이 과제로 주어지곤 합니다. 이러한 추상적 문서 요약은 자연어처리 분야의 가장 어려운 과제 중 하나인데요, 긴 문단들에 대한 이해, 정보 압축, 그리고 언어 생성이 모두 관여되는 작업이기 때문이죠. 이러한 목적...
기본 개념 라벨링되어 있지 않은 데이터 포인트들을 비슷한 특성을 가진 한 개 이상의 군집으로 묶는 것을 클러스터링이라고 부르고, 이러한 군집화에는 다양한 접근법이 있습니다. 그 중 하나의 아이디어는 데이터 공간에서 데이터 포인트가 가깝게 모여 있는, 굉장히 밀도가 높은 어떤 특정 지역이 있어서 다른 지역들과 구분될 것이고 이 지역에 모인 포인트들은 ...
GraphFrames을 이용한 몇 가지 간단한 그래프 분석 튜토리얼입니다. 스파크 완벽 가이드 30장 그래프 분석을 바탕으로 정리한 내용입니다. 스파크는 그래프 처리를 지원하는 RDD 기반의 라이브러리 GraphX를 제공하고 있습니다. 다만 저수준의 인터페이스로 인해 간편한 사용은 조금 어려울 수 있는데, 그 이후에 DataFrame API를...
주성분분석(Principal Component Analysis)과 요인분석(Factor Analysis)의 차이가 뭘까요? 예시로 R을 사용해서 포켓몬 능력치 데이터의 차원을 축소해보고(PCA), 씨리얼 평가의 특성을 구성하는 잠재적 요인을 찾아봅니다(FA). 고차원의 데이터일수록 표본의 밀도는 떨어지고, 높은 과대적합 위험과 계산 비용, 낮...
머신 러닝의 공정성(fairness)은 최근 매우 주목받는 주제입니다. 이 논의는 우리가 학습시키고 실제 의사결정에 적용하는 ML 모델들이 현실에서 차별받기 쉬운 집단에게 불리하게 작용함으로써 의도치 않게 그 차별을 더욱 강화할 수 있다는 문제의식에서 출발했습니다. 데이터가 공적인 사회 정책에 이용될 때는 물론, 일반적으로 기업이 제공하는 서비스나 영...