
LDA (잠재 디리클레 할당) 이해하기
토픽 모델링 기법인 LDA의 가정과 추론 방식을 쉽게 설명한 글입니다. 오늘은 잘 알려진 토픽 모델링 기법인 LDA에 대해서 알아보겠습니다. LDA는 Latent Dirichlet Allocation, 즉 잠재 디리클레 할당이라는 이름이며, 보다시피 이 이름은 3개의 단어로 이루어져 있습니다. 이 세 단어를 하나씩 뜯어보면 LDA를 이해할 수...
토픽 모델링 기법인 LDA의 가정과 추론 방식을 쉽게 설명한 글입니다. 오늘은 잘 알려진 토픽 모델링 기법인 LDA에 대해서 알아보겠습니다. LDA는 Latent Dirichlet Allocation, 즉 잠재 디리클레 할당이라는 이름이며, 보다시피 이 이름은 3개의 단어로 이루어져 있습니다. 이 세 단어를 하나씩 뜯어보면 LDA를 이해할 수...
데이터 전체의 기댓값과 동떨어진 부분집합을 찾아내는 Subset Scanning 알고리즘의 간단한 접근 방식과 사용법에 대해 알아봅니다. Searching for Anomalous Subsets? All You Need is Scanning- Tanya Akumu / SciPy 2022 및 관련 자료들을 기반으로 작성하였습니다. 어떨 때 필요...
그래프 데이터베이스의 질의 언어인 Cypher를 처음부터 따라해 볼 수 있는 가이드입니다. 데이터 생성, 검색, 변경, 삭제에 필요한 기초 구문들을 배웁니다. 그래프DB - Cypher 기초 이전에 그래프 데이터베이스 Neo4j에 대해 소개글을 쓴 적이 있습니다. 그 글에서는 그래프 DB에 대한 간단한 설명, Neo4j 샌드박스 DB 생성과...
데이터 분석가로 일을 하면서 구독하게 된 뉴스레터들 이야기입니다. 왜 보나요? 일단 뉴스레터를 구독하는 이유부터 이야기해보겠습니다. 진부한 이야기인데, 뭔가 잘 하려면 인풋을 늘려야 한다고 많이 하잖아요. 예를 들어 글을 잘 쓰려면 다양하게 읽고 필사도 해야 늘더라 라는 말도 그렇고, 외국어를 잘하려면 그 언어를 접하는 창구를 최대한 늘려...
Attention의 설명력에 대한 논쟁들, Attention is not Explanation과 Attention is not not Explanation을 읽어보았습니다. 설명인가 아닌가, 설명이란 무엇인가… 어텐션은 설명이다? 어텐션(Attention) 매커니즘은 seq2seq RNN의 문제점을 해결하고 다양한 자연어처리 과제에서 뛰어난...
MLFlow 로 머신러닝 모델의 실험 트래킹/로깅을 처음 해보는 사람을 위한 간단한 튜토리얼입니다. 제가 처음 해보면서 썼습니다. 들어가기 전에 이 글을 보고 얻을 수 있는 정보는: MLflow 로 ML 실험을 기록하고 싶은데 어떻게 하는지 간단하게 알고 싶다/따라하고 싶다 Pyspark로도 쓰고 싶다 (+ Pan...
스파크의 RDD와 관련된 개념들(Transformation & Action, DAG, Lazy Evaluation)에 대해 무엇인지 쉽고 간단하게 정리해보는 글입니다. 스파크를 처음 접하게 되면 보통 아래와 같은 정보들을 순차적으로 접하게 됩니다. 아파치 스파크는 빅데이터를 위한 분산 병렬 처리 프레임워크다. 이전에 비슷한 목적...
트위터의 이미지 크롭 알고리즘을 둘러싼 인종차별 논란과 그 이후 트위터가 어떻게 대처했는지를 다룹니다. 자체 테스트와 알고리즘 편향 대회를 통해 발견된 내용들은 편리한 자동 크롭 기능이 어떤 의도치 않은 문제를 일으킬 수 있는지 보여줬습니다. 사건의 발단은 한 유저가 줌을 사용하면서 겪은 경험을 트위터에 공유하면서였습니다. 자신과 미팅을 한...
밀도 기반 클러스터링 방식인 DBSCAN의 알고리즘과 장단점, 구현 방식을 들여다보는 글입니다. DBSCAN은 오늘의 주제인 DBSCAN(Density-Based Spatial Clustering of Application with Noise)은 무려 96년도 논문(A density-based algorithm for discovering...
그래프 데이터베이스의 기본 개념들과 Neo4j를 간단히 소개하고, 샌드박스 DB를 만들어 Python으로 연결해봅니다. 그래프 데이터베이스란? 그래프 이론에 토대를 둔 일종의 NoSQL 데이터베이스입니다. 데이터의 연결관계 저장에 있어 RDBMS 대비 가장 큰 장점은 인덱스 없이도 빠르게 연결된 노드를 찾을 수 있다는 점입니다(index-f...