스파크 GraphFrames 튜토리얼
GraphFrames을 이용한 몇 가지 간단한 그래프 분석 튜토리얼입니다. 스파크 완벽 가이드 30장 그래프 분석을 바탕으로 정리한 내용입니다. 스파크는 그래프 처리를 지원하는 RDD 기반의 라이브러리 GraphX를 제공하고 있습니다. 다만 저수준의 인터페이스로 인해 간편한 사용은 조금 어려울 수 있는데, 그 이후에 DataFrame API를...
GraphFrames을 이용한 몇 가지 간단한 그래프 분석 튜토리얼입니다. 스파크 완벽 가이드 30장 그래프 분석을 바탕으로 정리한 내용입니다. 스파크는 그래프 처리를 지원하는 RDD 기반의 라이브러리 GraphX를 제공하고 있습니다. 다만 저수준의 인터페이스로 인해 간편한 사용은 조금 어려울 수 있는데, 그 이후에 DataFrame API를...
주성분분석(Principal Component Analysis)과 요인분석(Factor Analysis)의 차이가 뭘까요? 예시로 R을 사용해서 포켓몬 능력치 데이터의 차원을 축소해보고(PCA), 씨리얼 평가의 특성을 구성하는 잠재적 요인을 찾아봅니다(FA). 고차원의 데이터일수록 표본의 밀도는 떨어지고, 높은 과대적합 위험과 계산 비용, 낮...
머신 러닝의 공정성(fairness)은 최근 매우 주목받는 주제입니다. 이 논의는 우리가 학습시키고 실제 의사결정에 적용하는 ML 모델들이 현실에서 차별받기 쉬운 집단에게 불리하게 작용함으로써 의도치 않게 그 차별을 더욱 강화할 수 있다는 문제의식에서 출발했습니다. 데이터가 공적인 사회 정책에 이용될 때는 물론, 일반적으로 기업이 제공하는 서비스나 영...
밑바닥부터 시작하는 딥러닝 2을 보고 정리한 내용입니다. 다 아는 얘기 요약 계산 그래프를 만든다 왼쪽에서 오른쪽으로 계산한다 = forward 오른쪽에서 왼쪽으로 미분 값을 전달하면서 곱한다 = backward 합성함수의 chain rule 장...
아닌데… 그럼 인과는 뭐야? 이야기의 시작은 기초적인 통계학 수업을 들어 본 분들이라면 많이들 공감할 만한 것으로 하겠습니다. 바로 “상관은 인과가 아니다”라는 통계학 첫 시간에 가장 많이 등장하는 말인데요. 이 말을 간단하게 보여주는 예시들은 차고 넘치지만, 몇 년 전 제 경험을 가져와 볼게요. 제가 처음으로 들은 통계학 수업에서 강의하시...
컴퓨터 사이언스 부트캠프 with 파이썬을 보고 정리한 내용입니다. 알고리즘 성능 분석 탐색 알고리즘에는 2가지 종류가 있음 선형 탐색 대상 데이터와 저장되어있는 데이터를 순서대로 하나씩 비교 이진 탐색 대상 데이터와 가운데 데이터를 비교해 대상 데이터가 작으면 비교 데이터의 이전 데이터를, 대상 데이터가...
컴퓨터 사이언스 부트캠프 with 파이썬을 보고 정리한 내용입니다. 자료구조란 자료구조(data structure) 데이터를 효율적으로 검색/변경/삭제할 수 있도록 저장/관리하는 방법 상황에 따라 적절한 자료구조가 달라질 수 있음 데이터 검색은 빈번하게 일어나는데 반해 새로운 데...
컴퓨터 사이언스 부트캠프 with 파이썬을 보고 정리한 내용입니다. 프로세스 프로그램: 하드디스크에 저장된 실행 파일 더블클릭해서 실행하지 않는 이상 하드디스크에 계속 남아있으며 같은 경로에 같은 이름으로 동시에 존재할 수 없음 프로세스: 프로그램을 실행한 상태 (= 하드디스크에서 메인 메모리로 코...
컴퓨터 사이언스 부트캠프 with 파이썬을 보고 정리한 내용입니다. 트리의 정의: 사이클이 없는 연결된 그래프 이진 트리 이진 트리란? 한 노드가 자식 노드를 두 개 이하만 갖는 트리 연결 리스트와 비슷함, 단 왼쪽 자식 노드와 오른쪽 자식 노드 2개를 참조해야 함 ...
컴퓨터 사이언스 부트캠프 with 파이썬을 보고 정리한 내용입니다. 메모리 계층 구조 빅 엔디언(big-endian)과 리틀 엔디언(little-endian): 왼쪽부터 / 오른쪽부터 컴퓨터에는 다양한 종류의 메모리가 있음 CPU안에도 메모리가 있고(레지스터), RAM과 하드디스크, CPU와 메인 메모리 사이의 ...