스터디
[SQL] SQL 기초교재 04 ~ 06
4장 WHERE 조건절을 활용한 데이터 조건 주기 1. 숫자형 데이터 조건 SELECT 열 이름1, 열 이름2 FROM 테이블명 WHERE 비교할 열 이름=숫자; 2. 문자형 데이터 조건 SELECT 열 이름1, 열 이름2 FROM 테이블명 WHERE 비교할 열 이름='문자'; EX1) 가입금액이 1백만원 이상인 고객들의 고객번호, 계약번호, 가입금액을 추출 SELECT ID, CNRT_NO, CNRT_AMT FROM INS_INFO WHERE CNRT_AMT >= 1000000; EX2) 상품 계약일이 2013년 04월 16일 이후인 고객들의 고객번호, 계약일, 상품명을 추출하고 고객번호는 오름차순으로 정렬 SELECT ID, CNRT_DT, PRDT_NM FROM INS_INFO WHERE CNRT_..
[SQL] SQL 기초교재 01 ~ 03
아래의 내용은 김지훈, "칼퇴족 김대리는 알고 나만 모르는 SQL", 책밥(2014)의 내용을 참고하여 공부한 기록입니다. 1장 SQL의 개요 데이터베이스(Database) : 공유의 목적을 가지고, 구조적인 방식으로 관리되는 데이터의 집합. 연관된 정보의 중복을 최소화하여 저장. 정규화를 통해 중복을 단계적으로 제거해 나간다. 데이터베이스 관리 시스템(DBMS, Database Management System) : 데이터를 정리하고 보관하기 위한 시스템 테이블(Table) : 특정한 종류의 데이터를 구조적 목록으로 묶은 것 스키마(Schema) : 테이블에 어떤 데이터를 어떤 형식으로 저장할 것인지 정의한 것 열(Column) : 속성(Attribute). 테이블을 구성하는 각각의 정보 행(Row) :..
[프로세스 마이닝] Data Science In Action 강의 - 02
Decision Trees 2018-02-20에 작성한 글 1.4 Learning Decision Trees Decision Tree 는 의사결정 나무, 결정 트리로 불리는 supervised learning 기법이다. flow-chart와 유사한 그래프를 이용하여 의사결정을 도와주는 도구로써 예측 성능은 일반적으로 그리 뛰어나지 않은 편이지만, 해석력이 매우 뛰어나다. 또한 Decision Tree는 Robust한 특성을 가지고 있어서 정규화나 결측치 처리 등의 전처리 과정을 할 필요가 없이 작동하는 장점을 가지고 있다. 그래서 자료 자체를 시각화하여 보여주거나 머신 러닝의 결과를 해석하는 데에 사용하는 경우도 많다. 그리고 아주 손쉽게 알고리즘을 적용가능한데 반해 각 변수의 영향력을 그런대로 잘 측정..
[프로세스 마이닝] Data Science In Action 강의 - 01
Introduction 2018-02-13에 작성한 글 개인적으로 진행하는 스터디에서도, 학교에서도 여러가지 경로를 통해 접해보면서 프로세스 마이닝을 이벤트 로그를 이용하여 프로세스 모델을 규명하고 문제점을 찾아서 해결하는 것 정도로만 생각해왔다. 하지만 지속적으로 프로세스 마이닝에 대한 이야기를 나눌 때 용어나 개념이 이해가 가지 않는 부분이 많아서 좀 더 자세히 공부해보고자 한다. 구글링을 해보니 Coursera에서 Wil van der Aalst라는 네덜란드 출신의 Eindhoven 대학 교수님이 강의하신 Process Mining: Data Science in Action이 유명한 것 같아 공부하면서 블로그에 정리해볼 것이다. Data and Process Mining 1.1 Data Scienc..
[Kaggle] 타이타닉 생존자 예측
Exploration in Titanic Introduction Titanic: Machine Learning from Disaster 주제 : Explore 단계를 스스로 생각해서 진행해보자 data description summary 타이타닉 호의 침몰 당시 승객 데이터를 이용하여 생존자를 예측 891개의 트레이닝 데이터와 418개의 테스트 데이터를 미리 분리시켜 놓은 상태 기존에 한 번 진행해봤던 분석이기 때문에 랜덤 포레스트를 이해하고 예측력을 높이는 것에 초점 이 커널은 Titanic Data Science Solutions - Manav Sehgal의 내용을 따라한 부분이 매우 많습니다. SEMMA 방법론에 따라 분석을 진행하였습니다. 2018-03-06에 작성한 글 1. Sample # da..
[Kaggle] 뉴욕 택시여행 기간 예측
New York City Taxi Trip Duration 2018-01-31에 작성한 글 분석 공부를 위해 캐글의 대회들 중 좋은 성적을 받았던 커널들을 따라해보려고 합니다. 0. Competition Introduction 이 대회에서의 목적은 뉴욕에서의 택시 여행 기간을 예측하는 모델을 만드는 것으로서, 가장 성과측정치가 좋았던 사람을 뽑는 것보다는 통찰력 있고 사용 가능한 모델을 만드는 사람에게 보상을 지불하는 형태로 진행되었다. 성과측정치는 다음과 같다. $$ \epsilon =\sqrt { \frac { 1 }{ n } \sum { i=1 }^{ n }{ { (log({ p }{ i }+1)\quad -\quad log({ a }_{ i }+1)) }^{ 2 } } } $$ Where: ϵ i..
![[GCP] 구글 클라우드 플랫폼으로 분석 환경 무료로 만들기](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FtrmmD%2FbtqxfFiTvJp%2Fxf2pXyWby5X0FuolkwWwQk%2Fimg.png)
[GCP] 구글 클라우드 플랫폼으로 분석 환경 무료로 만들기
Tensorflow을 활용한 딥러닝 분석 환경 구축 2018-09-30에 작성한 글 저와 같은 학생들에게 딥러닝을 공부하면서 가장 큰 문제는 컴퓨팅 능력일 것입니다. 큰 데이터를 활용해서 많은 노드와 여러 개의 레이어를 쌓은 신경망을 노트북의 보잘것없는 CPU로 학습하려고 하면 정말 오래 걸립니다. 그래서 꾸역꾸역 공개된 서버의 Jupyter Notebook을 활용해서 학습하더라도 기본적으로 몇 시간, 넘어서는 몇 일 동안 학습을 진행하는 모습에 가슴이 답답해져서 GCP를 이용하고자 마음 먹었습니다. GCP(Google Cloud Platform)은 구글에서 Compute Engine, Storage, Network 등을 클라우드 환경에서 빌려 사용하고 사용한 만큼 금액을 지불하는 서비스입니다. 하지만 ..
![[게임데이터 분석] League Of Legends(롤) 바텀 듀오 티어 계산](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F42UB7%2FbtqxbAXEO0l%2FVXkh6nvgO1KBC91UxDmv4k%2Fimg.png)
[게임데이터 분석] League Of Legends(롤) 바텀 듀오 티어 계산
분석의 목적 친구랑 같이 롤을 즐길 때에는 봇 듀오로 같이 가는 경우가 많다. 하지만 나는 일반 게임이나 랭크 게임에서는 오로지 탑만 가는 진정한 탑 솔로이므로 원딜과 서포터의 어떤 조합이 좋은지 잘 모른다. 그래서 이번 분석에서 어떤 원딜, 서폿 조합이 가장 좋은지 데이터를 통해 알아내고자 한다. 이외에도 각자의 플레이 스타일에 맞는 아이템 추천, 탑 또는 미드와 정글의 조합, 5인 팀 게임의 조합 등과 같이 해보고 싶은 분석은 많지만 이번 분석에서는 원딜과 서폿의 조합 티어를 밝혀내는 것 을 분석의 목적으로 한다. 계산 과정이 오래 걸리는 코드는 첫 계산 이후 주석 처리하고 저장 후 불러오는 방식으로 사용하였습니다. 1. 데이터 저장 # 패키지 불러오기 import pickle # 리스트 안의 데이터..
![[게임데이터 분석] BattleGround(배틀그라운드) 프로경기 이동 패턴 분석](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcy6VxL%2Fbtqwsd2m0bv%2FFWeFYyFKuG7XzkC4bKvSTk%2Fimg.png)
[게임데이터 분석] BattleGround(배틀그라운드) 프로경기 이동 패턴 분석
분석 배경 이전에 입사 사전과제로 분석했던 내용인데, 원하는 만큼의 퀄리티가 나오진 않았습니다. 천 만 행이 넘는 큰 JSON 파일을 분석해본 경험도 처음이었고, 배틀그라운드에 대한 기본적인 지식도 부족했던 것 같네요. 특히 일반 유저들과 프로 선수들의 경기가 매우 큰 차이가 있다는 것을 알고, 엎고 다시 진행했던 것이 시간을 많이 날려먹었습니다. 총 분석 기간은 8일 정도였고, 부족한 분석이었지만 올려둡니다. # 패키지 불러오기 # api 요청 import requests import json # 데이터 자료형 및 분석도구 import pandas as pd import numpy as np # 시각화 패키지 import matplotlib as mlp import matplotlib.pyplot as..