User Tools

Site Tools


c:mt:2017:lecturer_note:group-02

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
c:mt:2017:lecturer_note:group-02 [2017/05/01 08:13] – created hkimscilc:mt:2017:lecturer_note:group-02 [2017/06/08 09:57] (current) hkimscil
Line 1: Line 1:
-====== Final Project Proposal ======+====== Discussion ====== 
 +  - 국내 연구 
 +  - 국외 연구 
 +  - sports data api 에 대한 조사와 정리 
 + 
 +  - {{amazon>B06WP26J8Q}},  {{amazon>1466570229}} 
 +  - 현재까지의 진행: 데이터 수집 및 분석 
 +  - http://www.koreabaseball.com/Default.aspx 
 + 
 +====== Proposal ======
 파이널 프로젝트는 스포츠 중에서도, 미국 메이저리그 (MLB)의 전략이 어떻게 성립되고 어떤 분석을 통해 적용되는지 알고, 그를 KBO에 적용시켜보는 것이 목표이다. 그래서 우리 2조는 앞서 국내는 현재 ‘빅데이터와 스포츠’, ‘데이터 기반의 야구’ 에 관한 논문이 얼마나 많은지 찾아보기로 했다. 국내, 빅데이터 시장은 아직 인프라 구축단계에 있고 국내 야구계 역시 세이버 매트리션에 대해서 아직은 회의적인 반응이다. 하지만 역시 야구는 기록의 스포츠이기 때문에 수 많은 데이터를 바탕으로 여러가지 주제의 논문이 존재하는 것을 찾을 수 있었다. 크게 3가지 논문에 대해서 조사해보았다. 파이널 프로젝트는 스포츠 중에서도, 미국 메이저리그 (MLB)의 전략이 어떻게 성립되고 어떤 분석을 통해 적용되는지 알고, 그를 KBO에 적용시켜보는 것이 목표이다. 그래서 우리 2조는 앞서 국내는 현재 ‘빅데이터와 스포츠’, ‘데이터 기반의 야구’ 에 관한 논문이 얼마나 많은지 찾아보기로 했다. 국내, 빅데이터 시장은 아직 인프라 구축단계에 있고 국내 야구계 역시 세이버 매트리션에 대해서 아직은 회의적인 반응이다. 하지만 역시 야구는 기록의 스포츠이기 때문에 수 많은 데이터를 바탕으로 여러가지 주제의 논문이 존재하는 것을 찾을 수 있었다. 크게 3가지 논문에 대해서 조사해보았다.
   - 빅데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략   - 빅데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략
Line 22: Line 31:
  
 ^ 구단  ^  예측승률  ^  실제승률  ^   ^ 구단  ^  예측승률  ^  실제승률  ^  
-| 삼성     +| 삼성 61.7  60.3  
-       |  +넥센  53.9  54.3  |  
-|    |     |  +NC    52.5  59.4  |  
-     |   |  +KIA   | 51.8  | 47.5  |  
-       |  +롯데  49.6  46.4  |  
-       |  +두산  48.2  54.3  |  
-       |  +한화  47.5  47.5  |  
-   |     +SK  45.3  | 48.9  |  
 +| LG   | 42.9  | 44.9  |  
 +| KT   | 41.8  | 36.4  |  
 + 
 +위의 변수들을 넣고 신경망 분석을 돌렸을 때 나온 모델로  2015년 9월 6일~ 2015년 9월 30일 승률을 예측한 것이다. 평균적인 예측 승률과 실제승률의 오차는 3.39%에 이르렀다. 위 논문에서 사용한 변수들은 각광받고있는 세이버 매트릭스 지수에서 크게 중요하게 생각하는 지표들이 아니므로 승률을 더 정밀하게 맞추지 못했다고 생각한다. 다시 말해서, 타율(AVG)보다는 출루율(OBP), 출루율+장타율(OPS)가 더 중요하고, 평균자책점(ERA)보다는 출루허용률(WHIP)과 같은 새로운 지표들이 더 중요하다는 것이다. 아마 이러한 지표들을 이용해서 새로운 모델링을 하게되면 더 좋은 승률 예측이 가능할 것이라고 생각한다. 
 + 
 +===== R을 활용한 야구 데이터 다차원 시각화 ===== 
 +위의 논문은 통계 프로그램 중 하나인 ‘R’을 이용한 야구 데이터의 시각화에 대해서 이야기하는 논문이다. 기록의 스포츠인 야구가 어려운 이유는 야구의 룰자체가 매우 복잡하고 어려운 점도 있지만, 전문가들 수준이 되어야 알아볼 수 있는 용어와 그에 대한 기록들이 숫자로 빼곡히 정리되어 있어 한눈에 알아보기 어려워 어려운 점도 있다. 이에 따라 세이버 매트릭스를 더 대중화 하기 위해선 데이터들의 시각화가 필수적이라는 내용이다. 실제로 간단한 예를 보면, 
 + 
 +{{타고투저.jpg}} 
 + 
 +이는 타고투저 현상을 버블차트를 이용해 간단하게 시각화 한 것이다. 타자통계자료는 X-Y좌표에 타율-홈, 버블색은 팀, 사이즈는 홈런을 뜻한다. 투수통계자료는 X-Y좌표에 평균자책점-승, 버블색은 팀, 사이즈는 득점을 뜻한다. 더 간단하게 말하면 각 점들이 우상단에 많이 분포할수록 우수한 타자가 많고 투수의 경우는 좌상단에 많이 분포할수록 좋은 투수가 많다는 것을 의미한다. 실제로 2011년 보다 2015년 우수한 타자가 더 많아졌고, 2011년 보다 2015년 우수한 투수들이 많이 사라지고 평균자책점이 높은 투수들이 많아졌다.  
 + 
 + 
 +실제로 보아도 타고투저의 현상은 있다고 본다. 이 시각화를 세이버 매트릭스에도 도입하여 더 정확한 타고투저 현상을 구분할 수 있을 뿐만 아니라, 경기 외적인 요인(공인구의 선택, 배트의 반발력, 구장의 환경)이 영향을 미치는지 아닌지도 분석할 수 있을 것으로 보인다. 더 정확하고 중요한 정보들의 시각화가 야구를 시청하는 일반인들에게도 공개되어 야구를 보는 재미를 더하고 메이저리그처럼 풍성한 데이터를 갖추게 되길 개인적으로 바란다. 
 + 
 +===== 참고문헌 =====
  
 +김종훈, 김경태, & 한종기. (2015). Deep learning 기반 기계학습 알고리즘을 이용한 야구 경기 big data 분석. Paper presented at the pp. 262-265.
 +김주희, & 최용석. (2016). r을 활용한 야구 통계 데이터 다차원 시각화 도구. Paper presented at the , 24. (1) pp. 143-146.
 +박성제, & 이제욱. (2014). 빅데이터(Big data) 시대의 소셜 네트워크 분석 (social network analysis) 기법과 스포츠 분야의 활용전략. 한국체육과학회지, 23(5), 933-946.
  
  
c/mt/2017/lecturer_note/group-02.1493595820.txt.gz · Last modified: 2017/05/01 08:13 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki