This is an old revision of the document!
Table of Contents
Final Project Proposal
파이널 프로젝트는 스포츠 중에서도, 미국 메이저리그 (MLB)의 전략이 어떻게 성립되고 어떤 분석을 통해 적용되는지 알고, 그를 KBO에 적용시켜보는 것이 목표이다. 그래서 우리 2조는 앞서 국내는 현재 ‘빅데이터와 스포츠’, ‘데이터 기반의 야구’ 에 관한 논문이 얼마나 많은지 찾아보기로 했다. 국내, 빅데이터 시장은 아직 인프라 구축단계에 있고 국내 야구계 역시 세이버 매트리션에 대해서 아직은 회의적인 반응이다. 하지만 역시 야구는 기록의 스포츠이기 때문에 수 많은 데이터를 바탕으로 여러가지 주제의 논문이 존재하는 것을 찾을 수 있었다. 크게 3가지 논문에 대해서 조사해보았다.
- 빅데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략
- Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석
- R을 활용한 야구데이터 다차원 시각화
빅 데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략
독일의 우승으로 막을 내린 2014 브라질 월드컵에서, 독일의 빅 데이터 전술 분석이 화재로 언급되었다. 선수들의 기본적 속성데이터를 토대로 그들의 움직인 거리, 활동영역, 그리고 패스 구간 등 개인의 플레이 등을 시각화 하고 그것에 대한 피드백을 제공하며, 상대방의 전략을 전반에 분석하고 하프타임에 그에 맞는 즉석의 전술 변화 또한 가능하다. 휴식시간에는 선수들은 자국팀과 상대팀의 선수 개인의 활동량과 범위를 시각화된 자료로 보여주는 ‘가상 수비네트워크’ 를 볼 수 있다.
아래 예시 사진에서 볼 수 있듯이 패스 연결망 분석을 통하여, 이 선수가 어느 선수에게 공을 많이 보내고 어느 선수로부터 공을 많이 받는지를 알 수 있다. 하지만 이런 분석의 한계점도 존재한다. 분석 대상의 측면에서는 대부분의 연구가 볼의 움직임만을 추적하여 공격, 수비 패턴을 분석하였으며, 다른 상황 요인들은 배제된 것이다. 이런 한계점을 넘어서 경기 시간의 흐름속에 변화하는 볼의 흐름과 선수의 습관, 패턴 변화 등을 분석할 수 있는 후속 연구들이 필요하다고 생각한다.
Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석
위의 논문은 신경망 분석 (Neural Network)을 바탕으로 1982년부터 33년간의 데이터를 바탕으로 2015년 프로야구의 승률을 예측하는 논문이었다.
INPUT 종류 | Input Node 종류 |
---|---|
A | 평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈 OR 어웨이 |
A' | 평균자책점, 타율, 피안타수, 투구이닝, 삼진, 탈삼진, 승률 |
B | 평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈 OR 어웨이 |
B' | 평균자책점, 타율, 피안타수, 투구이닝, 삼진, 탈삼진, 승률 |
신경망 분석에 들어가는 노드들의 종류를 보면 평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈or어웨이 여부를 통해서 승률을 예측하는 알고리즘을 사용하고 있다.
구단 | 예측승률 | 실제승률 |
---|---|---|
삼성 | ||