장바구니 담기 close

장바구니에 상품을 담았습니다.

메이저리그 야구 통계학

메이저리그 야구 통계학

  • 김재민
  • |
  • 에이콘출판
  • |
  • 2018-05-24 출간
  • |
  • 364페이지
  • |
  • 188 X 235 X 21 mm
  • |
  • ISBN 9791161751641
판매가

30,000원

즉시할인가

27,000

카드할인

0원(즉시할인 0%)

적립금

1,500원 적립(5%적립)

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

추가혜택

네이버페이 무조건 1%적립+ 추가 1%적립

수량
+ -
총주문금액
27,000

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




★ 이 책에서 다루는 내용 ★
■ 야구 이야기와 통계 프로그램 R 코드가 동시에 진행되는 이해하기 쉬운 설명
■ 다양한 목적의 분석 툴을 야구에서 발생하는 특수 상황에 맞게 적용
■ 실제 메이저리그 대형 데이터인 라만(Lahman) 데이터베이스 활용
■ 대형 데이터를 분석 목적에 맞게 마이닝하는 방법 제시
■ 예측모델에서 발생할 수 있는 소음을 제거하는 모델링 방법 소개
■ 인공지능으로 주목받고 있는 비지도학습법인 판별분석, 군집분석, 신경망분석 등을 소개

★ 이 책의 대상 독자 ★
■ R에 관심은 있지만 특별한 동기가 없어서 본격적으로 시작하지 못했던 R 초보자
■ 학위 과정을 준비하고 있거나 학위 과정에서 통계분석을 알고 있어야 하는 독자
■ 직장에서 매일 다루는 데이터를 의미 있게 분석하고, 해석하고 싶은 직장인
■ 데이터과학을 야구를 통해 배우고 싶은 스포츠 팬

★ 지은이의 말 ★
유레카라고 해야 하나? 운명처럼 메이저리그 야구 데이터와 오픈소스 통계 프로그램 R을 동시에 만났을 때, 적절한 시기가 되면 데이터 작업에서 손을 떼야 할 것 같았던 체증이 한 순간에 전광석화처럼 뚫려버렸다. 교수라는 직업으로 생존하기 위해서는 분석을 해야만 했다. 어쩌면 터널이 뚫리기 직전에 그 둘을 만났을지도 모르지만, 만난 이후로는 새로운 세상과 빠르게 연결되고 있음을 느낀다. 각종 매체로부터 쏟아져 나오는 4차 산업혁명이라는 소음에 귀를 막고 있기보다는 자신의 가치를 높일 수 있는 데이터 과학에서 수학과 통계학의 부담감을 내려놓고 메이저리그 야구 데이터를 직접 실험하면서, 모호한 4차 산업혁명을 따라잡기 위한 비즈니스 전략을 가르치는 경영학자의 관점으로 이야기하고 싶어 이 책을 준비했다. 최근에 빅데이터라는 이야기는 지겹게 들었지만 여전히 남의 이야기로 들리고, 지켜만 보다 뒤처지지 않을까라는 고민을 해결할 수 있도록 데이터과학을 메이저리그 이야기와 합쳐서 풀어나간다. 제법 많은 한국인 선수가 활약하고 있어 우리에게 익숙한 메이저리그는 140여 년의 장구한 기간 동안 메이저리거들의 흔적을 데이터로 기록했다. 이러한 데이터를 직접 대면할 때 느끼는 개방성과 거대함, 그리고 정밀함은 데이터 과학에 대한 거침없는 호기심을 불러일으킨다.
특히 수학과 통계학 때문에 데이터과학에 접근하는 데 주저하는 분들에게 이 책이 새로운 통로를 열어줄 터닝포인트가 됐으면 하는 바람이다. 어려서부터 통계에 관심이 있었거나 관련 책을 쓰는 것이 인생의 목표는 아니었다. 박사학위를 마치기 위해 고통받으면서 배웠던 통계지식들이 사라질까 봐, 매번 블로그에 기록으로 남겨놓다 보니 제법 많은 양의 이야깃거리가 됐고, 블로그에 흩어져 있던 내용을 필요한 분들과 나누면 도움이 될 것 같아 책으로 정리했다.
연구과정 생존을 위해 익혔던 분석 방법을 공유하는 만큼 이 책의 첫 번째 수혜자는 석사과정 또는 박사과정 진학을 준비하고 있거나 과정 중에 있는 분들이라 생각한다. 박사과정을 마치고 연구실을 비워줄 때, 끝까지 책상에 꽂혀 있었던 『Rhythms of Academic Life』처럼 박사과정에 진학한 누군가의 책상 위에 놓여 있을 책으로 만들고 싶었다. 두 번째는 직장생활을 하면서 데이터는 쏟아져 나오는데 어떻게 활용할지 모르는 직장인에게 전략적 참고서가 됐으면 한다. 저자가 은행에서 근무하면서 데이터의 가치를 전혀 깨닫지 못하고 살던 적이 있다. 지금 생각해보면 무한으로 생성되던 데이터를 의사결정에 활용하지 않고 주어진 분석결과만 읽으면서 수동적으로 직장생활을 했던 점이 아쉽게 느껴져 과거의 저자와 비슷한 생활을 하고 있을 분들에게 임팩트를 줄 수 있도록 디자인했다. 세 번째는 야구통계가 궁금해서 세이버메트릭스에 관심을 갖기 시작한 분들이 이번 기회에 데이터과학 쪽으로 관심의 폭을 넓히는 데 도움이 됐으면 한다. 사실 야구에서 쏟아져 나오는 선수들의 경기성적 데이터를 현실에 적용하기에는 한계가 있지만, 야구 데이터와 데이터과학의 조합은 야구의 적용범위를 대폭 넓혀준다. 마지막으로 큰 도움을 드릴 수 있는 그룹은 통계 프로그램 언어인 R을 배우려고 마음먹고 있던 분들일 것이다.
최근의 변화를 이끌어가는 사물인터넷, 자율주행 자동차, 인공지능의 큰 트렌드에 동참하려는 분위기가 소셜 네트워크를 통해 전문가를 넘어 일반인들 사이에서도 확산 중이다. 보기 좋게 만들었던 파워포인트의 무의미함에 대한 경고의 목소리가 커지고, 직장인들은 업무를 통해 흘러넘치는 데이터를 정리해놓는 수준에서 벗어나 남들이 보지 못하는 패턴을 모델링해서 대중과 커뮤니케이션하려는 움직임도 명료하게 감지된다. 이러한 과정에서 유튜브와 오픈소스 강의를 통해 자기주도형 학습이 변화를 이끌어가고 있지만, 공개 강의를 따라 잡기 위해 학창시절 보던 수학 정석이나 기초통계 교과서를 다시 열어보다가 모수, 공분산, 임의 변수, 표본오차, 최소좌승법, 최대우도법 같은 단어들이 등장하기 시작하면 내가 갈 길 이 아님을 확인하고 자기주도형 학습을 자기주도로 종료하는 경우가 적지 않다.
명확한 목표 없이 시작하는 데이터 분석에 대한 공부는 참고서를 몇 번 뒤적거리다가 포기하기 쉽다. 학창시절이나 직장에서 분석업무 능력을 키워보려고 통계 공부도 해봤지만 가슴 깊은 곳으로 내려 꽂혔던 기억이 별로 없었다. 특히 통계학 책에서 기업의 제품 불량률, 환자의 혈압수치, 시제품의 효과성, 법률 개정의 효과 등 예제로 사용됐던 내용들이 일상생활과는 동떨어져 데이터가 생산된 배경 자체를 이해하는 것이 어렵다 보니 정작 통계분석을 이해하는 데 방해가 되기도 했다. 배워야 하는 이유는 알았지만, 효과적인 학습에 갈증을 느끼면서 통계를 흥미롭게 가르쳐볼 수 있지 않을까라는 야망을 갖게 됐다. 그리고 바람대로 2016년부터 대학에서 야구 데이터를 이용한 데이터 분석 과목을 강의해 왔고, 2017년부터는 사물인터넷과 빅데이터를 접목한 새로운 과목을 강의하고 있다. 경영학자인 저자가 강의를 준비하면서 얻은 통계와 전략 사이에서 발생하는 교집합을 야구 이야기로 풀어내기 때문에 이론과 숫자가 가득한 무거운 이야기들은 거부한다. 대신에 문제 해결에 대한 논리적 사고, 프로그래밍이라는 손에 잡히는 기술, 통계 메커니즘인 확률이론, 현실의 데이터로 해결모델을 검증하는 과학적 접근방법인 모델링(modeling) 사고에 대한 이야기를 메이저리그 야구를 통해 소개한다.
데이터 분석의 표준이며 무료로 내려받아 사용할 수 있는 통계 프로그래밍 언어 R과 140여 년 이상 축적된 메이저리그 데이터로 이 책의 대부분을 설명하기 때문에 비용 부담 없이 데이터과학에 도전할 수 있다. 이번 기회를 통해 코딩에서 모델링으로 관심을 넓히고, 공식에 숫자를 대입해서 답을 찾는 전통적 공부 방식이 아닌 데이터를 통해 생각을 모델링하는 방식을 통해 데이터과학계의 거대한 축을 담당하고 있는 통계 프로그램 R과 직접 모은 데이터로 가능성을 예측하고 의사결정을 하는 데 도움이 됐으면 한다.


목차


1장. 변수를 알면 분석모델을 디자인할 수 있다

__데이터과학에서 왜 야구인가?
__분석 공부 중도에 포기하지 않는 방법: 나만의 데이터 만들기
__변수를 알아야 분석이 보인다
____연속 변수
____이산 변수
____명목 변수
____서열 변수
__데이터 구조를 파악하다
__여러분이 가지고 있는 변수의 특징
____데이터 중심화 경향
____데이터의 분포범위
__데이터는 조작되지 않아야 한다
__데이터 분석의 완성: 데이터 밸류 체인
__R 스튜디오와 친구들
____R 스크립트
____R 노트북
____R 마크다운
____샤이니웹앱
__패키지 없는 R은 앱 없는 스마트폰
__정리하며

2장. 메이저리그 데이터 마이닝

__마이닝의 개념
__간단한 데이터 내 손으로 직접 만들기
__데이터를 R로 불러올 때 알아두면 좋은 정보
__인터넷에서 만난 팬그래프닷컴 데이터를 R로 불러오기
__빅데이터에서 필요한 데이터 분리하기
__작업했던 코딩과 데이터 정보 저장하기
__순서가 같은 테이블 합치기: cbind( ) 그리고 rbind( )
__순서가 다른 테이블 합치기: merge( )
__양적 변수를 명목 변수로 바꾸기
__괄호 사용법
____소괄호 ( )
____중괄호 {}
____대괄호 [ ]
__결측값 제거하기
__조건문 사용하기
__계속 사용할 테이블 고정하기
__추가로 공유하고 싶은 마이닝 기법들
__정리하며

3장. 선수의 능력은 어떻게 측정할 것인가?

__과학적 측정
__측정의 신뢰도
__영화 <머니볼>에서 보는 신뢰도가 높은 지표의 활용 케이스
__측정의 타당도
__능력과 운의 결과물: 시즌 성적
__공격지표들을 이용한 상관관계
__장타력과 득점의 상관관계
__지도에 산포도를 그리다: R과 구글의 만남
__선수와 감독의 인적 상관성: 네트워크 분석
__기술통계와 추정통계의 매개: 히스토그램은 막대그래프가 아니다
__히스토그램과 확률밀도함수가 만나다: 패키지 lattice
__정리하며

4장. 상관관계는 인과관계가 아니다

__인과관계의 필수조건
__확률로 따지면 말이야
__오류는 모델링의 꽃
____진실이 존재하는 신의 영역
____예측모델과 데이터가 있는 현실계
__확률과 우도
__타석에서 안타를 1개만 칠 확률이 가장 높은 타율을 찾다: 최대우도추정법
____[4개의 막대그래프를 한 화면에 제시하는 코드]
__정규분포: 얼마나 칠 것인가?
____중심극한정리란?
____회귀분석에서는 왜 정규분보를 사용하지 않고 스튜던트 t 분포를 사용하는가?
__좋은 예측모델 구별법: 표준오차
__팀타율 1푼의 가치는 2천 4백만 달러?
__팀득점 예측을 위해 만든 추정모델 해석하기
____조절된 설명력
__모델 전체의 의미: F 통곗값
____계수의 p 값: 긍정오류의 가능성 유의확률
__게임당 팀득점을 신뢰성 있게 예측하기
____신뢰구간
____예측구간
__정리하며

5장. 비교와 구분

__다른가?
__시각적 비교
__모델에 영향을 주는 이상치를 찾아라
__메이저리그 140년 역사의 원동력: 표준편차의 힘
____시즌타율 3할의 효과 40년간의 관찰: 패키지 plyr
____시즌타율 표준편차가 적을수록 야구장에 관중들이 더 모인다?
__실험군은 아메리칸리그, 대조군은 내셔널리그
__그룹 간 비교 시각화 방법: 패널차트
__구글 트렌드와 분산분석(ANOVA) 연계
__데이터를 분리해 필요한 부분만 취하다: 스트링 변수
__비모수 시대의 그룹 간 비교
__긍정오류와 부정오류
__긍정오류, 부정오류, 그리고 판별분석
__내셔널리그, 아메리칸리그, 그리고 판별분석
__지구에서 우승할 가능성, 우승하지 못할 가능성: 로지스틱 회귀분석
__지구에서 우승할 팀, 우승하지 못할 팀, 그리고 딥러닝
__자율학습을 활용한 군집분석
__정리하며

6장. 모델링

__복잡한 현실을 수학으로 모델링하고 통계로 증명하다
__2차함수 사고하기
__고차함수 사고하기
__논리와 데이터를 연결하다: 모델 선택
____단순선형회귀분석모델(simple linear regression)에 기반한 주장
____다중선형회귀분석모델(multiple regression)에 기반한 주장
____고정효과모델(fixed effects model)에 기반한 주장
____다수준혼합모델(multilevel mixed effects model)에 기반한 주장
____시차 변수를 보유하는 다수준혼합모델에 기반한 주장
____시차 변수와 자기상관을 보유하는 다수준혼합모델에 기반한 주장
__조건이 포함되는 모델링: 조절 변수
__리그별 홈런의 관중 동원 효과: 리그의 조절효과
__다수준혼합모델로 메이저리그 팀승수 추정하기
__실험실 없이 실험환경 통제하기: 통제 변수
__눈에 보이지 않는 교란요인들 잡아내기
__단순선형모델, 임의효과모델, 고정효과모델의 비교
____단순선형모델
____임의효과모델
____고정효과모델
__정리하며

맺음말
__데이터과학을 대하는 자세
__R을 대하면서 확장되는 생각의 범위
__라만 데이터 적용 부분

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.