장바구니 담기 close

장바구니에 상품을 담았습니다.

R로 하는 빅데이터 분석 데이터 전처리와 시각화

R로 하는 빅데이터 분석 데이터 전처리와 시각화

  • 김권현
  • |
  • 숨은원리
  • |
  • 2019-03-01 출간
  • |
  • 326페이지
  • |
  • 177 X 250 X 24 mm /750g
  • |
  • ISBN 9791196014476
판매가

25,000원

즉시할인가

22,500

카드할인

0원(즉시할인 0%)

적립금

1,250원 적립(5%적립)

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

추가혜택

네이버페이 무조건 1%적립+ 추가 1%적립

수량
+ -
총주문금액
22,500

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다. 어느 정도 R에 익숙한 독자들에게도 R의 데이터 전처리와 시각화에 대해 좀 더 깊이 알 수 있게 하였다. 레퍼런스 북으로도 손색이 없다.

● R 최신 버전 3.5.2(2018-12-20) 반영
● 빅데이터 분석을 위한 최선의 선택-data.table 패키지(최신버전 1.12.0)에 대한 설명 수록
● RStudio의 ggplot2(최신버전 3.1.0) 등 패키지 치트시트(cheatsheet) 수록
● 백과사전식의 나열이 아니라 개념 중심의 체계적인 이해 중시
● 좀 더 테크니컬한 심층 활용 방법과 오류를 사전에 방지하는 방법 설명
● 각종 참고 자료 및 표 수록
● 다양한 원서의 내용 종합
- Spector(2008). Data Manipulation with R.
- Kabacoff(2015). R in Action: Data Analysis and Graphics with R
- Wickham(2016). ggplot2: Elegant Graphics for Data Analysis.
- Lander(2017). R for Everyone: Advanced Analytics and Graphics.
- Wickham & Grolemund(2017). R for Data Science.
- Van Der Loo & De Jong(2018). Statistical Data Cleaning with Applications in R.
● ds.sumeun.org 홈페이지 운영


목차


서문

1 들어가기
1.1 R … … … … … … … … … … … … 8

2 R의 패키지(Packages)
2.1 패키지 설치 … … … … … … … … … … . 9
2.2 패키지 관련 정보 … … … … … … … … … . 10
2.3 패키지 불러오기/확인하기/제거하기 … … … … … … 11
2.4 패키지 관리하기 … … … … … … … … … . 12
2.5 중복되는 함수와 변수 … … … … … … … … . . 12

3 R의 변수, 자료형, 연산/함수
3.1 R의 변수 … … … … … … … … … … . . 13
3.2 R의 데이터 타입(자료형) … … … … … … … … 17
3.3 연산(Operations)과 함수(Functions) … … … … … . . 20
3.4 특별한 값 … … … … … … … … … … . . 26

4 데이터 구조
4.1 벡터(Vector) … … … … … … … … … … 31
4.2 데이터 구조에 따른 생성, 참조, 수정, 추가, 삭제 함수 … … … . 43
4.3 CRUD(Create, Read, Update, Delete) … … … … … 51
4.4 3+차원의 배열 … … … … … … … … … . . 53

5 dplyr 패키지를 활용한 데이터 가공
5.1 magrittr의 파이프 연산자 … … … … … … … . . 59
5.2 dplyr의 방식: 부분 선택(Subsetting) … … … … … . . 62
5.3 dplyr의 방식 : 수정 … … … … … … … … . . 68
5.4 dplyr의 기타 편의 기능 … … … … … … … … . 74

6 날짜와 시간(Date and Time)
6.1 날짜의 표기 … … … … … … … … … … . 80
6.2 날짜 표기 변환 … … … … … … … … … . . 81
6.3 날짜시간 표기 인식 … … … … … … … … … 82
6.4 날짜, 시간 연산 … … … … … … … … … . . 89
6.5 날짜(시간)의 특정한 정보 참조 … … … … … … … 90
6.6 날짜(시간) 갱신 … … … … … … … … … . 90
6.7 활용예 … … … … … … … … … … … 93

7 팩터형 데이터타입
7.1 팩터형의 중요성 … … … … … … … … … . 96
7.2 데이터 전처리에 있어서 팩터형 … … … … … … … 96
7.3 forcats 패키지 … … … … … … … … … . . 98

8 R로 데이터 읽어오기
8.1 R 내장 데이터 … … … … … … … … … . . 101
8.2 들어가기 : write.table/read.table, save/load … … … . . 102
8.3 텍스트로 저장된 데이터 화일 읽기 … … … … … … . 103
8.4 EXCEL 화일 읽기 … … … … … … … … … 110
8.5 그 밖의 통계 프로그램 데이터 화일 … … … … … … . 111

9 데이터 가공
9.1 집단별로 함수 적용하기 … … … … … … … … . 114
9.2 여러 데이터 프레임 합치기 … … … … … … … . . 119
9.3 세로형/가로형 변환 … … … … … … … … … 125

10 패키지 데이터테이블(data.table)
10.1 package:dplyr과 package:data.table의 비교 … … … … . 127
10.2 data.table의 키(key) 활용하기 … … … … … … . . 143
10.3 data.table을 활용한 병합 … … … … … … … . . 148
10.4 그 밖의 특수한 기호 : .SD, .GRP, .N, .I, .BY, .EACHI … … … . 157
10.5 데이터테이블 종합 … … … … … … … … … 165

11 문자열(character)
11.1 인코딩 … … … … … … … … … … … 167
11.2 대표적인 인코딩 방법 … … … … … … … … . . 168
11.3 그 밖의 인코딩 방법 … … … … … … … … … 168
11.4 R에서 인코딩 다루기 … … … … … … … … . . 169
11.5 R에서 문자열 입력 … … … … … … … … … 171
11.6 유니코드 정규화(Normalization) … … … … … … . 173
11.7 문자열의 정렬 … … … … … … … … … … 174
11.8 문자열을 다루는 함수들 … … … … … … … … . 176
11.9 패키지 stringr을 활용한 문자열 관리 … … … … … . . 182

12 정규표현식
12.1 R과 정규표현식 … … … … … … … … … . . 185
12.2 확장정규표현식(ERE; Extended Regular Expressions) … … . 186

13 흐름 제어와 함수
13.1 제어문: 조건과 반복 … … … … … … … … . . 201
13.2 함수 … … … … … … … … … … … . 209

14 기술 통계량
14.1 1변수 기술 통계량
14.2 데이터 프레임의 모든 변수(컬럼)에 대해 요약통계치 구하기

15 간편 시각화
15.1 간편 시각화의 예 … … … … … … … … … . 222

16 ggplot2
16.1 들어가기 … … … … … … … … … … . . 227
16.2 시각적 맵핑(Aesthetic mapping) … … … … … … . 229
16.3 기하학적 대상(geom) … … … … … … … … . . 248
16.4 보조선(Auxillary lines) … … … … … … … … 257
16.5 좌표계(Coordinate system) … … … … … … … . 259
16.6 범례(Legends) … … … … … … … … … . . 265
16.7 제목과 테마(Title and Theme) … … … … … … . . 267
16.8 결과 정리 및 저장 … … … … … … … … … . 273
16.9 ggplot2(gg = Grammar of Graphics) 총정리 … … … … 275

17 연습문제 해답
데이터 불러들이기 … … … … … … … … … … 279
제어와 함수 I… … … … … … … … … … … 282

부록 1. R에서 하는 벡터/행렬 연산
벡터연산 … … … … … … … … … … … . . 283
한 행렬 연산 … … … … … … … … … … … 283
두 행렬의 연산 … … … … … … … … … … . . 284
선형(행렬) 대수 … … … … … … … … … … . 285

부록 2. R의 색, 세계 타임존

부록 3. 치트시트

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.