장바구니 담기 close

장바구니에 상품을 담았습니다.

R로 배우는 텍스트 마이닝

R로 배우는 텍스트 마이닝

  • 줄리아실기
  • |
  • 제이펍
  • |
  • 2019-06-04 출간
  • |
  • 232페이지
  • |
  • 188 X 245 X 13 mm
  • |
  • ISBN 9791188621552
판매가

20,000원

즉시할인가

18,000

카드할인

0원(즉시할인 0%)

적립금

1,000원 적립(5%적립)

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

추가혜택

네이버페이 무조건 1%적립+ 추가 1%적립

수량
+ -
총주문금액
18,000

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!

요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.

특히, 저자들은 텍스트를 데이터 프레임처럼 다루는 방법을 전수함으로써 여러분이 텍스트의 특성들을 조작하고, 요약하고, 시각화할 능력을 갖추게 한다. 또한, 여러분은 자연어 처리(NLP) 방식을 통합해 효율성 있는 작업 흐름을 배울 수 있다. 더욱이 실용적인 예제 코드를 통해 데이터를 탐색하다 보면, 우리가 분석하는 문학, 뉴스, 소셜 미디어로부터 진정한 통찰력을 창출할 수 있을 것이다.

이 책의 주요 내용
■ tidytext 형식을 NLP에 적용하는 방법을 학습한다.
■ 정서 분석 기법으로 텍스트에 담긴 감성적 내용을 학습한다.
■ 빈도를 측정해 문서 내에서 가장 중요한 용어들을 식별한다.
■ ggraph 패키지와 widyr 패키지를 사용해 단어 사이의 관계와 연결을 찾아낸다.
■ 정돈된(깔끔한) 텍스트 형식과 정돈되지 않은 텍스트 형식을 서로 바꿔본다.
■ 토픽 모델링으로 문서 모음집을 자연스럽게 분류한다.
■ 트위터 아카이브를 비교하거나, 미항공우주국(NASA)이 제공하는 메타데이터를 파 보거나,
수천 개나 되는 유즈넷 메시지를 분석해 보는 식으로 사례 연구를 진행한다.


목차


CHAPTER 1 정돈 텍스트(깔끔한 텍스트) 형식 1
정돈 텍스트와 다른 데이터 구조 비교하기 2
unnest_tokens 함수 3
제인 오스틴의 작품 정돈하기 6
gutenbergr 패키지 10
단어 빈도 10
요약 16

CHAPTER 2 정돈 데이터를 사용한 정서분석 17
정서 데이터셋 18
내부 조인을 사용한 정서분석 21
세 가지 정서 사전 비교 25
가장 흔한 긍정 단어와 부정 단어 28
워드 클라우드 30
단순한 단어 이상인 단위 보기 32
요약 35

CHAPTER 3 단어와 문서의 빈도 분석: tf-idf 37
제인 오스틴의 소설 속 용어빈도 38
지프의 법칙 40
bind_tf_idf 함수 44
물리학 텍스트의 말뭉치 47
요약 53

CHAPTER 4 단어 간 관계: 엔그램과 상관 55
엔그램에 의한 토큰화 56
엔그램 개수 세기와 선별하기 57
바이그램 분석 59
정서분석 시 바이그램을 사용해 문맥 제공하기 62
ggraph를 사용해 바이그램 연결망 시각화화기 65
그 밖의 텍스트에 들어 있는 바이그램 시각화하기 71
widyr 패키지와 단어 쌍 세기 및 상관 73
각 단원 간의 개수 세기 및 상관 74
쌍 단위 상관 검사 76
요약 81

CHAPTER 5 비정돈 형식 간에 변환하기 83
문서-용어 행렬 정돈하기 84
DocumentTermMatrix 객체 정돈하기 85
dfm 객체 정돈하기 89
정돈 텍스트 데이터를 행렬에 캐스팅하기 92
Corpus 객체를 메타데이터로 정돈하기 94
사례 연구: 금융 관련 기사 마이닝 97
요약 104

CHAPTER 6 토픽 모델링 105
잠재 디리클레 할당 106
단어-토픽 확률 108
문서-토픽 확률 111
예제: 대도서관 강도 113
각 장의 LDA 115
문서당 분류 118
단어별 할당: augment 121
대체 LDA 구현 125
요약 127

CHAPTER 7 사례 연구: 트위터 아카이브 비교 129
데이터 및 트위터 분포 얻기 129
단어 빈도 131
단어 용도 비교 135
단어 사용 변화 137
즐겨찾기 및 리트윗 143
요약 148

CHAPTER 8 사례 연구: NASA 메타데이터 마이닝 149
NASA가 데이터를 조직하는 방식 150
데이터 랭글링과 정돈 151
일부 초기 단순 탐사 154
단어 동시 발생과 상관 156
설명 및 제목 단어 연결망 156
중요어 연결망 159
설명 필드에 대한 tf-idf 계산 163
설명 필드 단어의 tf-idf는 무엇인가? 163
설명 필드를 중요어에 연결하기 164
토픽 모델링 166
문서-용어 행렬에 캐스팅하기 166
토픽 모델링 준비 167
토픽 모델 해석 168
토픽 모델링을 중요어와 연결하기 175
요약 178

CHAPTER 9 사례 연구: 유즈넷 텍스트 분석 179
전처리 179
텍스트 전처리 181
뉴스그룹의 단어들 183
뉴스그룹 내에서 tf-idf 찾기 184
토픽 모델링 187
정서분석 190
단어별 정서분석 191
메시지별 정서분석 194
엔그램 분석 197
요약 199

참고문헌 201
찾아보기 203

도서소개


 

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.