文本挖掘:基于R语言的整洁工具
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-11-05 21:52:46
微信
赏
支付宝
文档简介:
O’Reilly精品图书系列
文本挖掘:基于R语言的整洁工具
Text Mining with R:A Tidy Approach
(美)茱莉亚·斯拉格(Julia Silge) (美)戴维·
罗宾逊(David Robinson) 著
刘波 罗棻 唐亮贵 译
ISBN:978-7-111-58855-9
© 2017 O’Reilly Media,Inc.
Simplified Chinese Edition,jointly published by
O’Reilly Media,Inc.and China Machine
Press,2018.Authorized translation of the English
edition,2017 O’Reilly Media,Inc.,the owner of all
rights to publish and sell the same.
All rights reserved including the rights of reproduction
in whole or in part in any form.
本书纸版由机械工业出版社于2018年出版,电子版
由华章分社(北京华章图文信息有限公司,北京奥
维博世图书发行有限公司)在中华人民共和国境内
(不包括香港、澳门特别行政区及台湾地区)制作
与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @华章数媒
微信公众号 华章电子书(微信号:hzebook)
目录
O’Reilly Media,Inc.介绍
译者序
前言
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第4章 词之间的关系:n-gram及相关性
n-gram词条化
用widyr包对单词对计数并计算相关性
总结
第5章 非整洁格式转换
使文档–词项矩阵整洁
将整洁文本数据转换为矩阵
总结
第6章 主题建模
LDA
示例:博大的图书馆馆藏
LDA方法的替代实现
总结
第7章 案例研究:Twitter归档文件比较
单词......
评论
发表评论