bigdata《大数据时代》读书笔记——精华观点和核心语句
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-02-23 23:41:10
微信
赏
支付宝
文档简介:
big data《大数据时代》
精华观点和核心语句
不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关
系。
如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋
势的要求。开放
所带来的改变远远大于拥有权和隐私性保护所带来的问题。
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于
放弃人类的智力
优势,是末日之始。导致相关关系比因果关系重要的原因在于,我们机
器学习和以结果
为导向的研究思路误导人类。
公共医疗: Google 通过分析 03 到 08 的流感相关搜索词条,将 45 中词
条组合输入一个
数学模型之后,得到的流感预测数据和官方统计数据有 97%吻合。09
年判断准确,及
时预报流感。
商业: farecast 利用十万亿条飞机票价记录,预测飞机票价准确度高达
75%,利用
farecast 购买机票的旅客平均每张机票节省 50 美元。
不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言
sql,最新的数
据库为非关系型数据库 nosql。
美国股市每天成交量高达 70 亿股,其中三分之二都是由数学模型和算
法之上的计算机
程序自动完成的,这些程序利用海量数据来预测利益和降低风险。
数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。数据每
三年多翻一番。
数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米
技术对现实生活
物质的性质有所改变一样,空气阻力和重量和形状关系一样。
大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生
的可能性。
不再依赖于随机采样,不在热衷于追求精确度。并非完全放弃精确度,
只是不再沉迷于
此。不在热衷于寻找因果关系,而是寻找事物之间的相关性。
数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和“信
息”搭不上边的事
情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。
如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直
觉的判断被迫让
位于精准的数据分析。
正文:
第一章:样本 =全体
统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提
高,但与样本数量
的增加关系不大。随机采样取得了巨大的成功,但是他的成功利亚与采
样的绝对随机性,
实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果
就会相去甚远。
搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细
节和微乎其微的
重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这
个异常值。商务
是即时的,因此数据分......
评论
发表评论