大数据概论知识梳理
大数据概论知识点梳理
本课程知识点较多,大多为概念
学习建议:理解、熟记、背诵
第一章
- 数据是什么
- 分类
- 结构化…
- 金字塔:数据信息知识智慧
- 大数据:增长快、难以用工具来捕获,存储,管理,分析可视化的数据集
- 特性:4v, volume,variety,value,velocity,3s:size, structure, speed
- 数据处理过程:
- 数据获取:获取,预处理
- 数据管理:分类,索引等等
- 数据分析:各样分析
- 数据可视化与交互分析
- 思维方式改变:
- 抽样到全样
- 精确到非精确
- 因果到关联
- 大数据计算:
- 蛮算变巧算
- 3I特征:
- inexact:近似性 噪声多,寻找关联特征
- incremental:增量性 不断更新产生,实时性高
- inductive:归纳性 分布多元集中,隐含关系
- 大数据挑战
- 开放程度低
- 人才缺失
- 制度建设落后
- 安全问题严峻
第二章
- 大数据价值:
- 经济
- 社会
- 科研
- 工业
- 大数据技术支撑:
- 计算:算力增强,速度快
- 存储:成本下降
- 智能:机器拥有理解数据能力
- 大数据来源
- 产生数据主体:
- 少量企业
- 大量人
- 巨量机器
- 行业:
- 互联网
- 公共交通,医疗
- 制造业
- 电信金融保险
- 气象。地理等
- 获取途径:
- 日志采集
- 互联网
- 移动端采集
- 数据机构合作
- 产生数据主体:
- 大数据处理方法
- 大数据核心技术
- 采集
- 爬虫,物联网,日志
- 预处理
- 清洗,集成,变换,归约
- 存储与管理
- 分析与挖掘
- 可视化
- 安全保障
- 采集
- 大数据核心技术
- 大数据与其他领域
- 数据科学
- 物联网
- 区块链
- 人工智能
- 应用场景
- 环境
- 教育行业
- 医疗行业
- 农业
- 智慧城市
- 零售
- 金融
第三章
- 物联网
- 定义?
- 三大特征
- 全面感知:二维码,传感器,RFID等等
- 可靠传送:有线无线与互联网融合
- 智能处理:本身也具有处理能力
- 云计算
- 特征
- 超大规模
- 虚拟化
- 高可靠
- 可动态伸缩
- 按需分配
- 广泛网络访问
- 节约资源
- 服务模式
- iaas
- paas
- saas
- 部署模型
- 公有云:节省开支但不在内部
- 私有云:掌控数据,开支高
- 混合云:控制敏感资源,降低支出,但技术复杂
- 特征
- 大数据获取
- 典型数据
- 商业数据
- 网络数据
- 科学研究数据
- 三个步骤
- 数据采集
- 传感器
- 日志
- 爬虫
- 控制器
- 解析器
- 资源库
- 分类
- 批量性爬虫
- 明确的范围,时间
- 增量性爬虫
- 不断更新
- 垂直型爬虫
- 某一类别
- 批量性爬虫
- 策略
- 深度优先:设计简易,抓取深度大,容易无线抓取,抓取过程无法收敛
- 广度优先:抓取宽度广,容易控制,但可能导致url池溢出
- IP地址
Partial pagerank:对每个网页进行计算,按大小抓取。可控优先级,但可能受到广告和作弊链接的影响
OPIC:也是打分选网页,计算速度比上面的快,但容易受到初始值的影响
- 爬虫工具
- scrapy
- webmagic
- 数据传输
- IP骨干网传输
- 数据中心传输
- 数据预处理
- 数据集成 ETL
- 数据抽取
- 全量抽取
- 增量抽取
- 日志比对
- 时间戳比对
- 触发器
- 数据变换
- ETL引擎变换:组件化方式
- 数据库中变换:sql,函数等等
- 变换规则
- 字段级变换:数据类型转换,上下文
- 清洁与净化:指定范围内
- 多数据源整合:
- 聚合和汇总
- 数据装载:
- sql插入更新
- 批量,使用bp,bulk等工具或api
- 常用工具:kettle
- 数据抽取
- 数据清洗
- 发现不准确、不完整不合理数据进行修补或移除
- 定义错误类型
- 搜索表示错误示例
- 改正错误
- 记录错误示例错误类型
- 修改数据,录入
- 发现不准确、不完整不合理数据进行修补或移除
- 冗余消除
- 去除重复过剩
- 冗余检测
- 数据去重
- 数据压缩
- 去除重复过剩
- 数据集成 ETL
- 数据采集
- 典型数据
第四章
- 事务
- acid
- 原子性
- 一致性
- 隔离性
- 持久性 durability
- acid
- 分布式文件系统
- 文件系统组成
- 文件系统接口
- 对象操作和管理的软件集合
- 对象和属性
- 目标
- 硬件出错正常而非异常
- 主要负载为流读写:非用户交互或随机读写
- 存储大尺寸文件
- 两类
- 面向大文件,块数据顺序读写
- 支持通用文件系统,并支持可移植操作系统接口
- 文件系统组成
- HDFS
- 特点
- 大文件存储管理
- 集群规模可动态扩展
- 保证数据一致性
- 数据吞吐联动大,移植性好
- 优点
- 设备便宜
- 流数据读写
- 大数据集
- 跨平台
- 简单文件模型
- 局限性
- 不适合低延迟数据访问
- 无法高效存储小文件
- 不支持多用户写入和任意修改
- 客户端是用户操作的方式,是个库
- 一个名称节点的局限性
- 命名空间限制:受到内存空间大小的影响
- 性能瓶颈:受限于单个名称节点的吞吐量
- 隔离问题:不能对不同程序隔离
- 集群可用性:一个坏了之后集群会不可用
- 冗余数据处理
- 加快数据传输速度
- 检查数据错误
- 保证数据可靠性
- 特点
- Ceph
- 无需查表,算算就好
- 无中心结构
- GlusterFS
- scale-out
第五章
- 关系数据库和HBASE
- 无法应对大规模数据,会有系统拓展性和性能问题
- 数据结构改变时要停机维护
- 空列浪费空间
- HBASE
- 特点
- 海量存储
- 列式存储
- 极易拓展
- 高并发
- 稀疏
- 对比关系数据库
- 数据类型:字符串
- 数据操作:只有crud,没有表与表之间
- 存储模式:列族
- 数据索引:只有一个索引:行键
- 数据维护:不删除原表
- 可伸缩性:水平拓展
- 特点
第六章
- Nosql
- 原则
- 横向拓展
- 放弃严格的acid
- 容错处理:备份
- 为什么诞生(关系型数据库)
- 拓展困难
- 读写慢
- 成本高
- 有限容量
- 新的需求
- 低延迟读写
- 海量数据,流量
- 大规模集群管理
- 庞大运营成本
- 对比
- 存储方式不同
- 拓展方式不同
- 对事务性支持不同
- 原则
- 关系数据库优势
- 标准化sql
- 大量用户群
- acid合规性
- 不需要代码
- 劣势
- 硬件贵
- 过于死板
- 数据规范化
- 非关系型数据库优势
- 查询速度快
- 敏捷
- 持续可用性
- 低成本拓展
- 劣势
- 没有标准语言
- 复杂查询效率低
- 专家人数少
- BASE模式
- basically available:基本可用,支持分区失败
- soft state:状态可以有一段时间不同步
- eventually consistent:最终一致即可
- CAP
- 一致性:多点数据一致
- 可用性:随时可用
- 分区容错性:断网,分离系统依然可用
- CA:关系数据库
- CP:bIgtable,hbase,
- AP:实现最终一致性的数据库
- 键值对数据库
- memcached
- redis
- 文档数据库
- mongodb
- 列族数据库
- 图数据库
- neo4j
第七章
- 数据集特征
- 维度
- 稀疏性
- 分辨率
- 特征工程构成
- 特征表示
- 构建
- 聚合
- 转换
- 构建
- 特征提取
- 降维
- 主成分分析
- 独立成分分析
- 图像
- SIFT特征
- HOG
- 文字
- 词袋模型
- n-gram模型
- 降维
- 特征选择
- 筛选器
- 先选择在训练
- 方差、相关系数。卡方检验
- 封装器
- 将训练器的性能作为评价标准
- LVM、递归特征消除
- 嵌入式
- 特征选择和训练融为一体
- 正则化、决策树
- 筛选器
- 特征表示
大数据概论知识梳理
https://dreamerland.cn/2023/07/18/bigdata/