大数据概论知识梳理

大数据概论知识点梳理

本课程知识点较多,大多为概念

学习建议:理解、熟记、背诵

第一章

  • 数据是什么
  • 分类
    • 结构化…
  • 金字塔:数据信息知识智慧
  • 大数据:增长快、难以用工具来捕获,存储,管理,分析可视化的数据集
    • 特性:4v, volume,variety,value,velocity,3s:size, structure, speed
  • 数据处理过程:
    • 数据获取:获取,预处理
    • 数据管理:分类,索引等等
    • 数据分析:各样分析
    • 数据可视化与交互分析
  • 思维方式改变:
    • 抽样到全样
    • 精确到非精确
    • 因果到关联
  • 大数据计算:
    • 蛮算变巧算
    • 3I特征:
      • inexact:近似性 噪声多,寻找关联特征
      • incremental:增量性 不断更新产生,实时性高
      • inductive:归纳性 分布多元集中,隐含关系
  • 大数据挑战
    • 开放程度低
    • 人才缺失
    • 制度建设落后
    • 安全问题严峻

第二章

  • 大数据价值:
    • 经济
    • 社会
    • 科研
    • 工业
  • 大数据技术支撑:
    • 计算:算力增强,速度快
    • 存储:成本下降
    • 智能:机器拥有理解数据能力
  • 大数据来源
    • 产生数据主体:
      • 少量企业
      • 大量人
      • 巨量机器
    • 行业:
      • 互联网
      • 公共交通,医疗
      • 制造业
      • 电信金融保险
      • 气象。地理等
    • 获取途径:
      • 日志采集
      • 互联网
      • 移动端采集
      • 数据机构合作
  • 大数据处理方法
    • 大数据核心技术
      • 采集
        • 爬虫,物联网,日志
      • 预处理
        • 清洗,集成,变换,归约
      • 存储与管理
      • 分析与挖掘
      • 可视化
      • 安全保障
  • 大数据与其他领域
    • 数据科学
    • 物联网
    • 区块链
    • 人工智能
  • 应用场景
    • 环境
    • 教育行业
    • 医疗行业
    • 农业
    • 智慧城市
    • 零售
    • 金融

第三章

  • 物联网
    • 定义?
    • 三大特征
      • 全面感知:二维码,传感器,RFID等等
      • 可靠传送:有线无线与互联网融合
      • 智能处理:本身也具有处理能力
  • 云计算
    • 特征
      • 超大规模
      • 虚拟化
      • 高可靠
      • 可动态伸缩
      • 按需分配
      • 广泛网络访问
      • 节约资源
    • 服务模式
      • iaas
      • paas
      • saas
    • 部署模型
      • 公有云:节省开支但不在内部
      • 私有云:掌控数据,开支高
      • 混合云:控制敏感资源,降低支出,但技术复杂
  • 大数据获取
    • 典型数据
      • 商业数据
      • 网络数据
      • 科学研究数据
    • 三个步骤
      • 数据采集
        • 传感器
        • 日志
        • 爬虫
          • 控制器
          • 解析器
          • 资源库
          • 分类
            • 批量性爬虫
              • 明确的范围,时间
            • 增量性爬虫
              • 不断更新
            • 垂直型爬虫
              • 某一类别
          • 策略
            • 深度优先:设计简易,抓取深度大,容易无线抓取,抓取过程无法收敛
            • 广度优先:抓取宽度广,容易控制,但可能导致url池溢出
            • IP地址
              Partial pagerank:对每个网页进行计算,按大小抓取。可控优先级,但可能受到广告和作弊链接的影响
              OPIC:也是打分选网页,计算速度比上面的快,但容易受到初始值的影响
          • 爬虫工具
            • scrapy
            • webmagic
      • 数据传输
        • IP骨干网传输
        • 数据中心传输
      • 数据预处理
        • 数据集成 ETL
          • 数据抽取
            • 全量抽取
            • 增量抽取
              • 日志比对
              • 时间戳比对
              • 触发器
          • 数据变换
            • ETL引擎变换:组件化方式
            • 数据库中变换:sql,函数等等
            • 变换规则
              • 字段级变换:数据类型转换,上下文
              • 清洁与净化:指定范围内
              • 多数据源整合:
              • 聚合和汇总
          • 数据装载:
            • sql插入更新
            • 批量,使用bp,bulk等工具或api
          • 常用工具:kettle
        • 数据清洗
          • 发现不准确、不完整不合理数据进行修补或移除
            • 定义错误类型
            • 搜索表示错误示例
            • 改正错误
            • 记录错误示例错误类型
            • 修改数据,录入
        • 冗余消除
          • 去除重复过剩
            • 冗余检测
            • 数据去重
            • 数据压缩

第四章

  • 事务
    • acid
      • 原子性
      • 一致性
      • 隔离性
      • 持久性 durability
  • 分布式文件系统
    • 文件系统组成
      • 文件系统接口
      • 对象操作和管理的软件集合
      • 对象和属性
    • 目标
      • 硬件出错正常而非异常
      • 主要负载为流读写:非用户交互或随机读写
      • 存储大尺寸文件
    • 两类
      • 面向大文件,块数据顺序读写
      • 支持通用文件系统,并支持可移植操作系统接口
  • HDFS
    • 特点
      • 大文件存储管理
      • 集群规模可动态扩展
      • 保证数据一致性
      • 数据吞吐联动大,移植性好
    • 优点
      • 设备便宜
      • 流数据读写
      • 大数据集
      • 跨平台
      • 简单文件模型
    • 局限性
      • 不适合低延迟数据访问
      • 无法高效存储小文件
      • 不支持多用户写入和任意修改
    • 客户端是用户操作的方式,是个库
    • 一个名称节点的局限性
      • 命名空间限制:受到内存空间大小的影响
      • 性能瓶颈:受限于单个名称节点的吞吐量
      • 隔离问题:不能对不同程序隔离
      • 集群可用性:一个坏了之后集群会不可用
    • 冗余数据处理
      • 加快数据传输速度
      • 检查数据错误
      • 保证数据可靠性
  • Ceph
    • 无需查表,算算就好
    • 无中心结构
  • GlusterFS
    • scale-out

第五章

  • 关系数据库和HBASE
    • 无法应对大规模数据,会有系统拓展性和性能问题
    • 数据结构改变时要停机维护
    • 空列浪费空间
  • HBASE
    • 特点
      • 海量存储
      • 列式存储
      • 极易拓展
      • 高并发
      • 稀疏
    • 对比关系数据库
      • 数据类型:字符串
      • 数据操作:只有crud,没有表与表之间
      • 存储模式:列族
      • 数据索引:只有一个索引:行键
      • 数据维护:不删除原表
      • 可伸缩性:水平拓展

第六章

  • Nosql
    • 原则
      • 横向拓展
      • 放弃严格的acid
      • 容错处理:备份
    • 为什么诞生(关系型数据库)
      • 拓展困难
      • 读写慢
      • 成本高
      • 有限容量
    • 新的需求
      • 低延迟读写
      • 海量数据,流量
      • 大规模集群管理
      • 庞大运营成本
    • 对比
      • 存储方式不同
      • 拓展方式不同
      • 对事务性支持不同
  • 关系数据库优势
    • 标准化sql
    • 大量用户群
    • acid合规性
    • 不需要代码
  • 劣势
    • 硬件贵
    • 过于死板
    • 数据规范化
  • 非关系型数据库优势
    • 查询速度快
    • 敏捷
    • 持续可用性
    • 低成本拓展
  • 劣势
    • 没有标准语言
    • 复杂查询效率低
    • 专家人数少
  • BASE模式
    • basically available:基本可用,支持分区失败
    • soft state:状态可以有一段时间不同步
    • eventually consistent:最终一致即可
  • CAP
    • 一致性:多点数据一致
    • 可用性:随时可用
    • 分区容错性:断网,分离系统依然可用
    • CA:关系数据库
    • CP:bIgtable,hbase,
    • AP:实现最终一致性的数据库
  • 键值对数据库
    • memcached
    • redis
  • 文档数据库
    • mongodb
  • 列族数据库
  • 图数据库
    • neo4j

第七章

  • 数据集特征
    • 维度
    • 稀疏性
    • 分辨率
  • 特征工程构成
    • 特征表示
      • 构建
        • 聚合
        • 转换
    • 特征提取
      • 降维
        • 主成分分析
        • 独立成分分析
      • 图像
        • SIFT特征
        • HOG
      • 文字
        • 词袋模型
        • n-gram模型
    • 特征选择
      • 筛选器
        • 先选择在训练
        • 方差、相关系数。卡方检验
      • 封装器
        • 将训练器的性能作为评价标准
        • LVM、递归特征消除
      • 嵌入式
        • 特征选择和训练融为一体
        • 正则化、决策树

大数据概论知识梳理
https://dreamerland.cn/2023/07/18/bigdata/
作者
Silva31
发布于
2023年7月18日
许可协议