好程序员-千锋教育旗下高端IT职业教育品牌
400-811-9990好程序员
专注高端IT职业培训
- 1.1.1 计算机语言与编程概述
- 1.1.2 介绍Java生态圈
- 1.1.3 Java发展史
- 1.1.4 JDK,JRE详解
- 1.1.5 Java体系详解
- 1。1。6 Java跨平台性-JVM
- 1。1。7 常用DOS命令
- 1.1.8 JDK的安装与测试
- 1。1。9 第一个Java程序控制台编译运行
- 1。1。10 Java的注释和基本语法规则
- 1。1。11 Java关键字
- 1.1.12 Java标识符和语句分割
- 1.1.13 Java的基础数据类型
- 1.1.14 变量,常量的声明与使用
- 1.1.15 变量,常量内存空间分配与原理
- 1.1.16 表达式和Java运算符
- 1。1。17 数据类型转换之自动类型转换和强制类型转换
- 1。1。18 变量的运算与栈空间存储原理
- 1.2.1 分支循环语句
- 1。2。2 if分支结构
- 1。2。3 if-else分支结构
- 1.2.4 if-elseif分支结构
- 1。2。5 if-else分支嵌套结构
- 1.2.6 switch-case分支结构
- 1.2.7 switch-case的穿透特性
- 1。2。8 Java8中switch-case分支新特性
- 1.2.9 分支语句基础项目—-猜数字
- 1.2.10 while循环结构
- 1.2.11 do-while循环结构
- 1.2.12 for循环结构
- 1.2.13 循环的嵌套
- 1.2.14 循环语句基础项目—-剪刀石头布
- 1。2。15 三个关键字:break,continue,return
- 1。2。16 方法的声明与使用
- 1.2.17 方法的调用过程和内存图解
- 1。2。17 方法的重载Overload
- 1.2.17 递归详解和递归方法使用
- 1.3.1 软件的生命周期
- 1.3.2 软件的设计原则
- 1.3.3 面向对象(Object Oriented)和面向过程(Procedure Oriented)思想
- 1.3.4 面向对象三大特性:封装性,继承性,多态性
- 1.3.5 类和对象的关系
- 1.3.6 成员变量和局部变量的区别
- 1.3.7 构造方法详解
- 1.3.8 对象和类在内存中存储的方式
- 1.3.9 类中的值传递和地址传递
- 1.3.10 继承中各个成员特点
- 1.3.11 方法重写的应用
- 1。3。12 子类对象实例化过程
- 1.3.13 访问权限修饰符
- 1.3.14 多态在实际开发中的应用
- 1。4。1 包 (package) 的管理与作用
- 1.4.2 JavaBean规范
- 1。4。3 this关键字和super关键
- 1。4。4 static关键字在开发中的应用
- 1.4.5 Object类中equals方法和hashCode方法重写和原理
- 1.4.6 final关键字在开发中的应用
- 1.4.7 里氏代转原则
- 1.4.8 instanceof 关键字应用
- 1.4.9 抽象类(AbstractClass)在开发中的实际应用
- 1。4。10 抽象(AbstractMethod)方法在开发中的实际应用
- 1.4.11 接口(interface)开发中实际应用
- 1.4.12 Java8中接口的新特性
- 1.4.13 软件的三层架构
- 1.4.14 Template Pattern—模板设计模式
- 1。4。15 Singleton Pattern—单例设计模式
- 1.4.16 Factory Pattern—-工厂设计模式
- 1.4.17 成员内部类
- 1.4.18 静态内部类
- 1.4.19 局部内部类
- 1.4.20 匿名内部类
- 1.5.1 包装类(Wrapper Class)
- 1。5。2 装箱和拆箱
- 1.5.3 享元原则
- 1。5。4 String字符串类
- 1.5.5 StringBuffer和StringBuilder字符串构建器类
- 1。5。6 String和StringBuffer和StringBuilder性能测试
- 1。5。7 String在内存中的存储模型
- 1.5.8 Math数学类
- 1.5.9 NumberFormat和DecimalFormat数据格式化类
- 1。5。10 System和Runtime系统类
- 1.5.11 Random和ThreadLocalRandom随机数类
- 1.5.12 UUID类
- 1。5。13 Date和Calendar日期类
- 1.6.1 枚举定义和使用
- 1.6.2 通过枚举的class文件查看底层实现
- 1.6.3 枚举中使用成员方法和静态方法
- 1.6.4 枚举单例
- 1.6.5 异常体系Throwable
- 1.6.6 RuntimeException运行时异常
- 1.6.7 Exception编译时异常
- 1.6.8 常量异常类
- 1.6.9 try...catch处理异常的方式
- 1.6.10 Java8中异常处理新语法
- 1。6。11 throws和throw关键的使用
- 1.6.12 finally语句块的实际应用
- 1.6.13 final,finally,finalize的区别
- 1.6.14 自定义异常
- 1.6.15 异常转换和异常链
- 1.7.1 数据结构举例剖析
- 1.7.2 数组的定义和使用方式
- 1.7.3 数组的静态赋值和动态赋值
- 1。7。4 数组排序算法
- 1.7.5 数组中元素查找算法
- 1.7.6 数组的基本操作(CRUD)
- 1.7.7 可变参数解析
- 1.7.8 Arrays工具类使用
- 1。7。9 Collection,List,Set接口集合
- 1。7。10 List集合下的ArrayList和LinkedList集合
- 1。7。11 ArrayList集合性能分析
- 1.7.12 LinkedList集合性能分析
- 1.7.13 通过源码分析封装自己的ArrayList
- 1。7。14 通过源码分析实现双向链表
- 1.7.15 介绍Hash算法
- 1.7.16 通过源码分析查看HashSet实现
- 1.7.17 Set集合下HashSet和TreeSet集合
- 1。7。18 Comparable接口和Comparator接口
- 1.7.19 泛型基本使用
- 1.7.20 泛型通配符和泛型限定
- 1.7.21 Map集合下的HashMap和TreeMap
- 1.7.22 通过源码分析查看HashMap实现
- 1.7.23 Collections集合工具类使用
- 1。7。24 其他集合的使用和介绍
- 1.8.1 File类的常用操作
- 1.8.2 递归遍历文件夹
- 1.8.3 文件过滤器
- 1.8.4 IO流结构体系
- 1。8。5 IO流原理分析
- 1.8.6 IO流的分类
- 1.8.7 IO流与文件操作
- 1.8.8 流实现文件的读取与拷贝
- 1。8。9 文件的复制与性能对比
- 1.8.10 装饰者设计模式
- 1。8。11 字符编码和解码
- 1。8。12 Properties资源文件开发中的应用
- 1.8.13 内存流和数据流
- 1。8。14 对象流的使用—序列化和反序列化
- 1.8.15 RandomAccessFile类
- 1.9.1 程序,进程,线程的关系详解
- 1.9.2 线程的原理
- 1.9.3 线程的创建与启动
- 1.9.4 线程的Thread类和Runnable接口实现
- 1.9.5 Thread类和Runnable的匿名内部类实现
- 1.9.6 线程的运行状态图解
- 1。9。7 线程睡眠(sleep)
- 1.9.8 线程合并(join)
- 1.9.9 线程设置守护线程
- 1。9。10 线程中断操作替代stop方法
- 1。9。11 多线程并发访问临界资源安全问题
- 1。9。12 synchronized同步锁
- 1。9。13 同步锁和同步方法使用
- 1.9.14 静态锁和静态同步方法使用
- 1.9.15 Java5提供的全新锁对象Lock
- 1.9.16 线程通信
- 1.9.17 生产者和消费者设计模式
- 1.9.18 Lock和Condition实现生产者和消费者
- 1。9。19 单例模式双重检查加锁
- 1。9。20 线程的死锁问题
- 1.9.21 线程的生命周期
- 1.10.1 网络通讯协议
- 1.10.2 网络七层协议
- 1。10。3 网络四层协议
- 1.10.4 TCP/IP传输协议和互联网协议
- 1.10.5 UDP协议用户数据包协议
- 1。10。6 IP地址和端口号
- 1.10.7 InetAddress IP地址类
- 1.10.8 Socket和ServerSocket网络编程
- 1。10。9 UDP网络传输协议
- 1。10。10 JVM内存分析
- 1.10.11 反射原理分析
- 1.10.12 类的加载过程,加载,连接,初始化
- 1.10.13 class获取对象的三种方式
- 1.10.14 Constructor构造方法
- 1.10.15 Field属性
- 1。10。16 Method方法
- 1。10。17 类的加载器ClassLoader
- 1.10.18 Proxy 和 InvocationHandler 创建动态代理
- 1。10。19 动态代理和AOP
- 1。11。1 Lambda表达式
- 1.11.2 Java可以函数式编
- 1.11.3 Lambda表达式与函数式接口
- 1.11.4 Lambda表达式引用全局和局部变量
- 1.11.5 Lambda方法引用与构造器引用
- 1。11。6 Lambda引用类方法
- 1.11.7 Lambda引用特定对象的实例方法
- 1.11.8 Lambda引用某类对象的实例方法
- 1.11.9 Lambda引用构造方法
- 1.11.10 Lambda表达式和匿名内部类的区别
- 1。11。11 Lambds表达式应用
- 1。11。12 强大的 Stream API
- 1.11.13 Stream 操作的核心步骤
- 1.11.14 惰性求值与内部迭代
- 1.11.15 筛选与切片
- 1。11。16 映射与排序
- 1.11.17 查找与匹配
- 1。11。18 归约与收集
- 1.11.19 Optional 容器类
- 1。12。1 Tomcat介绍与搭建
- 1。12。2 软件B/S和C/S
- 1。12。3 JavaWeb核心技术
- 1.12.4 Http协议Get和Post
- 1。12。5 NIO和NIO。2
- 1.12.6 Channels:通道 Buffer:缓冲区 Selectors:选择器
- 1.12.7 Path、Paths和Files
- 1。12。8 Lombok工具
- 1.12.9 内省机制(Introspector)
- 1.12.10 JavaBean和Map相互转换
- 1.12.11 apache的beanutils和lang组件
- 1.12.12 初始注解
- 1。12。13 JDK中的四大元注解
- 1.12.14 注解的定义和使用
- 1.12.15 JDK内置的四大注解
- 1.12.16 模拟Junit4功能
- 1.12.17 软件测试概述
- 1。12。18 搭建junit3的测试环境
- 1。12。19 搭建junit4的测试环境
- 1.12.20 单元测试的断言操作
- 1.12.21 XML文件概述
- 1.12.22 XML约束
- 1.12.23 XML文档结构分析
- 1.12.24 DOM操作
- 1.12.25 MapReduce底层算法分析
- 1.13.1 数据库概述
- 1.13.2 键值存储数据库详解
- 1。13。3 列式储数数据库详解
- 1.13.4 文档型数据库详解
- 1.13.5 图形数据库详解
- 1。13。6 MySQL的安装和使用
- 1.13.7 图解MySQL程序结构
- 1.13.8 MySQL服务器的配置
- 1。13。9 MySQL客户端使用
- 1。13。10 SQL语言包含6个部分
- 1.13.11 数据查询语言(DQL)
- 1.13.12 数据操作语言(DML)
- 1.13.13 事务处理语言(TPL)
- 1.13.14 数据控制语言(DCL)
- 1。13。15 数据定义语言(DDL)
- 1.13.16 指针控制语言(CCL)
- 1。13。17 数据处理
- 1。13。18 范围查询,模糊查询,结果排序
- 1。13。19 分页查询
- 1.13.20 统计函数
- 1.13.21 多表查询
- 1.13.22 数据的完整性详解
- 1.13.23 数据备份和恢复
- 1.13.24 MySQL自身的数据库维护
- 1.14.1 JDBC概述:
- 1.14.2 JDBC获取数据库的连接
- 1。14。3 JDBC相关APIDDL操作DML操作DQL操作
- 1.14.4 软件工程编写DAO思想
- 1.14.5 JDBC重构设计:
- 1.14.6 SQL预编译语句对象
- 1.14.7 SQL预编译语句对象和静态语句对象对比
- 1.14.8 JDBC事物管理操作
- 1。14。9 JDBC批处理操作
- 1.14.10 JDBC大数据类型操作
- 1.14.11 JDBC获取自动生成的主键
- 1。14。12 JDBC连接池
- 1。14。13 C3P0和DBCP
- 1.14.14 阿里巴巴的项目—Druid.
- 1.14.15 JDBC连接池的操作和配置
- 1.14.16 JDBC通用结果集处理器
- 1.14.17 利用DBUtils编写通用 DA
- 2.1.1Linux概述
- 2.1.2Linux特点
- 2.1.3Linux和Windows的区别
- 2.1.4VMWare虚拟机介绍与安装
- 2.1.5安装Linux系统CentOS
- 2.1.6安装VMTools工具
- 2。1。7网络基础及局域网配置
- 2.1.8IVT虚拟化支持
- 2.1.9Linux系统目录结构
- 2.1.10常用快捷键
- 2.1.11Tab键的使用
- 2。1。12查看Linux系统命令
- 2.2.1基本日常操作命令
- 2。2。2设置系统时区、时间
- 2.2.3目录操作命令
- 2.2.4文件操作命令
- 2.2.5vi文本编辑器
- 2.2.6查看文件内容
- 2。2。7打包压缩命令
- 2.2.8文件查找命令
- 2。2。9grep命令
- 2.2.10文件权限操作命令
- 2.2.11用户管理命令
- 2。2。12用户组管理命令
- 2.2.13为用户配置sudo权限
- 2.2.14服务管理命令
- 2.2.15进程管理命令
- 2.2.16磁盘操作命
- 2。3。1查看和配置网络Ip
- 2.3.2配置主机名
- 2.3.3关闭、禁用防火墙
- 2。3。4Linux不进入系统修改root密码
- 2.3.5ssh远程连接linux服务器
- 2.3.6SecureCRT基础属性配置
- 2.3.7SecureCRT中文乱码解决
- 2.3.8Linux系统中软件安装方式介绍
- 2.3.9二进制安装JDK、TOMCAT
- 2。3。10yum源安装方式介绍
- 2.3.11yum的常用命令
- 2。3。12为什么要制作本地yum源
- 2。3。13制作基于本地文件的yum源
- 2。3。14制作基于web服务器的yum源
- 2.3.15RPM安装介绍
- 2.3.16RPM安装MySql
- 2。3。17源码安装Redis
- 防火墙基本配置
- 防火墙必备技能
- 防火墙扩展知识
- ipTables的使用
- 高级文本处理-cut命令
- cut的缺陷与不足
- 高级文本处理-sed命令
- sed命令示例
- 高级文本处理-awk命令
- awk编程
- crontab定时任务配置
- 2。5。1Shell概述
- 2.5.2shell脚本的运行环境和执行方式
- 2。5。3shell系统变量和环境变量
- 2.5.4shell用户自定义变量定义
- 2.5.5export的提升变量作用域
- 2。5。6shell运算符
- 2。5。7流程控制语句
- 2.5.8if...else语句
- 2.5.9常用判断条件
- 2.5.10read命令补充
- 2.5.11常用判断运算符
- 2.5.12while循环语句
- 2.5.13case语句
- 2.5.14for循环语句
- 2.5.15shell自定义函数
- 2.5.16函数返回值
- 2.5.17跨脚本调用函数
- 2.5.18shell编程综合练习
- 2。5。19自动化软件部署需求与脚本实现
- 2.6.1什么是Hadoop
- 2。6。2Hadoop产生的背景
- 2.6.3Hadoop在大数据、云计算中的位置和关系
- 2.6.4国内外Hadoop应用案例介绍
- 2.6.5国内外Hadoop就业情况分析
- 2.6.6Hadoop三大发行版本
- 2.6.7Hadoop的技术优势
- 2.6.8Hadoop生态圈及各部件组成介绍
- 2.7.1分布式软件系统介绍
- 2.7.2分布式软件系统案例
- 2.7.3分布式应用系统模拟开发
- 2.8.1离线分析系统需求分析
- 2.8.2离线分析系统案例需求描述
- 2.8.3离线分析系统案例数据来源
- 2.8.4离线分析系统数据处理流程
- 2.8.5离线分析系统流程图解析
- 2.8.6离线分析系统项目技术架构图
- 2.8.7离线分析系统项目相关截图
- 2。8。8离线分析系统项目最终效果展示
- 2.9.1配置虚拟机网络环境
- 2.9.2修改主机名
- 2.9.3修改主机为静态Ip
- 2。9。4关闭防火墙并禁用开机自启
- 2。9。5规划安装目录
- 2.9.6解压安装JDK并配置环境变量
- 2.9.7安装单机版Hadoop
- 2.9.8配置Hadoop运行环境hadoop-env.sh
- 2.9.9测试Hadoop环境
- 2.9.10单机运行官方案例WordCount
- 2.9.11单机运行官方案例pi
- 2.9.12单机运行官方案例sudoku(九宫格)
- 2.9.13单机运行官方案例grep
- 2.9.14单机运行官方案例secondarysort(二次排序)
- 2.10.1Hadoop伪分布式模式说明
- 2.10.2核心配置文件core-site.xml配置及说明
- 2.10.3HDFS配置文件hdfs-site.xml配置及说明
- 2.10.4单进程启动HDFS及Shell命令测试
- 2.10.5查看HDFS的web监控页面
- 2。10。6测试运行MapReduce示例
- 2。10。7YARN配置文件yarn-site。xml配置及说明
- 2.10.8单进程启动Yarn集群
- 2.10.9测试运行MapReduce示例
- 2.10.10MAPRED配置文件mapred-site.xml配置及说明
- 2。10。11测试运行MapReduce示例
- 2.10.12查看YARN的web监控页面
- 2.10.13观察运行MapReduce时的区别
- 2.10.14历史服务配置并启动查看
- 2.11.1Hadoop全分布式模式介绍
- 2。11。2集群规划,主从节点的划分
- 2.11.3环境准备
- 2。11。4jdk安装
- 2.11.5配置主从节点间的ssh免密
- 2.11.6集群各节点配置静态Ip
- 2.11.7集群各节点的映射关系配置hosts
- 2.11.8关闭防火墙并禁用开机自启
- 2。11。9集群间时间同步
- 2。11。10配置Hadoop集群
-2。11。11批量启动、停止Hadoop集群
- 2.12.1HDFS设计思想
- 2。12。2HDFS基本概念
- 2.12.3HDFS的特性
- 2.12.4HDFS文件块大小设置
- 2。12。5HDFS文件副本数设置
- 2.12.6HDFS的Shell基本操作
- 2。12。7HDFS的客户端使用
- 2.12.8HDFS客户端命令详解
- 2.12.9HDFS常用命令参数介绍
- 2。13。1Maven安装与配置
- 2.13.2搭建开发环境
- 2。13。3获取API中的客户端对象
- 2.13.4DistributedFileSystem实例对象
- 2.13.5HDFS文件上传
- 2.13.6HDFS文件上传中的用户模型
- 2。13。7配置文件的优先级
- 2.13.8HDFS的文件下载
- 2.13.9配置Hadoop的本地环境
- 2.13.10文件下载中使用Java原生API操作本地系统
- 2.13.11HDFS的增删改查
- 2.14.1IO流操作HDFS文件上传
- 2.14.2IO流操作HDFS文件下载
- 2.14.3IO流操作HDFS文件合并上传
- 2.14.4IO流操作随机读取HDFS文件
- 2。14。5IO流操作按块读取HDFS文件
- 2.14.6HDFS的写数据流程
- 2。14。7剖析文件写入
- 2.14.8网络拓扑
- 2.14.9机架感知
- 2。14。10HDFS的读数据流程
- 2.15.1NameNode的职责
- 2.15.2镜像文件和编辑日志文件
- 2.15.3滚动编辑日志
- 2.15.4Namenode版本号
- 2。15。5NameNode元数据手动查看
- 2。15。6Secondary NameNode的职责
- 2.15.7元数据的日志合并
- 2.15.8集群安全模式解决
- 2.15.9Namenode多目录配置
- 2。15。10一致性模型
- 2.16.1DataNode的职责
- 2.16.2DataNode的目录结构
- 2.16.3数据完整性
- 2.16.4掉线时限参数详解
- 2.16.5新增数据节点
- 2.16.6下线数据节点
- 2.16.7Datanode多目录配置
- 2.16.8观察验证DATANODE的功能
- 2。17。1大型网站分布式演进
- 2。17。2分布式系统中协调服务的必要性
- 2。17。3Zookeeper的概念、特点
- 2.17.4Zookeeper的应用场景
- 2.17.5Zookeeper的数据结构
- 2。17。6Zookeeper集群部署
- 2.17.7Zookeeper工作机制
- 2.17.8Zookeeper的选举机制
- 2。17。9Zookeeper的节点类型
- 2。17。10stat详解
- 2.17.11Zookeeper的监听器原理
- 2.18.1Zookeeper命令行操作
- 2。18。2客户端连接
- 2.18.3列举znode路径
- 2.18.4获取znode数据
- 2.18.5监听znode事件
- 2.18.6Zookeeper客户端API
- 2。18。7创建Zookeeper连接客户端
- 2.18.8增删改查znode节点
- 2。18。9监听znode节点
- 2。18。10判断znode是否存在
- 2。18。11案例一:服务器上下线动态感知
- 2。18。12案例二:分布式共享锁
- 2。18。13案例三:分布式通知和协调服务
- 2。19。1HA的运作机制
- 2.19.2集群间数据拷贝
- 2.19.3Hadoop数据存档
- 2.19.4Hadoop快照管理
- 2.19.5Hadoop回收机制
- 2.19.6HDFS的HA工作机制
- 2.19.7HDFS的HA工作要点
- 2.19.8HDFS-HA自动故障转移设置
2。20。1环境准备
2.20.2集群规划
2.20.3配置HDFS-HA集群
2.20.3配置HDFS-HA集群
2.20.4软件分发
2.20.5启动HDFS-HA集群步骤
2。20。6测试HDFS-HA的自动故障转移
2.20.7YARN-HA配置
2。20。8YARN-HA启动集群
2.20.9HA的管理命令测试
2.20.10HDFS Federation架构设计
2.20.11HDFS Federation配置详解
- 2。21。1MapReduce的核心思想
- 2。21。2分布式计算框架的核心问题
- 2.21.3分布式计算框架的设计思路
- 2.21.4MapReduce的编程规范
- 2.21.5MapReduce程序运行流程
- 2。21。6MapReduce工作流程
- 2.21.7MapReduce的Job提交流程
- 2.21.8常用数据序列化类型
- 2.21.9自定义bean对象实现序列化
- 2.21.10切片机制
- 2。21。11小文件合并
- 2.21.12自定义InputFormat
- 2。22。1MapReduce的3大核心问题
- 2.22.2MapTask工作机制
- 2。22。3文件切片处理细节
- 2.22.4Shuffle机制
- 2.22.5Partition分区
- 2.22.6key.compareTo实现排序
- 2。22。7Combiner局部合并组件
- 2.22.8Reduce阶段读取数据
- 2.22.9ReduceTask调用redcue方法的逻辑
- 2。22。10GroupingComparator分组机制
- 2.22.11数据倾斜&分布式缓存机制
- 2.22.12自定义OutputFormat
- 2.23.1统计一批文件中单词出现的次数
- 2.23.2统计每月的最高温度
- 2.23.3求学生的平均成绩
- 2.23.4求学科的平均成绩
- 2。23。5求学生总平均分中每个分数段的人数及比例
- 2.23.6求任意一门学科成绩不及格的学生
- 2.23.7统计学生成材率
- 2.23.8按照文件名求各学科的平均成绩
- 2。23。9多文件输出案例
- 2.23.10自定义Partition分区输出多文件
- 2.23.11计数器应用
- 2.23.12数据压缩配置及应用
- 2.24.1对流量日志中的用户统计总上、下行流量,总流量
- 2.24.2统计流量并按照总流量大小倒序排序
- 2.24.3按省份统计用户流量并输出到不同的省份文件中
- 2。24。4社交好友数据挖掘 -- 求出用户间的共同好友
- 2.24.5简单排序
- 2.24.6内存二次排序
- 2.24.7内存TopN
- 2.24.8使用自定义数据类型的二次排序
- 2.24.9TopN-自定义GroupingComparator
- 2.24.10reduce端的join示例
- 2.24.11map端的join示例
- 2.24.12倒排索引
- 2.25.1为什么有Hive
- 2。25。2Hive是什么
- 2.25.3Hive的特点
- 2。25。4Hive架构简述
- 2.25.5Hive和MySql的比较
- 2.25.6Hive和Hadoop的关系
- 2。25。71Hive的安装部署
- 2.25.8创建Hive表
- 2.25.9上传数据到Hive的表目录下
- 2。25。10安装MySql数据库
- 2.25.11配置Hive的远程模式
- 2.26.1创建数据库
- 2.26.2修改数据库
- 2.26.3查询数据库
- 2.26.4显示数据表
- 2。26。5查看数据库定义
- 2。26。6删除数据库
- 2.26.7创建管理表
- 2.26.8创建外部表
- 2.26.9表类型详解
- 2.26.10数据仓库概念
- 2.26.11Like复制表
- 2.26.12修改表名称
- 2.26.13增加修改替换表的字段信息
- 2。26。14删除表
- 2。27。1分区表
- 2。27。2为什么分区
- 2.27.3怎么分区
- 2.27.4Hive分区和MySql分区的区别
- 2.27.5分区的技术
- 2.27.6分区的意义
- 2。27。7创建分区表
- 2.27.8导入数据的方式
- 2.27.9多字段分区案例
- 2.27.10显示分区
- 2。27。11修改分区
- 2.27.12删除分区
- 2.27.13分区类型详解
- 2.27.14动态分区属性设置及示例
- 2。27。15混合分区示例
- 2.27.16分区表注意事项
- 2.28.1为什么有分桶
- 2.28.2分桶的技术
- 2.28.3分桶关键字
- 2.28.4分桶的意义
- 2.28.5分桶表的使用示例
- 2.28.6分桶查询语句测试
- 2。28。7设置分桶属性
- 2.28.8分桶并排序
- 2.28.9分桶表查询案例
- 2.28.10分区分桶联合案例
- 2.28.11分桶表总结与注意事项
- 2.29.1基本查询Select...From
- 2.29.2全表查询和指定字段查询
- 2.29.3表别名、列别名
- 2.29.4算数运算符
- 2.29.5比较运算符
- 2。29。6逻辑运算符
- 2.29.7Where语句
- 2.29.8LIKE和RLIKE
- 2。29。9Group By语句
- 2.29.10Having语句
- 2。29。11Limit语句
- 2.30.1Join的语法与特点
- 2.30.2等值Join
- 2.30.3内连接
- 2.30.4左外连接
- 2。30。5右外连接
- 2.30.6全外连接
- 2.30.7左半连接
- 2。30。8多表Join
- 2.30.9笛卡尔积
- 2.30.10全局排序
- 2.30.11多列排序
- 2.30.12Map端内部排序
- 2。30。12Cluster By分桶查询
- 2。30。13分区排序Distribute by
- 2.31.1系统内置函数介绍
- 2.31.2排名函数(窗口函数)详解
- 2.31.3自定义函数概念
- 2。31。4自定义UDF第一个案例
- 2。31。5UDF使用方式介绍
- 2。31。6自定义UDAF案例
- 2.31.7自定义UDTF案例
- 2.31.8Hive源码编译方式使用UDF
- 2.31.9生日转换成岁数
- 2。31。10根据Key查找Value值
- 2。31。11正则表达式解析日志
- 2。31。12Json数据解析UDF开发
- 2.31.13transform实现UDF功能
- 2。31。14函数实战:级联求和
- 2。32。1数据导入
- 2。32。2Load装载数据
- 2.32.3Insert Into插入数据
- 2.32.4Hadoop命令上传数据到Hive表目录
- 2.32.5创建表时通过Location指定数据存放目录
- 2。32。6克隆表并带数据
- 2。32。7多表导入数据
- 2.32.8Create As复制并加载数据
- 2.32.9Import数据到指定表
- 2.32.10数据导出
- 2.32.11Insert导出
- 2。32。12Hadoop命令导出到本地
- 2。32。13Hive Shell命令导出
- 2.32.14Export导出到HDFS上
- 2。32。15清空表中数据(Truncate)
- 2.33.1文件读取/解析的方式指定ROW FORMAT
- 2.33.2序列化与反序列化
- 2.33.3列式存储与行式存储
- 2.33.4Hive的数据文件存储格式
- 2.33.5默认存储TextFile格式
- 2.33.6Orc格式
- 2.33.7Parquet格式
- 2.33.8主流文件存储格式对比
- 2.33.9自定义数据压缩存储格式
- 2.34.1本地模式设置
- 2.34.2索引
- 2。34。3视图
- 2。34。4Hive的日志
- 2.34.5Hive的压缩
- 2.34.6Hive的运行方式
- 2。34。7Hive表的优化
- 2.34.8Map端Join设置
- 2。34。9Reduce端Join
- 2.34.10Group By
- 2.34.11Count(Distinct)去重统计
- 2。34。12笛卡尔积
- 2.34.13行列过滤
- 2.35.1分区优化
- 2。35。2分桶优化
- 2.35.3动态分区优化
- 2。35。4数据倾斜
- 2。35。5设置Map Task个数
- 2.35.6小文件合并
- 2.35.7复杂文件处理优化
- 2.35.8设置Reduce Task个数
- 2.35.9并行执行
- 2.35.10严格模式设置
- 2。35。11JVM重用
- 2。35。12数据压缩设置
- 2.35.13Explain执行计划
- 2。36。1微博表设计
- 2.36.2用户表设计
- 2.36.3项目技术选型
- 2.36.4数据清洗
- 2.36.5ETL过程
- 2.36.6统计微博关注数Top10
- 2.36.7统计微博类别热度Top1
- 2。36。8统计微博流量Top10
- 2.36.9统计微博关注数最高的Top20用
- 2.36.10统计发布微博最多的用户Top10
- 2。36。11JVM调优解决方案
- 2.36.12项目总结
- 2.37.1Flume架构
- 2。37。2Flume组件-Source
- 2.37.3Flume组件-Channel
- 2.37.4Flume组件-Sink
- 2。37。5Flume组件-Agent
- 2.37.6Flume数据传输规范-Event
- 2。37。7案例一:采集网络数据源
- 2。37。8案例二:实时采集本地文件到HDFS
- 2。37。9案例三:实时采集目录文件到HDFS
- 2。37。10案例四:多级串联日志采集
- 2.37.11案例五:拦截器的测试使用
- 2.37.12案例六:选择器的测试使用
- 2。37。13案例七:实战项目-日志采集和汇总
- 2。37。14案例八:Flume的高可用和负载均衡
- 2.38.1Sqoop工作原理
- 2.38.2Sqoop配置安装
- 2。38。3Sqoop导入数据
- 2。38。4Sqoop从RDBMS导入数据到HDFS
- 2.38.5Sqoop从RDBMS导入数据到Hive
- 2.38.6Sqoop导出数据
- 2。38。7Sqoop从HDFS导出数据到RDBMS
- 2。38。8Sqoop从Hive导出数据到RDBMS
- 2.38.9Sqoop作业
- 2.38.10Sqoop命令详解
- 2。38。11Sqoop案例实战
- 2。39。1Hbase来源
- 2.39.2Hbase的架构
- 2.39.3Hbase的元数据
- 2.39.4Hbase的Hmaster功能
- 2.39.5Hbase RegionServer的功能
- 2。39。6Hbase的写流程
- 2.39.7Hbase的读流程
- 2.39.8Hbase的存储机制
- 2.39.9Hbase的寻址机制
- 2.39.10二级索引
- 2.39.11rowkey的设计原则
- 2.39.12列簇设计
- 2.39.13版本控制
- 2.40.1Hbase的Standalone
- 2.40.2Hbase集群搭建
- 2.40.3Hbase的namespace
- 2.40.4Hbase表创建
- 2.40.5Hbase查询
- 2.40.6Hbase权限设置
- 2.40.7DDl和DML的操作
- 2。40。8Hbase的Java api
- 2.40.9Hbase的过滤器
- 2.40.10region的预分区
- 2。40。11Hbase的TTL
- 2.40.12表重命名
- 2.40.13regionserver的分组
- 2.41.1Mapreduce和hbase的整合
- 2。41。2hbase和spark整合概念
- 2.41.3Hbase与Hive的区别
- 2。41。4Hbase与Hive的整合
- 2.41.5Hbase与sqoop整合
- 2.41.6常用shell操作
- 2。41。7数据的备份与恢复
- 2.41.8节点的管理
- 2.41.9数据回滚
- 2。42。1电信系统业务需求分析
- 2.42.2电信系统架构设计
- 2。42。3模型构建
- 2.42.4用户表设计
- 2。42。5通信明细
- 2.42.6用户月消费
- 2。42。7环比消费趋势分析
- 2。42。8Hadoop的通用性优化
- 2.42.9协处理器
- 2.42.10Linux优化
- 2.42.11块缓存优化
- 2.42.12批量读写优化
- 3.1.1安装idea配置环境变量
- 3.1.2Maven本地库配置
- 3.1.3JDK环境变量配置
- 3.1.4idea版本配置
- 3.1.5scala编译器的使用
- 3.1.6计算表达式
- 3.1.7内置变量
- 3.1.8声明变量
- 3。1。9声明val与var
- 3.1.10声明多个变量
- 3.1.11指定变量类型
- 3.1.12数据类型和操作符
- 3。1。13八大数据类型
- 3.1.14基本操作符
- 3.1.15函数调用与apply函数
- 3.1.16函数调用
- 3.1.17Apply函数
- 3。1。18if表达式
- 3.1.19if表达式的定义
- 3。1。20if表达式的类型推断
- 3.1.21语句终结符、块表达式
- 3.1.22块表达式的定义
- 3.1.23语句终结符
- 3.1.24输入和输出
- 3.1.25print和println(输出)
- 3.1.26printf(输出)
- 3.1.27readLine(输入)
- 3.1.28循环
- 3.1.29while do循环
- 3.1.30for循环
- 3。1。31跳出循环
- 3.1.32高级for循环
- 3。1。33多重for循环
- 3.1.34for循环推导式
- 3。1。35定义函数
- 3。1。36递归函数与返回类型
- 3.1.37匿名函数与非匿名函数
- 3.1.38参数
- 3.1.39默认参数
- 3.1.40带名参数
- 3.1.41lazy关键字
- 3.1.42lazy的基本操作
- 3.1.43数组:
- 3.1.44定长数组
- 3.1.45变长数组
- 3.1.46遍历数组
- 3.1.47数组的常见操作
- 3.1.48数组转换
- 3。1。49Map映射
- 3.1.50Map的基本操作
- 3。1。51Map的转换
- 3.1.52Map的遍历
- 3.1.53拉链操作(zip)
- 3。1。54集合的拉链操作
- 3。1。55Tuple(元组)
- 3.1.56Tuple的基本操作
- 3.1.57Tuple的拉链操作
- 3.1.58面向对象编程之类
- 3.1.59定义一个简单的类
- 3.1.60field的getter与setter详解
- 3。1。61constructor详解
- 3.1.62内部类介绍
- 3.1.63半生类
- 3.1.64面向对象编程之对象
- 3.1.65创建半生对象
- 3.1.66Apply方法详解
- 3.1.67Main方法与APP方法
- 3。1。68用Object实现Java中的枚举
- 3.1.69面向对象编程之继承
- 3。1。70继承
- 3.1.71Override与super的应用
- 3.1.72isInstanceOf和asInstanceOf
- 3。1。73getClass和classOf
- 3。1。74抽象类与抽象变量
- 3。1。75面向对象编程之Trait(特质)
- 3。1。76trait基础知识
- 3。1。77将trait作为接口使用
- 3。1。78在trait中定义具体方法
- 3。1。79在trait中定义具体字段
- 3.1.80在trait中定义抽象字段
- 3.1.81trait高级知识
- 3.1.82为实例对象混入trait
- 3.1.83trait调用链
- 3.1.84在trait中覆盖抽象方法
- 3.1.85混合使用trait的具体方法和抽象方法
- 3。1。86trait的构造机制
- 3.1.87trait字段的初始化
- 3.1.88让trait继承类
- 3。1。89函数式编程
- 3.1.90将函数赋值给变量
- 3.1.91匿名函数
- 3。1。92高阶函数
- 3。1。93高阶函数的类型推断
- 3。1。94Scala的常用高阶函数
- 3.1.95闭包
- 3.1.96Currying函数
- 3.1.97样例类
- 3。1。98偏函数
- 3.1.99函数式编程之集合操作
- 3.1.100Scala的集合体系结构
- 3.1.101List
- 3。1。102LinkedList
- 3。1。103Set
- 3.1.104集合的函数式编程
- 3.1.105模式匹配
- 3。1。106模式匹配的基础语法
- 3。1。107对类型进行模式匹配
- 3.1.108对Array和List的元素进行模式匹配
- 3。1。109case class与模式匹配
- 3.1.110Option与模式匹配
- 3。1。111类型参数
- 3。1。112泛型类
- 3.1.113泛型函数
- 3。1。114上边界Bounds
- 3.1.115下边界Bounds
- 3.1.116View Bounds
- 3。1。117Context Bounds
- 3.1.118Manifest Context Bounds
- 3.1.119协变和逆变
- 3。1。120隐式转换与隐式参数
- 3.1.121隐式转换
- 3.1.122使用隐式转换加强现有类型
- 3。1。123隐式转换函数的作用域与导入
- 3.1.124隐式转换的发生时机
- 3。1。125隐式参数
- 3.1.126Actor
- 3.1.127Actor的创建、启动和消息收发
- 3.1.128收发case class类型的消息
- 3.1.129Actor之间互相收发消息
- 3。1。130同步消息和Future
- 3。1。131Akka
- 3.1.132实现Master端通信
- 3.1.133实现Worker端通信
- 3。1。134自定义RPC
- 3.1.135自定义模拟Master
- 3.1.136自定义模拟Worker
- 3.1.137模拟Master与Worker通信
- 3.1.138线程池
- 3。1。139创建线程池
- 3.1.140线程池的基本操作
- 3.1.141并行与并发思想理念
- 3.2.1大数据架构体系
- 3.2.2架构详解
- 3。2。3Spark集群介绍
- 3.2.4Spark集群配置
- 3.2.5Spark集群安装
- 3.2.6Spark集群启动
- 3.2.7Spark高可用配置
- 3.2.8WebUI查看
- 3.2.9Spark Shell单机启动
- 3.2.10Spark Shell集群启动
- 3.2.11Spark基本工作原理
- 3.2.12分布式详解
- 3.2.13内存模型详解
- 3.2.14堆内内存、堆外内存
- 3.2.15迭代式计算详解
- 3.2.16Spark实现经典案例(WordCount详解)
- 3。2。17Java实现WordCount
- 3.2.18Scala实现WordCount
- 3。2。19底层原理梳理
- 3。2。20算子之间的转换调用
- 3.2.21RDD的概念详解
- 3。2。22RDD的两种类型
- 3.2.23创建RDD(集合、本地文件、HDFS文件)
- 3.2.24RDD的血缘关系
- 3.2.25键值对RDD的转化操作
- 3。2。26键值对RDD的行动操作
- 3.2.27键值对RDD的数据分区
- 3.2.28常用算子
- 3.2.29常用算子的基本操作
- 3.2.30广播变量的概念
- 3.2.31广播变量的使用
- 3。2。32RDD缓存级别
- 3。2。33持久化RDD
- 3.2.34案例练习:基站停留时间TopN需求
- 3。2。35案例练习:基站停留时间TopN实现
- 3。2。36案例练习:学科模块访问量需求
- 3.2.37案例练习:学科模块访问量实现
- 3。2。38案例练习:cache缓存的使用
- 3.2.39案例练习:自定义分区器
- 3.2.40Spark工作原理内部剖析
- 3.2.41宽依赖与窄依赖深度剖析
- 3。2。42基于Yarn的两种提交模式深度剖析
- 3.2.43DAGScheduler原理剖析与源码分析
- 3.2.44TaskScheduler原理剖析与源码分析
- 3.2.45Task原理剖析与源码分析
- 3。2。46最佳位置算法剖析
- 3.2.47Shuffle原理剖析与源码分析
- 3.2.48shuffle操作过程中进行数据排序
- 3.2.49会触发shuffle操作的算子
- 3.2.50shuffle操作对性能消耗的原理详解
- 3.2.51shuffle操作所有相关参数详解以及性能调优
- 3.2.52算子原理剖析
- 3。2。53Checkpoint原理剖析
- 3。2。54union算子内部实现原理剖析
- 3.2.55groupByKey算子内部实现原理剖析
- 3。2。56reduceByKey算子内部实现原理剖析
- 3。2。57distinct算子内部实现原理剖析
- 3.2.58cogroup算子内部实现原理剖析
- 3。2。59intersection算子内部实现原理剖析
- 3.2.60join算子内部实现原理剖析
- 3。2。61sortByKey算子内部实现原理剖析
- 3.2.62coalesce算子内部实现原理剖析
- 3。2。63repartition算子内部实现原理剖析
- 3.2.64Accumulator(累加器)
- 3.2.65其他算子等
- 3。2。66集群提交模式
- 3.2.67standalone模式原理讲解
- 3.2.68yarn-client模式原理讲解
- 3.2.69yarn-cluster模式原理讲解
- 3.2.70Spark算子的闭包原理详解
- 3.2.71Spark 新特性
- 3.2.72易用性:标准化SQL支持以及更合理的API
- 3.2.73高性能:让Spark作为编译器来运行
- 3.2.74智能化:Structured Streaming介绍
- 3。2。75Spark x与x对比以及分析
- 3.2.76Spark核心进阶
- 3。2。77Spark集群架构概览
- 3.2.78Spark集群架构的几点特别说明
- 3.2.79Spark的核心术语讲解
- 3。2。80Spark Standalone集群架构
- 3。2。81单独启动master和worker脚本详解
- 3.2.82worker节点配置以及spark-evnsh参数详解
- 3。2。83实验:local模式提交spark作业
- 3.2.84实验:standalone client模式提交spark作业
- 3。2。85实验:standalone cluster模式提交spark作业
- 3。2。86standalone模式下的多作业资源调度
- 3.2.87standalone模式下的作业监控与日志记录
- 3。2。88实验:运行中作业监控以及手工打印日志
- 3.2.89yarn-client模式原理讲解
- 3.2.90yarn-cluster模式原理讲解
- 3。2。91实验:yarn-client模式提交spark作业
- 3.2.92yarn模式下日志查看详解
- 3.2.93yarn模式相关参数详解
- 3.2.94spark工程打包以及spark-submit详解
- 3。2。95spark-submit示例以及基础参数讲解
- 3.2.96SparkConf、spark-submit以及spark-defaultsconf
- 3。2。97spark-submit多个示例以及常用参数详解
- 3.2.98Spark性能优化:
- 3.2.99性能优化概览
- 3.2.100诊断内存的消耗
- 3.2.101高性能序列化类库
- 3。2。102优化数据结构
- 3。2。103对多次使用的RDD进行持久化或Checkpoint
- 3.2.104使用序列化的持久化级别
- 3。2。105java虚拟机垃圾回收调优
- 3。2。106提高并行度
- 3.2.107广播共享数据
- 3。2。108数据本地化
- 3.2.109reduceByKey和groupByKey
- 3.2.110shuffle性能优化
- 3.2.111Spark高级编程
- 3。2。112高级编程之基于排序机制的wordcount程序
- 3.2.113高级编程之二次排序
- 3。2。114高级编程之topn
- 3.2.115transformation操作开发实战
- 3.2.116action操作开发实战
- 3.2.117Task任务详解
- 3.2.118Task的执行流程
- 3。2。119Task的回馈流程
- 3.2.120Task的迭代流程
- 3.3.1Spark SQL的发展历史
- 3.3.2Spark SQL的原理介绍
- 3.3.3DataFrame概述
- 3.3.4创建DataFrame的方式
- 3.3.5DSL语法风格操作DataFrame
- 3。3。6SQL语句风格操作DataFrame
- 3。3。7通过反射推断Schema信息
- 3.3.8通过StructType指定Schema信息
- 3。3。9从MySQL中加载数据
- 3。3。10将数据写入到MySQL中
- 3。3。11Spark SQL案例练习
- 3.4.1Spark Streaming概述
- 3.4.2Spark Streaming的原理介绍
- 3.4.3Spark Streaming与Storm对比
- 3.4.4DStream的概念
- 3.4.5DStream原语类型介绍
- 3.4.6DStream的Transformation(转换)
- 3。4。7DStream的Output(输出)
- 3.4.8updateStateByKey原语介绍
- 3.4.9transform原语介绍
- 3.4.10窗口操作概念分析
- 3.4.11窗口操作应用场景
- 3.4.12窗口操作的batch duration
- 3.4.13窗口长度参数分析
- 3。4。14滑动间隔参数分析
- 3.4.15用Spark Streaming实现单词计数
- 3.4.16用Spark Streaming实现按批次累加功能
- 3.4.17窗口操作案例实现
- 3.4.18Spark Streaming结合Kafka案例实现
- 3.5.1Kafka的基本概念
- 3.5.2Kafka的发展历史
- 3.5.3Kafka的应用背景
- 3。5。4JMS基础
- 3。5。5JMS消息传输模型
- 3.5.6JMS的核心组件介绍
- 3.5.7Destination:消息发送的目的地
- 3。5。8Producer: 消息的生产者
- 3.5.9MessageConsumer:消息接受者
- 3.5.10常见JMS消息中间件
- 3.5.11Kafka的组件介绍
- 3.5.12Topic:消息分类
- 3.5.13Producer:生产者
- 3。5。14Consumer消费者
- 3.5.15Broker:集群实例
- 3.5.16Zookeeper:保存源数据
- 3。5。17Kafka集群部署
- 3.5.18Kafka版本查看
- 3。5。19下载安装包
- 3。5。20解压安装包
- 3.5.21配置文件的修改
- 3.5.22分发安装包
- 3.5.23集群的启动
- 3.5.24Kafka的常用操作命令
- 3。5。25查看所有topic
- 3。5。26创建topic
- 3。5。27删除topic
- 3.5.28通过shell模拟生产者
- 3。5。29通过shell模拟消费者
- 3.5.30查看消费位置
- 3.5.31查看topic详细信息
- 3.5.32修改分区数
- 3。5。33Kafka可视化管理器
- 3。5。34生产者Java API熟悉
- 3.5.35消费者Java API熟悉
- 3.5.36Kafka文件存储机制
- 3.5.37Kafka文件存储基本结构
- 3.5.38Kafka分区中的Segment
- 3.5.39Kafka怎样查找消息
- 3.5.40Kafka是怎么做到消息快速存储的
- 3.5.41如何消费已经消费过的数据
- 3.5.42Kafka分区和消费者的关系
- 3。5。43Kafka的topic数据如何同步副本
- 3.5.44如何设置生存周期
- 3.5.45Zookeeper如何管理Kafka
- 3.6.1全文检索技术简介
- 3.6.2ES安装配置入门
- 3.6.3ES插件安装
- 3。6。4ES基本操作
- 3。6。5Index的概念
- 3。6。6Document的概念
- 3.6.7Type的概念
- 3。6。8map映射的概念
- 3。6。9CURL操作REST命令
- 3.6.10Windows安装CURL
- 3.6.11创建索引
- 3.6.12插入一个文档
- 3.6.13查询文档内容
- 3.6.14更新文档内容
- 3.6.15检查搜索返回对象
- 3。6。16删除文档
- 3.6.17删除索引
- 3.6.18使用Java操作客户端
- 3.6.19新建文档(自动创建索引和映射)
- 3.6.20搜索文档数据(单个索引)
- 3.6.21搜索文档数据(多个索引)
- 3。6。22更新文档数据
- 3.6.23删除文档数据
- 3.6.24条件查询QueryBuilder
- 3.6.25queryStringQuery搜索内容查询
- 3.6.26wildcardQuery通配符查询
- 3.6.27termQuery词条查询
- 3.6.28boolQuery布尔查询
- 3。6。29fuzzyQuery模糊查询
- 3.6.30regexpQuery正则表达式查询
- 3.6.31matchAllQuery查询所有数据
- 3。6。32IK分词器集成ES
- 3.6.33ES常用编程操作
- 3.6.34索引相关操作
- 3。6。35映射相关操作
- 3。6。36文档相关操作
- 3.6.37IK分词器自定义词库
- 3。6。38查询文档分页操作
- 3.6.39得分(加权)
- 3.6.40在Query的查询中定义加权
- 3.6.41在Field字段的映射中定义加权
- 3.6.42过滤器
- 3。6。43范围过滤器
- 3.6.44布尔过滤器
- 3.6.45Kibana:
- 3.6.46Kibana介绍
- 3。6。47Kibana环境准备
- 3.6.48Kibana安装
- 3.6.49Kibana演示
- 3.6.50"Discovery" 菜单界面
- 3。6。51"Visualize 菜单界面
- 3。6。52"Dashboard" 菜单界面
- 3.6.53Timelion的可视化
- 3.6.54"Dev Tools" 菜单界面
- 3.7.1Logstash介绍
- 3。7。2Input组件介绍
- 3.7.3Filter组件介绍
- 3。7。4Output组件介绍
- 3.7.5Logstash与Flume比较
- 3.7.6Logstash的安装
- 3.7.7Logstash运行
- 3.7.8Logstash配置讲解
- 3.7.9Logstash结合Kafka、ES数据对接
- 3。8。1Kibana介绍
- 3.8.2Kibana环境准备
- 3.8.3Kibana安装
- 3.8.4Kibana演示
- 3。8。5"Discovery" 菜单界面
- 3。8。6"Visualize 菜单界面
- 3。8。7"Dashboard" 菜单界面
- 3.8.8Timelion的可视化
- 3.8.9"Dev Tools" 菜单界面
- 3.9.1什么是NoSQL
- 3.9.2NoSQL数据库的分类
- 3.9.3Redis介绍
- 3.9.4Redis发展历史
- 3。9。5Redis的应用场景
- 3.9.6下载Redis
- 3。9。7安装环境设置
- 3.9.8Redis安装
- 3.9.9启动Redis
- 3.9.10Redis自带客户端
- 3.9.11Redis桌面管理工具
- 3。9。12Java客户端(Jedis)
- 3。9。13Jedis介绍
- 3。9。14环境准备和工程搭建
- 3.9.15单机连接Redis
- 3.9.16连接池连接Redis
- 3.9.17Redis数据类型
- 3.9.18String类型
- 3.9.19Hash类型
- 3.9.20List类型
- 3.9.21Set类型
- 3。9。22SortedSet类型
- 3.9.23Keys命令介绍
- 3.9.24设置key的生存时间
- 3。9。25Redis的持久化
- 3.9.26rdb方式
- 3.9.27aof方式
- 3.9.28Redis主从复制
- 3.9.30环境准备
- 3。9。31主机配置
- 3。9。32从机配置
- 3.9.33主从启动及操作
- 3.9.34Redis的事务功能
- 3.9.35事务功能的相关命令
- 3.9.36事务的使用方法
- 3.9.37事务内部的错误
- 3.9.38为什么Redis不支持事务回滚
- 3.9.39丢弃命令队列
- 3。9。40通过CAS操作实现乐观锁
- 3。9。41WATCH命令详解
- 3。9。42Redis脚本和事务
- 3。9。43Redis集群
- 3.9.44Redis集群架构图
- 3.9.45容错机制
- 3.9.46集群搭建
- 3。9。47Ruby环境搭建
- 3.9.48节点环境准备
- 3.9.49连接集群
- 3.9.50添加主节点
- 3.9.51添加从节点
- 3.9.52删除节点
- 3.9.53Jedis连接集群
- 4.1.1项目介绍
构建广告投放平台,进行广告投放业务,吸引潜在客户,推广产品,包含投放微服务平台、竞价模块、客户群体画像、千人千面推荐产品。
- 4.1.2项目业务
基于大数据及数据挖掘进行精准营销,逐步形成用户画像
进行产品及品牌推广、传播
精细控制各个环节转化率及成本
- 4.1.3 项目架构
SDK(JavaaSDK、JSSDK)+
lvs+nginx集群+flume+
hdfs2.x+hive+hbase+MR+MySQL
- 4.1.4 项目流程
hadoop+alluxio:数据分布式存储
hive/spark sql:数据清洗和分析工具
kylin:数据预处理
elasticsearch:数据存储和分析
apache superset:数据可视化展示
kafka:消息队列,用于实时指标
flink/spark streaming:实时指标的分析工具
redis:用于辅助分析
mongodb:用于结果存储和辅助分析
- 4.2.1 项目介绍
埋点业务,进行用户细分画像、建立信用体系、进行线上各类活动。
- 4.2.2 项目业务
根据埋点数据,结合漏斗及路径分析,刻画用户消费群体,了解用户消费习惯
分析数据,形成用户行为轨迹,定位转化率、跳出率、流失率相关原因
为商品推荐、线上活动等服务提供数据支撑
- 4.2.3 项目技术架构体系
hadoop+alluxio:前端埋点数据分布式存储
hive/spark sql:对采集好的数据进行指标分析工具
kylin:对hive中的数据进行预加载
elasticsearch:数据存储
apache superset:最终结果数据的可视化工具
flink/spark streaming:实时统计工具
mongodb:分布式的存储
- 4.3.1 项目介绍
依据用户行为轨迹构成出行规律,根据用户群体出行规律、区域情况等动态调度用车情况。
- 4.3.2 项目业务
构建用户出行规律
不同维度构建(时间、区域、天气、节假日等)构建热点区域
风控体系
- 4.3.3 项目技术架构体系
hadoop+alluxio:将收集好的数据进行存储
hive/spark sql:数据清洗和分析工具
kylin:数据预处理工具
elasticsearch:存储和分析工具
apache superset:项目展示工具
kafka:消息队列,用于做实时数据对接
flink/spark streaming:实时统计工具
redis:辅助分析
apache kudu:分布式数据存储
mongodb:源数据和结果数据存储
neo4j:图数据库,将数据存储到网络中
grah:项目可视化工具
- 4.4.1 项目介绍
国家电网_省级输/变电监控项目:监控线路的传感设备,确保设备安全、降低故障成本,动态监控线路、变电站二次设备工作情况、报警自动化。
- 4.4.2 项目业务
动态监控线路/变电站二次设备工作情况
设备故障自动报警
设备老化趋势呈现
安防部分:分析数据并结合第三方进行视频监控
- 4.4.3 项目技术架构体系
hadoop:生态体系,用于数据存储、清洗
kafka:消息队列,实时指标数据对接
spark streaming:实时指标的分析工具
elasticsearch:数据存储载体
hive:数据仓库工具
redis:辅助数据分析工具
mongodb:源数据和结果数据的存储载体
vue:项目流行的可视工具
- 4.5.1 项目介绍
贵州交通厅,交通离线/实时监控项目:通过交通卡口采集实时数据,动态监控全省各道路通行和事故状况,避免拥堵、避免交通事故、精准测速、防止套牌和提供便捷最佳出行方案,预测拥堵系数,为各级提供最优道路规划方案。
- 4.5.2 项目业务
车牌号空、车牌号重复、车速为0、车速起始时间异常等数据清洗。
超速分析、严重超速分析
车流量分析、拥堵分析、实时流量监控
车辆限号分析、车辆套牌分析
道路事故分析
- 4.5.3 项目技术架构体系
hadoop:用于数据存储、清洗
hive:数据仓库分析工具
spark core:数据清洗工具和分析工具
spark sql:使用sql来分析相关指标
spark streaming:用于实时流量监控指标分析
presto:先关sql的优化工具
kylin:预加载数据,达到hive数据及时查询
spring boot:项目展示api微服务构建框架
- 4.6.1 项目介绍
安顺智慧旅游,整合各类旅游相关应用系统及信息资源,在公安、交通、工商等相关领域实现信息共享、协同合作,共同打造良性的旅游云生态系统。
- 4.6.2 项目业务
酒店价格监测变化
客源地统计
旅游目的满意度指数
游客年龄分布、游客饮食偏好
景区待客统计、景区舆情分析
- 4.6.3 项目技术架构体系
hadoop:分布式数据存储、清洗
cassandra:基于hdfs的分布式数据的存储
hive/spark sql:使用sql来分析相关指标
spark streaming:舆情监测分析实时指标统计
redis:非关系型数据库,用于辅助分析
mongodb:结果数据存储
oozie:项目工作流调度框架
superset:项目可视化工具
- 4.7.1 项目介绍
某市人民医院,随着老年化的持续增加,患病率越来越高。增加大数据平台,采集医疗相关数据,提高诊断的准确性,预防一些疾病的发生,监控相关病情康复进展,真正实现解决看病难,降低发病率等。
- 4.7.2 项目业务
预防指标分析,如运动步数、卡里路消耗、运动心率等
体重、血压、脂肪监测
发病人群统计
各科室患者用药及康复状况监测
统计病种相关标签库
- 4.7.3 项目技术架构体系
hadoop:集分布式存储、分析和清洗工具
flume:数据的采集工具
sqoop:数据迁移工具
hbase:基于hdfs的分布式数据存储工具
hive/spark:项目分析框架
kylin:多维结果数据的预处理
azkaban:项目工作流调度框架
oracle:源数据存储数据库
- 5.1.1AI&&机器学习&&深度学习概论
- 5.1.2数据科学
- 5.1.3黑客技术、数学和统计知识
- 5.1.4实质性专业
- 5。1。5数据探索与准备
- 5.1.6数据展现形式与转化
- 5.1.7关于数据的计算 (Python or R语言)
- 5.1.8数据建模
- 5。1。9数据可视化与展示
- 5。2。1什么是数据分析
- 5.2.2安装Anaconda
- 5.2.3 Python包管理(pip 、conda)
- 5。2。4 Jupyter notebook
- 5。2。5 Pycharm配置
- 5。3。1数据分析中常用的Python技巧
- 5。3。2 Python字符串操作
- 5.3.3 Python日期管理处理
- 5.3.4 Python面向对象
- 5.3.5 匿名函数lambda
- 5。3。6列表推导式
- 5.3.7 Python操作CSV数据文件
- 5.3.8科学计算库Numpy
- 5.3.9 科学计算库SciPy
- 5.3.10 ndarray N维数组对象
- 5.3.11索引与切片
- 5.3.12 向量化
- 5.3.13Pandas进阶及技巧
- 5.3.15 Pandas DataFrame
- 5.3.16索引操作
- 5.3.17 Boolean mask (布尔值遮罩)
- 5。3。18层级索引
- 5。3。19数据清洗
- 5.3.20数组合并
- 5.3.21函数应用
- 5。3。22分组(group by)
- 5.3.23透视表
- 5.3.24二项分布
- 5.3.25高斯分布
- 5。3。26均匀分布
- 5.4.1 Python Matplotlib库
- 5。4。2 Matplotlib架构
- 5.4.3 Pyplot方法应用
- 5.4.4散点图
- 5。4。5 颜色、标记、线性
- 5.4.6 柱状图
- 5.4.7 Suboplots方法
- 5.4.8 直方图
- 5。4。9盒型图
- 5。4。10热图
- 5.4.11动画与渲染
- 5.4.12交互式
- 5.4.13 Pandas绘图
- 5。4。14 Seaborn绘图
- 5.4.15数据集分布可视化
- 5.4.16双变量分布
- 5.4.17集中变量关系可视化
- 5。4。18类别数据可视化
- 5.4.19类别散布图
- 5。4。20类别数据分布
- 5.4.21类别统计图
- 5。4。22分组
- 5。5。1机器学习的基本概念
- 5。5。2分类算法、回归算法、聚类算法和时间序列算法的区别与应用
- 5。5。3分类算法与回归算法
- 5.5.4聚类算法
- 5。5。5时序模型
- 5.5.6机器学习的基本流程
- 5.5.7特征表示
- 5.5.8语音识别、图像识别、围棋对战和对话系统
- 5。5。9机器学习的基本框架
- 5.5.10基本步骤
- 5.5.11 Python机器学习库scikit-learn
- 5.5.12 Deep Learning
- 5.5.13面向Python的免费机器学习库
- 5。5。14水果识别
- 5。5。15数据集划分(训练集VS 验证集 VS 测试集合)
- 5.5.16 kNN(k-NearestNeighbor),k-近邻算法
- 5。5。17相似性度量
- 5。5。18紧邻点个数
- 5.5.19 kNN优缺点
- 5。5。20使用scikit-learn的流程
- 5。5。21kNN代码实现
- 5.6.1训练模型
- 5。6。2测试模型
- 5.6.3线性回归和多元线性回归
- 5。6。4最小二乘法求解参数
- 5.6.5 sklearn中调用线性回归
- 5.6.6逻辑回归
- 5.6.7过拟合
- 5.6.8正则化优化问题
- 5.6.9 SVM支持向量机
- 5.6.10超参数:间隔(Margin)
- 5.6.11最大间隔分类器
- 5。6。12损失函数和正则项
- 5。6。13线性模型的优缺点
- 5.6.14决策树
- 5.6.15超参数(根节点,叶子节点)
- 5。6。16在iris数据集上使用决策树
- 5.7.1sklearn中决策树重要的参数
- 5。7。2通过决策树可以得到特征的重要性得分
- 5。7。3决策树的优缺点
- 5.7.4特征工程
- 5。7。5数值型特征
- 5.7.6有序型特征
- 5.7.7类别型特征
- 5.7.8交叉验证
- 5。7。9特征范围归一化
- 5。7。10参数调整
- 5。7。11超参数
- 5。7。12学习参数
- 5.8.1 10折交叉验证
- 5。8。2模型评价指标及模型选择
- 5.8.3评估模型
- 5.8.4 TPR(召回率)
- 5。8。5 Precision(精确率)
- 5.8.6 FPR
- 5.8.7 F1值
- 5.8.8 Precision-Recall Curve(PR曲线)
- 5。8。9 Receiver Operating Characteristic Curve (ROC曲线)
- 5.8.10混淆矩阵(confusion matrix)
- 5.8.11回归模型中常用的评价指标
- 5.8.12朴素贝叶斯
- 5。8。13朴素贝叶斯的优缺点
- 5.9.1 Bernoulli模型
- 5.9.2 Multinomial模型
- 5.9.3 Gaussian模型
- 5.9.4 随机森林
- 5.9.5 关键参数:n_estimators ,max_features ,max_depth ,random_state
- 5.9.6 GBDT(Gradient Boosted (-ing) Decision Tree )
- 5.9.7传统的Boosting
- 5。9。8学习率决定新的树去纠正错误的程度
- 5.9.9图像数据操作
- 5.9.10 scikit-image
- 5.9.11 RGB颜色空间
- 5.9.12 Skimage的图像数据
- 5.9.13数据类型和像素值
- 5.9.14显示图像
- 5.9.15图像IO
- 5.9.16色彩空间
- 5.9.17颜色直方图
- 5。9。18滤波/卷积操作
- 5.9.19图像滤波
- 5.9.20中值滤波
- 5。9。21高斯滤波
- 5.9.22均值滤波
- 5。9。23边缘检测
- 5.9.24常用的图像特征描述
- 5。10。1纹理特征
- 5。10。2形状特征
- 5.10.3 skimage中的特征方法
- 5.10.4K-Means聚类及图像压缩
- 5.10.5 无类别标记
- 5。10。6算法描述
- 5.10.7算法演示
- 5.10.8图像占用内存大小
- 5.10.9人工神经网络
- 5.10.10神经网络基本组成
- 5。10。11简单的MLP(Multi-Layer Perceptron)
- 5。10。12常用的激活函数
- 5.10.13多层MLP(Multi-Layer Perceptron )
- 5.10.14 ANN过拟合
- 5.10.15使用正则化
- 5.10.16sklearn中 alpha为正则化强度
- 5.10.17设计神经网络结构
- 5.10.18 Backpropagation算法
- 5.10.19深度学习
- 5。10。20应用的各个领域
- 5。11。1人脸识别
- 5.11.2物体识别
- 5.11.3TensorFlow框架学习以及使用
- 5。11。4计算模式-计算图(Computation Graph)
- 5.11.5数据模型-张量(Tensor)
- 5。11。6运行模型-回话(Session)
- 5.11.7占位符(tf.placeholder)和变量(tf.Variable)
- 5.11.8卷积神经网络(CNN)
- 5。11。9卷积层、池化层、全连接层和批归一化层
- 5。11。10CNN卷积层
- 5.11.11CNN-Softmax层
- 5.11.12工程技巧tricks
- 5.11.13Python文本数据处理
- 5.12.Python常用文本处理函数(字符串操作)
- 5.12.1正则表达式
- 5.12.2自然语言处理以及NLTK
- 5.12.3自然语言处理(natural language processing, NLP )
- 5。12。4Natural Language Toolkit
- 5.12.5NLTK模块
- 5。12。6语料库
- 5.12.7分词
- 5.12.8特殊字符的分词
- 5。12。9词形归一化
- 5。12。10停用词(Stopwords)
- 5。12。11典型的文本预处理流程
- 5.12.12主题分类 、垃圾邮件/短信/消息检测 情感分析
- 5.12.13文本相似度
- 5。12。14TF-IDF (词频-逆文档频率)
- 5.12.15主题模型及LDA
- 5.12.16隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)
- 5。12。17 Python使用LDA
- 5.12.18社交网络分析
- 5.12.19什么是网络
- 5.12.20网络基础
- 5。12。21Python中使用网络
- 5。12。22权重网络
- 5.12.23多重图
- 5.12.24单个边访问
- 5.12.25节点属性的访问
- 5。12。26网络连通性
- 5.12.27三元闭包
- 5.12.28整体集聚系数(Global Clustering Coefficient)
- 5。12。29局部聚类系数(local clustering coefficient)
- 5。12。30网络中心势
- 5.12.31网络可视化
技术点 | 好程序员 | 其他机构 | 重要性 |
Spark MLlib机器学习 | ![]() |
![]() |
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 |
NIO | ![]() |
![]() |
|
MySQL | ![]() |
![]() |
|
ELK技术栈 | ![]() |
![]() |
ELK 其实并不是一款软件,而是一整套解决方案。ELK是一个完整的集中式日志系统,是企业中比较常用的处理日志的平台 |
Redis | ![]() |
![]() |
|
Flink | ![]() |
![]() |
Flink提供了基于Java和Scala的API,是一个高效、分布式的通用大数据分析引擎。更主要的是,Flink支持增量迭代计算,使得系统可以快速地处理数据密集型、迭代的任务 |
Spring | ![]() |
![]() |
|
SpringMVC | ![]() |
![]() |
|
Echarts |
![]() |
![]() |
ECharts是一款开源、功能强大的数据可视化产品,紧跟着大数据时代的步伐! |
Zookeeper | ![]() |
![]() |
|
JVM调优 | ![]() |
![]() |
基于开发经验的一些JVM技能分享 |
Java基础 | ![]() |
![]() |
|
Python | ![]() |
![]() |
相比于其他的程序语言来说,Python更加灵活,功能强大,简单易学,是大部分企业,开发者,甚至运维和测试喜欢的语言 |
JDBC | ![]() |
![]() |
|
AJAX/JSON | ![]() |
![]() |
|
Docker | ![]() |
![]() |
Docker价值的最大体现在于对企业DevOps的支持,对原生云应用大规模水平扩展的支持。 |
Servlet | ![]() |
![]() |
|
MyBatis | ![]() |
![]() |
|
CDH | ![]() |
![]() |
CDH是 Cloudera公司出品的,包含Hadoop生态园的多种工具,是一个“打包发行版” |
Maven | ![]() |
![]() |
|
MongoDB | ![]() |
![]() |
|
Kylin | ![]() |
![]() |
是一个开源的分布式分析引擎,提供了基于Hadoop的超大型数据集(TB/PB级别)的SQL接口以及多维度的OLAP分布式联机分析。 |
JVM原理 | ![]() |
![]() |
|
Linux | ![]() |
![]() |
|
Mesos | ![]() |
![]() |
Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核 |
Hadoop | ![]() |
![]() |
|
Hive | ![]() |
![]() |
|
HBase | ![]() |
![]() |
|
Phoenix | ![]() |
![]() |
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。 |
Flume | ![]() |
![]() |
|
Sqoop | ![]() |
![]() |
|
Oozie/Azkaban | ![]() |
![]() |
|
Scala | ![]() |
![]() |
|
Spark Core | ![]() |
![]() |
|
Mahout | ![]() |
![]() |
提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 |
Spark Streaming | ![]() |
![]() |
|
Spark SQL | ![]() |
![]() |
请您保持通讯畅通1对1咨询马上开启