Hadoop简介和生态系统介绍 |
- 传统大规模数据分析存在的问题
- Hadoop概述
- Hadoop与分布式文件系统
- Hadoop生态系统
- Hadoop的行业应用案例分析
- Hadoop在云计算和大数据的位置和关系
- Hadoop版本介绍
- Hadoop与Google FS的关系
- Hadoop在国内的使用情况和未来
|
Hadoop安装和主要配置文件介绍 |
- Hadoop安装所需软件介绍
- Hadoop单机安装
- Hadoop伪分布式安装
- Hadoop完全分布式安装
- Hadoop三个节点安装的配置介绍
- Hahoop多节点ssh配置
- Hadoop格式化详解
- Hadoop核心配置文件介绍
- 核心配置文件core-site.xml
- HDFS配置文件hdfs-site.xml
- Mapreduce配置文件mapred-site.xml
- master文件配置详解
- slave文件配置详解
- Hadoop启动和停止方法一
- start-all.sh详解
- stop-all.sh详解
- Hadoop的启动和停止方法二
- Hadoop安装的常见错误介绍和解决方案
- 使用自带的wordcount和pi测试集群安装是否成功
- 使用Streaming来测试集群安装是否成功
|
Hadoop组件介绍 |
- Hadoop NameNode 介绍
- Hadoop SecondaryNameNode介绍
- Hadoop DataNode 介绍
- Hadoop JobTracker 介绍
- Hadoop TaskTracker 介绍
|
Hadoop的HDFS模块 |
- HDFS架构介绍
- HDFS原理介绍
- NameNode功能详解
- DataNode功能详解
- SecondaryNameNode功能详解
- HSFD的fsimage和editslog详解
- HDFS的block详解
- HDFS的block的备份策略
- Hadoop的机架感知配置
- HDFS的shell命令介绍
- HDFS的thrift server服务介绍
- HDFS的API接口介绍
- HDFS的权限详解
- Hadoop的客服端接入案例
|
MapReducer入门 |
- Mapreduce原理
- MapReduce流程
- 剖析一个MapReduce程序
- Mapper和Reducer抽象类详解
- Mapreduce的最小驱动类
- MapReduce自带的类型
- 自定义Writables和WritableComparables
- Mapreduce的输入InputFormats
- MapReduce的输出OutputFormats
- Combiner详解
- Partitioner详解
- DistributeFileSystem详解
- Hadoop Tools工具介绍
- Counter计数器详解
- 自定义Counter计数器
- 基于Hadoop二次开发实战
- MapReduce的优化
- Map和Reduce的个数设置
- Hadoop小文件优化
- 任务调度
- 默认的任务调度
- 公平任务调度
- 能力任务调度
- 使用 Hadoop MapReduce Streaming 编程
- MapReduce的单元测试
|
Hive |
- Hive和Pig基础
- Hive、Impala和presto的比较
- Hive的作用和原理说明
- Hadoop仓库和传统数据仓库的协作关系
- Hadoop/Hive仓库数据数据流
- Hive部署和安装
- HiveCli的基本用法
- Hive的server启动
- HQL基本语法
- Hive的加载数据本地加载和HDFS加载
- Hive的partition详解
- Hive的存储方式详解
- RCFILE、TEXTFILE和SEQUEUEFILE
- Hive的UDF和UDAF
- Hive的transform详解
- Hive的JDBC连接
|
Sqoop介绍 |
- Sqoop是什么
- Sqoop安装
- Sqoop把mysql数据导入HDFS
- Sqoop把HDFS数据导入Mysql
- Sqoop吧Mysql数据导入Hive
- Sqoop吧Mysql数据导入Hive分区
|
Hadoop集群配置和维护 |
- Hadoop集群的部署要点
- NameNode和SecondaryNameNode和JobTracker机器的配置要求
- dataNode与tasktracker机器的配置要求
- Hadoop集群管理的工具介绍
- Ganglia和nigos监控Hadoop集群介绍
- Ambri介绍
- 添加和删除节点演示
- Namenode的单点解决方案
- NameNode的NFS备份介绍
- 集群所有dataNode挂掉的故障介绍
- 集群NameNode的fsimage丢掉恢复方法
- Hadoop集群维护的注意点
|
Hbase使用 |
- Hbase原理
- Hmaster详解
- RegionServer详解
- Zookeeper介绍
- Hbase安装
- Hbase逻辑视图介绍
- Hbase物理视图介绍
- Hbase的二级索引介绍
- Hbase的DDL和DML
- Hbase表的设计案例
- Hbase的import功能介绍
- MapReduce操作Hbase
- Hbase的thriftServer介绍
- Hbase的API介绍
- Hbase使用场景介绍
- Hbase案例分析
|
大数据在国内的运用 |
- 大数据在国内的使用介绍
- 离线计算框架介绍
- 流式计算框架介绍
- 内存计算框架介绍
- 内存流式计算介绍
- 大数据实时请求框架介绍
- 大数据在移动的案例介绍
- 大数据在银行的案例介绍
- 大数据在阿里的案例介绍
|
Spark生态介绍 |
- Spark产生背景
- Spark(内存计算框架)
- SparkSteaming(流式计算框架)
- SparkSQL(ad-hoc)
- Mllib(MachineLearning)
- GraphX(bagel将被代)
|
spark安装部署 |
- Spark安装简介
- Spark的源码编译
- SparkStandalone安装
- SparkStandaloneHA安装
- Spark应用程序部署工具spark-submit
|
Spark运行架构和解析 |
- Spark的运行架构
- 基本术语
- 运行架构
- SparkonStandalone运行过程
- SparkonYARN运行过程
- Spark运行实例解析
- SparkonStandalone实例解析
- SparkonYARN实例解析
|
SparkSQL原理和实践 |
- SparkSQL原理
- SparkSQL的Catalyst优化器
- SparkSQL内核
- SparkSQL和Hive
- SparkSQL的实例和编程
- SparkSQL的实例操作demo
- SparkSQL的编程
|