- RDD是什么
- RDD常用操作
Java集合框架
Java集合框架是围绕一组标准接口设计的。Java集合框架主要包括两种类型的容器,一个是集合Collection,用来存储元素集合;另一个是图Map,用来存储key-value映射。
Java多线程
Java多线程相关知识。
Java给多线程变成提供了内置的支持。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。
多线程是多任务的一种特别的形式,但多线程使用了更小的资源开销。
进程:一个进程包括由操作系统分配的内存空间,包括一个或多个线程。一个线程不能独立存在,他必须是进程的一部分。一个进程一直运行,知道所有非守护线程都结束运行后才能结束。
Java匿名类
匿名内部类
- 概念:即内部类的简化写法
- 前提:存在一个类(可以是具体类也可以是抽象类)或接口
- 格式:new 类名或接口名{重写的方法}
- 本质:创建的是继承了类或实现了接口的子类匿名对象。
MyEclipse 添加 Hadoop Plugin
使用MyEclipse IDE进行hadoop 开发的时候,需要导入hadoop-eclipse-plugin。本文记录了如何通过https://github.com/winghc/hadoop2x-eclipse-plugin进行该插件的生成。
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信
在进行分布式开发的过程中需要配置主机和服务器的ssh服务。在学习的过程中只能通过配置虚拟机来进行。我用的电脑是Mac,使用了VirtualBox来配置虚拟机服务。
使用Maven开发mapreduce,使用mapreduce 单元Test测试
本文对应于《Hadoop权威指南》第6章Mapreduce应用开发的内容
通常情况下我们进行mapreduce开发要对每个模块进行单元测试,来检查模块的行为是否正确。本文主要介绍在mvn下进行mapreduce模块单元测试。
使用mvn开发mapreduce有两种方法,一个是源码编译(问题少,你必须知道你在干什么,本文采用的方法);另外一个是借助IDE进行编译(集成度高,设置自动生成,写代码可以自动补全,比较爽)。在使用MyEclipse进行mapreduce开发的过程中,出现了hadoop插件导致的问题,因此,在完全解决hadoop插件的问题之前,我选择了如下方法:
- 使用IDE进行代码编写。
- 上传到CentOS中,进行maven源码编译。
- 在这个过程中要尤其注意pom依赖。