`
kelvinliu117
  • 浏览: 19071 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
1.安装mysql 在http://www.mysql.com/downloads/mysql/#downloads下载mysql安装包: MySQL-server-5.5.28-1.linux2.6.i386.rpm MySQL-client-5.5.28-1.linux2.6.i386.rpm 1、数据库目录 /var/lib/mysql/ 2、配置文件  /usr/share/mysql(mysql.server命令及配置文件) 3、相关命令  /usr/bin (mysqladmin mysqldump等命令) 4、启动脚本  /etc/rc.d/init.d/(启动脚 ...

Linux搭建SVN Server

[root@singledb ~]# yum install -y subversion Loaded plugins: rhnplugin, security This system is not registered with RHN. RHN support will be disabled. Setting up Install Process Resolving Dependencies --> Running transaction check ---> Package subversion.i386 0:1.4.2-4.el5_3.1 set to be ...

hadoop升级

1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在备份,需要先结束 finalize 它。) 2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息: bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log bin/hadoop dfsadmin -report ...
1.client端指定Job的各种参数配置之后调用job.waitForCompletion(true) 方法提交Job给JobTracker,等待Job 完成。 [java] view plaincopyprint?  
TaskTracker的工作职责之前已经和大家提过,主要负责维护,申请和监控Task,通过heartbeat和JobTracker进行通信。      TaskTracker的init过程:      1.读取配置文件,解析参数      2.将TaskTraker上原有的用户local files删除并新建新的dir和file      3. Map<TaskAttemptID, TaskInProgress> tasks = new HashMap<TaskAttemptID, TaskInProgress>(); 清除map      4.    th ...
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。          MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把 ...

Hadoop的shuffle

我们知道每个reduce task输入的key都是按照key排序的。       但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。       在map结束之后shuffle要做的事情:       map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.sort.mb 用于控制map 输出时候的内存大小,默认100Mb。当map所使用的buffer达到一定比例的时候,会启动一个线程来将内存中数据写入磁盘。此时map过程不会暂停直到内存消耗完为止。这个线程会 ...

Hadoop 优化性能

Hadoop 可配置参数 Hadoop 提供许多配置选项,用户和管理员可以通过它们进行集群设置和调优。core/hdfs/mapred-default.xml 中有许多变量,可以在core/hdfs/mapred-site.xml 中覆盖它们。一些变量指定系统上的文件路径,而其他变量对 Hadoop 的内部进行深入的调整。 性能调优主要有四个方面:CPU、内存、磁盘 I/O 和网络。本文介绍与这四个方面最相关的参数,您可以使用后面介绍的方法研究 *-default.xml 中的其他参数。
 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的数据倾斜问题.     hadoop 中数据倾斜会极大影响性能的一个背景是mapreduce 框架中总是不分条件的进行sort . 在通用情况下map sort + partition +red ...
fsck 是一个文件检查工具 这条命令将会递归检查路劲下所有 文件的健康状况。   hadoop  fsck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]         <path>             检查这个目录中的文件是否完整         -move               破损的文件移至/lost+found目录        -delete             删除破损的文件         -openforwri ...
Hadoop集群balance工具详解   在线上的Hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器 ...
读源码方面的顺序是先读懂以下五个方面的源码,其已囊括了Hadoop的核心要务, 1、读源码的过程与读Docs过程并行,此阶段以Docs为中心,读源码目的是要辅住理解Docs; 2、读懂Docs后读源码时要融汇贯通,系统的读,整体把握,可以应用比如类图等方法辅助,此阶段还要返回读Docs以辅助理解源码。 3、在以上基础上,开始进入应用Hadoop阶段。 org.apache.hadoop.fs
源地址:http://blog.csdn.net/xiaogugood/article/details/8209839 Hadoop源代码学习(完整版)   Hadoop源代码分析(一) HadoopMapreduceGoogleHBaseFacebook  经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大 ...

hive 配置参数说明

    博客分类:
  • hive
hive.exec.mode.local.auto  决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)  true   hive.exec.mode.local.auto.inputbytes.max  如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。  134217728L   hive.exec.mode.local.auto.tasks.max  如果 hive.exec.mode.local.auto 为 true,当 Hive Tasks(H ...

hive UDF UDAF UDTF

    博客分类:
  • hive
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text c)用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据 d)用户自定义函数: Substr ...
Global site tag (gtag.js) - Google Analytics