组件安排如下:
1.安装hive
在77上安装hive:
在其他节点上可以安装客户端:
2.安装mysql
yum方式安装mysql:
启动数据库:
安装jdbc驱动:
设置mysql初始密码为bigdata:
进入数据库后执行如下:
注意:创建的用户为 hive,密码为 hive ,你可以按自己需要进行修改。
修改 hive-site.xml 文件中以下内容:
3.配置hive
修改/etc/hadoop/conf/hadoop-env.sh,添加环境变量 HADOOP_MAPRED_HOME,如果不添加,则当你使用 yarn 运行 mapreduce 时候会出现 UNKOWN RPC TYPE 的异常
在 hdfs 中创建 hive 数据仓库目录:
hive 的数据仓库在 hdfs 中默认为 /user/hive/warehouse,建议修改其访问权限为 1777,以便其他所有用户都可以创建、访问表,但不能删除不属于他的表。
每一个查询 hive 的用户都必须有一个 hdfs 的 home 目录( /user 目录下,如 root 用户的为 /user/root)
hive 所在节点的 /tmp 必须是 world-writable 权限的。创建目录并设置权限:
修改hive-env设置jdk环境变量 :
启动hive-server和metastore:
4、测试
访问beeline:
5、与hbase集成
先安装 hive-hbase:
如果你是使用的 cdh4,则需要在 hive shell 里执行以下命令添加 jar:
如果你是使用的 cdh5,则需要在 hive shell 里执行以下命令添加 jar:
以上你也可以在 hive-site.xml 中通过 hive.aux.jars.path 参数来配置,或者你也可以在 hive-env.sh 中通过 export HIVE_AUX_JARS_PATH= 来设置。
二、安装impala
与Hive类似,Impala也可以直接与HDFS和HBase库直接交互。只不过Hive和其它建立在MapReduce上的框架适合需要长时间运行的批处理任务。例如:那些批量提取,转化,加载(ETL)类型的Job,而Impala主要用于实时查询。
组件分配如下:
1、安装
在74节点安装:
在75、76、77节点上安装:
2、配置
2.1修改配置文件
查看安装路径:
impalad的配置文件路径由环境变量IMPALA_CONF_DIR指定,默认为/usr/lib/impala/conf,impala 的默认配置在/etc/default/impala,修改该文件中的 IMPALA_CATALOG_SERVICE_HOST 和 IMPALA_STATE_STORE_HOST
设置 impala 可以使用的最大内存:在上面的 IMPALA_SERVER_ARGS 参数值后面添加 -mem_limit=70% 即可。
如果需要设置 impala 中每一个队列的最大请求数,需要在上面的 IMPALA_SERVER_ARGS 参数值后面添加 -default_pool_max_requests=-1 ,该参数设置每一个队列的最大请求数,如果为-1,则表示不做限制。
在节点74上创建hive-site.xml、core-site.xml、hdfs-site.xml的软链接至/etc/impala/conf目录并作下面修改在hdfs-site.xml文件中添加如下内容:
同步以上文件到其他节点。
2.2创建socket path
在每个节点上创建/var/run/hadoop-hdfs:
2.3用户要求
impala 安装过程中会创建名为 impala 的用户和组,不要删除该用户和组。
如果想要 impala 和 YARN 和 Llama 合作,需要把 impala 用户加入 hdfs 组。
impala 在执行 DROP TABLE 操作时,需要把文件移到到 hdfs 的回收站,所以你需要创建一个 hdfs 的目录 /user/impala,并将其设置为impala 用户可写。同样的,impala 需要读取 hive 数据仓库下的数据,故需要把 impala 用户加入 hive 组。
impala 不能以 root 用户运行,因为 root 用户不允许直接读。
创建 impala 用户家目录并设置权限:
查看 impala 用户所属的组:
由上可知,impala 用户是属于 imapal、hadoop、hdfs、hive 用户组的 。
2.4启动服务
在 74节点启动:
2.5使用impala-shell
使用impala-shell启动Impala Shell,连接 74,并刷新元数据
当在 Hive 中创建表之后,第一次启动 impala-shell 时,请先执行 INVALIDATE METADATA 语句以便 Impala 识别出新创建的表(在 Impala 1.2 及以上版本,你只需要在一个节点上运行 INVALIDATE METADATA ,而不是在所有的 Impala 节点上运行)。
你也可以添加一些其他参数,查看有哪些参数:
使用 impala 导出数据:
以上所述是小编给大家介绍的yum安装CDH5.5 hive、impala的过程详解,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对服务器之家网站的支持!
原文链接:https://my.oschina.net/Yumikio/blog/758038