您的位置:首页 > 博客中心 > 数据库 >

使用sqoop从mysql导入数据到hive

时间:2022-03-15 08:13

前言

这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。

环境:

  • 系统:Centos 6.5
  • Hadoop:Apache,2.7.3
  • Mysql:5.1.73
  • JDK:1.8
  • Sqoop:1.4.7

Hadoop以伪分布式模式运行。

 

一、使用的导入命令

我主要是参考一篇文章去测试的,。

参照里面的方法,在mysql建了表,填充了数据,然后按照自己的情况输入了命令:

然后开始了打地鼠之旅。

 

二、遇到的问题及解决

1. 用文本字段进行分区的问题

报错信息:"Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter"。

主要问题是“--split-by id”这个参数指定的id是一个文本格式,所以需要在命令中加入选项"-Dorg.apache.sqoop.splitter.allow_text_splitter=true",补齐命令:

 

2. Hadoop历史服务器Hadoop JobHistory没开启的问题

报错信息:“ERROR tool.ImportTool: Import failed: java.io.IOException: java.net.ConnectException: Call From harry.com/192.168.0.210 to 0.0.0.0:10020 failed on connection exception: …”。

主要原因是sqoop在运行完MapReduce任务之后需要用hadoop jobhistory记录这些作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。

解决方法:mapred-site.xml添加如下配置:

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

然后重新执行命令。

 

3. 连接元数据存储数据库报错

报错信息:“Caused by: javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url…”。

主要是因为我用的hive元数据数据库是默认的Derby,我在另外一个会话开了一个hive cli来访问hive,而Derby的一个缺点就是当有多个用户同时访问hive的时候,会报错。

解决:退出hive cli,重新运行

 

4. 没有在hive创建数据库

报错信息:“ERROR ql.Driver: FAILED: SemanticException [Error 10072]: Database does not exist: sqoop_workspace…”,这个就很明显了,直接在hive里创建一个就是了。

 

5. 其他警告和报错

其他报错实际上没有阻碍导入过程,譬如下面这个WARN:

“WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException…”,实际上是hadoop自己的bug,具体是HDFS 9794的bug:

当关闭DFSStripedOutputStream的时候,如果在向data/parity块刷回数据失败的时候,streamer线程不会被关闭。同时在DFSOutputStream#closeImpl中也存在这个问题。DFSOutputStream#closeImpl总是会强制性地关闭线程,会引起InterruptedException。

这些报错一般忽略就可以了。

 

三、参考

1.

2.

3.

4.

(完)

本类排行

今日推荐

热门手游