tellusboutyourself
하이브(Hive) 실습 환경 구축 (employee, salaries) 본문
실습 환경 구축
# 실습 데이터 다운로드
https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz
# 파이어폭스로 사이트 접속하고 employee,salaries 직접 다운로드 받기
# 파일들이 '다운로드'에 있으므로 해당 경로로 먼저 이동 후 압축을 풀어야 한다.
cd 다운로드
gunzip employees.csv.gz
gunzip salaries.csv.gz
ls
# vi로 작은따옴표 제거
vi employees.csv
(편집창 들어가서)
:%s/'//g 입력 후 엔터
:wq 입력해서 편집창 나가기
vi salaries.csv
(편집창 들어가서)
:%s/'//g 입력 후 엔터
:wq 입력해서 편집창 나가기
# 데이터를 저장할 하둡 디렉토리 생성
hadoop dfs -mkdir -p /user/root/hadoop_edu/employees
hadoop dfs -mkdir -p /user/root/hadoop_edu/salaries
# 하둡에 데이터 저장
hadoop fs -put employees.csv /user/root/hadoop_edu/employees/
hadoop fs -put salaries.csv /user/root/hadoop_edu/salaries/
hadoop fs -ls -R /user/root/hadoop_edu
gedit ~/.bashrc
맨 밑에 hive path 추가
#hive path
export HIVE_HOME=/root/apache-hive
export PATH=$HIVE_HOME/bin:$PATH
# 하이브 파일 conf로 옮김
mv hive-site.xml conf
##기타##
# 자바 11 안 됨 이슈로 8로 재설치 함 (생략)
# 리눅스 터미널에서 키보드(방향키 등) 길게 누르면 먹통됨
# 다시 껐다 켰을 때 아래 문장 꼭 실행하기. 그렇지 않으면 '연결 안 됨' 오류 뜸
~/hadoop/sbin/start-all.sh
# apache로 돌아가는 것 잊지 말기
cd apache-hive/
# hive > show tables; 에서 failed 나왔을 때, 하이브 메타데이터 초기화하면 해결됨.(show tables; > ok ~~~ 나오면 성공)
bin/schematool -initSchema -dbType derby
테이블 생성하기
hive > 이렇게 된 상태에서 아래 코드 입력
create database if not exists hadoop_edu;
create external table hadoop_edu.employee
(
employee_id INT,
birthday DATE,
first_name STRING,
family_name STRING,
gender CHAR(1),
work_day DATE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
LOCATION '/user/root/hadoop_edu/employees'
;
create external table hadoop_edu.salary
(
employee_id INT,
salary INT,
start_date DATE,
end_day DATE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
LOCATION '/user/root/hadoop_edu/salaries'
;
쿼리 테스트는 별개로 업로드 ..
'Hadoop' 카테고리의 다른 글
하이브(Hive) 쿼리테스트 (0) | 2024.03.10 |
---|---|
하이브(Hive) 설치 (1) | 2024.03.08 |
하이브(Hive)에 대해 알아보자 (2) | 2024.03.08 |
[MapReduce] 파이썬으로 단어 별 빈도수 확인하기 (0) | 2024.03.07 |