Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

tellusboutyourself

하이브(Hive) 실습 환경 구축 (employee, salaries) 본문

Hadoop

하이브(Hive) 실습 환경 구축 (employee, salaries)

금서_ 2024. 3. 8. 18:01

실습 환경 구축

# 실습 데이터 다운로드
https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz
# 파이어폭스로 사이트 접속하고 employee,salaries 직접 다운로드 받기

# 파일들이 '다운로드'에 있으므로 해당 경로로 먼저 이동 후 압축을 풀어야 한다.
cd 다운로드
gunzip employees.csv.gz
gunzip salaries.csv.gz

ls

# vi로 작은따옴표 제거

vi employees.csv
	(편집창 들어가서)
	:%s/'//g  입력 후 엔터
	:wq 입력해서 편집창 나가기
	
vi salaries.csv
	(편집창 들어가서)
	:%s/'//g  입력 후 엔터
	:wq 입력해서 편집창 나가기

# 데이터를 저장할 하둡 디렉토리 생성
hadoop dfs -mkdir -p /user/root/hadoop_edu/employees 
hadoop dfs -mkdir -p /user/root/hadoop_edu/salaries

# 하둡에 데이터 저장
hadoop fs -put employees.csv /user/root/hadoop_edu/employees/ 
hadoop fs -put salaries.csv /user/root/hadoop_edu/salaries/


hadoop fs -ls -R /user/root/hadoop_edu

gedit ~/.bashrc
맨 밑에 hive path 추가
#hive path
export HIVE_HOME=/root/apache-hive
export PATH=$HIVE_HOME/bin:$PATH

# 하이브 파일 conf로 옮김
mv hive-site.xml conf



##기타##

# 자바 11 안 됨 이슈로 8로 재설치 함 (생략)

# 리눅스 터미널에서 키보드(방향키 등) 길게 누르면 먹통됨

# 다시 껐다 켰을 때 아래 문장 꼭 실행하기. 그렇지 않으면 '연결 안 됨' 오류 뜸
~/hadoop/sbin/start-all.sh

# apache로 돌아가는 것 잊지 말기
cd apache-hive/

# hive > show tables; 에서 failed 나왔을 때, 하이브 메타데이터 초기화하면 해결됨.(show tables; > ok ~~~ 나오면 성공)
bin/schematool -initSchema -dbType derby

 

테이블 생성하기

hive > 이렇게 된 상태에서 아래 코드 입력

create database if not exists hadoop_edu;

create external table hadoop_edu.employee
(
employee_id    INT,
birthday       DATE,
first_name     STRING,
family_name    STRING,
gender         CHAR(1),
work_day       DATE
 )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
LOCATION '/user/root/hadoop_edu/employees'
;


create external table hadoop_edu.salary
(
employee_id  INT,
salary       INT,
start_date   DATE,
end_day      DATE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
LOCATION '/user/root/hadoop_edu/salaries'
;

 

쿼리 테스트는 별개로 업로드 ..

'Hadoop' 카테고리의 다른 글

하이브(Hive) 쿼리테스트  (0) 2024.03.10
하이브(Hive) 설치  (1) 2024.03.08
하이브(Hive)에 대해 알아보자  (2) 2024.03.08
[MapReduce] 파이썬으로 단어 별 빈도수 확인하기  (0) 2024.03.07