목록Hadoop (5)
tellusboutyourself

https://dmschoi.tistory.com/6 위 게시물을 기반으로 쿼리테스트 진행. 쿼리테스트 1 [ 꼰대일 확률 높은 10명 찾기 ] SELECT* FROMhadoop_edu.employee ORDER BY birthday ASC LIMIT 10; 생년월일 기준으로 오름차순 배열하여 10까지만 추출한다. 쿼리테스트 2 [ 1990년 1월 입사자 10명 찾기 ] SELECT * FROM hadoop_edu.employee WHERE work_day >= '1990-01-01' AND work_day
실습 환경 구축 # 실습 데이터 다운로드 https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz # 파이어폭스로 사이트 접속하고 employee,salaries 직접 다운로드 받기 # 파일들이 '다운로드'에 있으므로 해당 경로로 먼저 이동 후 압축을 풀어야 한다. cd 다운로드 gunzip employees.csv.gz gunzip salaries.csv.gz ls # vi로 작은따옴표 제거 vi employees.csv (편집창 들어가서) :%s/'//g 입력 후 엔터 :wq 입력해서 편집창 나가기 vi salaries.csv (편집창 들어가서) :%s/'//g 입력 후 엔터 :wq 입력해서 편집창 나가기 # 데이터..
리눅스(Rocky9-Server) 터미널 창에서 하이브 설치하는 방법 # 설치파일 다운로드 wget http://apache.mirror.cdnetworks.com/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz # 압축 풀기 tar xvfz apache-hive-3.1.2-bin.tar.gz apache-hive-3.1.2-bin/ # 템플릿 파일 변경 find -type f -name hive-env* # 긴 이름을 짧게 바꾸기 mv apache-hive-3.1.2-bin apache-hive # 아파치 하이브에 들어가기 cd apache-hive/ ls bin/ pwd mv conf/hive-env.sh.template conf/hive-env.sh ls conf #..

활용 관점에서 본 하둡의 단점 맵리듀스는 프로그래밍 레벨(자바, 파이썬, c언어 등)의 개발이 필요하다. 더 쉬운 분석 지원을 위해 SQL을 지원하는 쿼리 엔진이 필요하다. 하이브란? 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스 패키지 페이스북에서 매일같이 생산되는 대량의 데이터를 관리하고 학습하기 위해 개발한다 SQL과 유사한 쿼리언어를 지원한다. SQL 레벨의 ETL 처리도구로 활용 가능하다. 작성된 쿼리를 내부적으로 MapReduce 형태로 변환한다. 가장 역사가 오래된 SQL on Hadoop 엔진 하이브 서비스 CLI (Command Line Interface) 하이브 셀에 대한 명령행 인터페이스 Hiveserver Thrift, JDBC, ODBC 연결자를 사용하는 응용 프로그..
리눅스 환경 - Rocky9 터미널 창 열기 하둡으로 접속 [root@localhost ~]# cd hadoop 1. mapper.py gedit으로 mapper.py를 만든다. [root@localhost hadoop]# gedit mapper.py #!/usr/bin/env python import sys for line in sys.stdin: words = line.strip().split() for word in words: print(f"{word}\\t{1}") 편집창에 위와 같이 입력 후 저장하고 닫기 다음 문장을 입력하면 [root@localhost hadoop]# echo "hello world python and hadoop" | ~/hadoop/mapper.p..