목록전체 글 (13)
tellusboutyourself
실습 환경 구축 # 실습 데이터 다운로드 https://github.com/RobinDong/hive-examples/blob/master/employee/salaries.csv.gz # 파이어폭스로 사이트 접속하고 employee,salaries 직접 다운로드 받기 # 파일들이 '다운로드'에 있으므로 해당 경로로 먼저 이동 후 압축을 풀어야 한다. cd 다운로드 gunzip employees.csv.gz gunzip salaries.csv.gz ls # vi로 작은따옴표 제거 vi employees.csv (편집창 들어가서) :%s/'//g 입력 후 엔터 :wq 입력해서 편집창 나가기 vi salaries.csv (편집창 들어가서) :%s/'//g 입력 후 엔터 :wq 입력해서 편집창 나가기 # 데이터..
리눅스(Rocky9-Server) 터미널 창에서 하이브 설치하는 방법 # 설치파일 다운로드 wget http://apache.mirror.cdnetworks.com/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz # 압축 풀기 tar xvfz apache-hive-3.1.2-bin.tar.gz apache-hive-3.1.2-bin/ # 템플릿 파일 변경 find -type f -name hive-env* # 긴 이름을 짧게 바꾸기 mv apache-hive-3.1.2-bin apache-hive # 아파치 하이브에 들어가기 cd apache-hive/ ls bin/ pwd mv conf/hive-env.sh.template conf/hive-env.sh ls conf #..

활용 관점에서 본 하둡의 단점 맵리듀스는 프로그래밍 레벨(자바, 파이썬, c언어 등)의 개발이 필요하다. 더 쉬운 분석 지원을 위해 SQL을 지원하는 쿼리 엔진이 필요하다. 하이브란? 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스 패키지 페이스북에서 매일같이 생산되는 대량의 데이터를 관리하고 학습하기 위해 개발한다 SQL과 유사한 쿼리언어를 지원한다. SQL 레벨의 ETL 처리도구로 활용 가능하다. 작성된 쿼리를 내부적으로 MapReduce 형태로 변환한다. 가장 역사가 오래된 SQL on Hadoop 엔진 하이브 서비스 CLI (Command Line Interface) 하이브 셀에 대한 명령행 인터페이스 Hiveserver Thrift, JDBC, ODBC 연결자를 사용하는 응용 프로그..
리눅스 환경 - Rocky9 터미널 창 열기 하둡으로 접속 [root@localhost ~]# cd hadoop 1. mapper.py gedit으로 mapper.py를 만든다. [root@localhost hadoop]# gedit mapper.py #!/usr/bin/env python import sys for line in sys.stdin: words = line.strip().split() for word in words: print(f"{word}\\t{1}") 편집창에 위와 같이 입력 후 저장하고 닫기 다음 문장을 입력하면 [root@localhost hadoop]# echo "hello world python and hadoop" | ~/hadoop/mapper.p..
Detail PLAYDATA 데이터 엔지니어링 30기 1주차 _ 2024.02.15 - 2024.02.20 2.15 - 2.19 : Python Programming 2.20 : Database(SQL) 일주일 동안 학습한 내용 및 전반적으로 느낀 점 1일차부터 3일차까지는 파이썬의 전반적인 내용을 압축적으로 학습했다. 파이썬은 전공 시간에 다뤄본 적이 있으나 평소 해당 언어에 관해 스스로 부족함을 많이 느꼈기에 다시 한 번 제대로 공부해보고 싶다는 생각을 했었다. 3일이라는 기간은 파이썬의 모든 문법 체계를 짚고 넘어가기엔 턱없이 부족한 시간이 아닐까 싶었지만, 짧은 시간이 주어져있다는 생각에 되려 더욱 집중해서 공부할 수 있었고, 강의 내용 또한 결코 부족함이 없었다. 다만 해당 기간 동안은 수업을 ..