[플레이데이터 데이터엔지니어링 30기] 3월 2주차 회고

회고록

[플레이데이터 데이터엔지니어링 30기] 3월 2주차 회고

금서_ 2024. 3. 13. 00:26

Detail

PLAYDATA 데이터엔지니어링 30기

3월 2주차 _ 2024.03.06 - 2024.03.12

학습 내용 요약

- 하둡(Hadoop) 개념

- 하둡 설치 방법

- 맵리듀스(Mapreduce) 개념

- 맵리듀스 wordcount 실습

- 맵리듀스 메모리 설정 및 최적화

- 파이썬을 활용한 맵리듀스

- 하이브(Hive) 개념

- 하이브 설치 방법

- 하이브 실습(실습환경 구축, 테이블 생성, 쿼리테스트 1~5)

- 공공데이터 불러오기(hadoop과 csv파일)

- 아파치 스쿱 (Apache Sqoop)

- 데이터 시각화

일주일 동안 학습한 내용 및 전반적으로 느낀 점

3월 2주차에는 하둡(Hadoop)에 관해 학습했습니다. HDFS에서 쓰이는 다양한 용어들과 개념들을 익히고 명령어를 입력해보며 실습을 이어나갔습니다. 크롤링, 전처리 등 파이썬을 주로 사용했던 지난 수업들과는 달리 본격적으로 리눅스 환경에서 낯선 명령어들을 사용하니 막히는 부분이 많았던 것 같습니다. 낯설게 느껴지는 엔지니어링 환경에 빨리 적응하기 위해서는 더 많은 실습과 노력이 필요할 것 같다고 느꼈습니다.

지난주와 달리 이번주부터는 배운 내용들을 모두 기록하기 시작했습니다. 그동안은 수업시간에 진도를 따라가는 데에만 초점을 두었어서, 나중에 배운 내용들을 다시 되짚어보려해도 혼자 이해하기 어려웠던 부분이 있었습니다. 그러나 이번 주차에는 수업시간 틈틈이 강사님께서 구두로 설명해주시는 내용들과 책에 나와있지 않은 쿼리들을 노션에 기록했는데, 이 점이 향후 학습에 큰 도움을 주었습니다. 수업 도중 전 날 배웠던 내용을 응용해야 하는 상황에서 생각이 잘 나지 않으면 곧바로 노션을 켜 해결했습니다. 수업을 따라가기가 훨씬 수월해졌고, 학습이 조금 더 즐거워졌습니다. 기록의 중요성이 크게 와닿았던 한 주였습니다.

좋았던 점

1년 전 adsp 자격증 시험을 준비하면서, 여러가지 데이터 관련 용어들을 처음 접하게 되었는데 당시에는 용어들의 뜻을 정확히 알지 못한 채 암기하기 바빴습니다. 이번 주 실습을 통해 해당 단어들이 어떤 상황에 쓰이는지, 또 어떠한 역할을 하는지 알 수 있어 좋았습니다. 또한 추상적이었던 단어들이 실습을 통해 눈 앞에서 구체화되는 것이 인상깊었습니다.

아쉬웠던 점

수업시간에 실습한 내용들이 프로젝트에서 어떻게 쓰일 수 있는지 잘 감이 잡히지 않습니다. 이전 대회들의 코드를 보면서 다른 분들은 하둡을 어떻게 활용했는지 공부해봐야할 것 같습니다. 또한 코드를 익히는 것 뿐만 아니라 개념 공부도 중요하다고 느꼈습니다. 큰 틀을 잡고 공부하는 습관을 들이고 싶습니다.

개선해야할 점

처음엔 막연하게만 느껴졌던 데이터 엔지니어링 과정이 조금씩 즐거워지고 있는 것 같습니다. 크롤링, 전처리, 시각화 등 입과 전부터 배우고 싶었던 부분들, 또 부족했던 부분들이 조금씩 채워나가지고 있는 것 같아 뿌듯하고 또 즐겁습니다. 아직은 엔지니어링보다 데이터 분석을 배우는게 더 흥미롭지만 흥미를 느끼는 부분만 공부해서는 안 되는 것 같습니다. 학습량이 한 쪽에만 치우치지 않도록 하둡도 꾸준히 공부해보고자 합니다. 데이터분석 뿐만 아니라 엔지니어링도 점차 익숙하고 재밌게 느껴질 날이 오기를 기대해봅니다.

다음주 계획

2년 전 'AI를 위한 프로그래밍'이라는 전공수업에서 'Identify Contrails to Reduce Global Warming(Computer Vision)'이라는 주제로 팀원을 구성해 프로젝트를 진행한 적이 있습니다. 당시에는 주어진 코드 틀 안에서 프로젝트 주제에 맞게 일부만 수정해 결과를 도출했던 기억이 납니다. 때문에 이해가 되지 않는 코드들도 그냥 넘어가는 경우가 있었는데, 다음주 진행될 프로젝트에서는 작성하는 코드들을 명확히 이해하고 배운 내용들을 활용해 저 스스로에게도 공부가 되는 프로젝트를 진행해보고 싶습니다.