본문 바로가기

Others

도서 리뷰 : 견고한 데이터 엔지니어링

 


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


견고한 데이터 엔지니어링

 

이번에 리뷰할 도서는 "견고한 데이터 엔지니어링" 입니다.

 

견고한 데이터 엔지니어링 도서는 이전에 리뷰하던 도서들과 다릅니다.

 

도서의 질이 다르다, 퀄리티가 낮다 이런 면에서의 다름이 아니라 책의 방향이 다릅니다.

 

이전 도서들은 예제 코드나 실습의 내용이 어느 정도 비율을 차지하는 반면에, 이번 도서는 이론이 100%의 비율을 차지합니다.

 

이 도서를 읽으시기 전에 파이썬과 SQL, 클라우드 서비스를 어느 정도 사용해보거나 사용할 줄 아시는 분이 읽으시는 것을 권장드립니다.

 

도서는 다음과 같은 내용들로 구성되어 있습니다.

 

첫 번째 파트는 "데이터 엔지니어링 기반 구축하기"로 데이터 엔지니어링의 정의와 수명주기, 데이터 구조 설계, 데이터 수명 주기에 따른 기술 선택에 대한 내용으로 구성되어 있으며, 

 

두 번째 파트는 "데이터 엔지니어링 수명 주기 심층 분석"으로 데이터의 생성 방법과 저장, 수집, 쿼리 모델링, 목적에 따른 데이터 서빙에 대한 내용으로 구성되어 있습니다.

 

이 파트는 도서를 읽으면서 가장 재미있게 읽었던 부분으로, 원천 시스템의 데이터에 대한 내용부터 수집 등의 대한 내용이 포함되어 있어서 데이터 전처리와 수집을 1년 반 가까이 하고 있는 저에게 도움이 많이 되었습니다.

 

또한, 인공지능을 위한 데이터의 고려사항과 서빙에 대한 내용이 있으며, 이는 인공지능 분야에서의 데이터 엔지니어 뿐만 아니라 인공지능 관련 연구자에게도 도움이 되는 내용이 상당히 많이 있었습니다.

 

ML이나 인공지능 분야에 대한 설명을 포함하고 있지는 않지만 예를 들어, ML 분야에 사용할 데이터에 대해 데이터 엔지니어가 숙지해야 할 항목으로 모델의 학습 방법의 차이점, 분류와 회귀의 차이, 데이터 임베딩 방법 등을 제시합니다.

 

세 번째 파트는 "보안, 개인정보보호 및 데이터 엔지니어링의 미래"로 보안과 데이터 엔지니어링과 관련된 도구, 서비스등의 전망에 대한 내용으로 구성되어 있습니다.

 

처음 도서를 열어 보았을 때 실습 코드가 없고, 데이터 엔지니어링에 대한 내용만 보여서 지루하게 읽지 않을까 싶었는데, 다양한 분야에 대한 데이터 엔지니어링의 내용들이 함께 포함되어 있어서 개개인의 분야와 관계지어 읽으면 재미있게 읽을 수 있을 뿐더러 개인의 분야에서 데이터를 수집, 사용하고 데이터 측면에서 생각해 볼 수 있는 능력을 기를 수 있는 도서라고 생각됩니다.

 

만약 인공지능 분야에서 데이터 전처리가 아니라, 데이터 근본 자체에서 전처리 전 단계까지의 내용에 관심이 있으시다면 한 번쯤 읽어보시면 많은 도움이 되는 도서로 이 도서를 추천드리고 싶습니다.