no image
[글또xUdemy] Apache Spark 와 Python으로 빅 데이터 다루기
시작하며 [글또xUdemy] AWS Certified Solutions Architect Associate 시험합격! 강의 후기 에 이어 두 번째로 선택한 강의는 Spark 관련 강의였는데요. 데이터 엔지니어링과 데이터 인프라 구축 니즈가 올라가면서 데이터를 다루는 조직들에게는 Spark가 거의 필수 요소가 되었습니다. 지금 제가 속한 조직은 Spark를 사용하지 않고 그대로 데이터베이스 서버를 이용해서 리소스를 사용하고 있는데요, 데이터 파이프라인을 새롭게 구축하면서 Spark 에 관한 내부 구조와 관련 문법들 이 엔진이 대용량 처리에 왜 유리한지에 대해 하나하나 짚어보고자 해당 강의를 선택하게 되었습니다. 아직 다 보진 않았지만 내부 구조에 대해서 그렇게 자세하게 알려주진 않고 실무에 어떻게 쓰이는지..
2024.04.14
no image
[글또xUdemy] AWS Certified Solutions Architect Associate 시험합격! 강의 후기
시작하며 글또 9기를 시작하면서 유데미에서 강의를 지원받을 수 있는 기회를 받았습니다. 강의 수강 후 해당 강의에 대한 후기를 쓰는 것이 챌린지였는데요...! 평소에도 강의를 많이 결제해서 듣는 저에게는 선물이 아닐 수가 없습니다. 이전에도 알고리즘 강의를 유데미에서 결제해서 한참 듣고 있었거든요. 약 3 개월 동안의 두 편의 강의를 들으면서 느꼈던 후기를 풀어 보려고 합니다. 내가 이 강의를 선택한 이유 새로 입사한 곳에서 현재 온프렘 서비스들을 모두 AWS로 이관한다는 이야기를 들은 후 걱정 반 설렘 반이었습니다. AWS를 마음껏 만질 수 있다는 기대감과 설렘, 그리고 잘 모르는 상태에서 다루었을 때 다가올 풍파(?) 때문에 걱정이 많았는데요. 평소에도 SAA 자격증에 관심이 있기도 했고, [AWS의..
2024.03.31

 

시작하며

[글또xUdemy] AWS Certified Solutions Architect Associate 시험합격! 강의 후기 에 이어 두 번째로 선택한 강의는 Spark 관련 강의였는데요. 데이터 엔지니어링과 데이터 인프라 구축 니즈가 올라가면서 데이터를 다루는 조직들에게는 Spark가 거의 필수 요소가 되었습니다. 지금 제가 속한 조직은 Spark를 사용하지 않고 그대로 데이터베이스 서버를 이용해서 리소스를 사용하고 있는데요, 데이터 파이프라인을 새롭게 구축하면서 Spark 에 관한 내부 구조와 관련 문법들 이 엔진이 대용량 처리에 왜 유리한지에 대해 하나하나 짚어보고자 해당 강의를 선택하게 되었습니다. 아직 다 보진 않았지만 내부 구조에 대해서 그렇게 자세하게 알려주진 않고 실무에 어떻게 쓰이는지 실습이 주로 이루어진 강의입니다. 

 

강의 소개 

【한글자막】 Apache Spark 와 Python으로 빅 데이터 다루기

 

이 강의에서 다루는 내용은 다음과 같습니다. 저는 데이터 마이닝까지는 필요가 없어서 실시간으로 처리되는 데이터 스트림과 Spark SQL, 클러스터와 노드 위에서 이루어지는 개념과 같은 것들에 중점을 맞추어서 강의를 들었습니다. 

 

 

강의 목차는 다음과 같습니다.   

Spark의 데이터 구조인 RDD, DataFrames, DataSets에 대해서 개념을 정립하고 해당 구조에 대해 이해할 수 있게 실습을 진행합니다. 추가로 Spark ML도 다루고 있으니 머신러닝 분석하시려는 분들에게도 도움이 될 것 같네요 

이런 분에겐 추천해요

  • Spark가 완전 처음이다 
  • 너무 자세하게는 말고 간단하게 큰 그림으로 훑어 보고 싶다
  • 책보다는 강의 보면서 코드를 따라치면서 배우는 게 성향에 맞다
  • 당장 실무에서 어떻게 사용할 수 있는지 알고 싶다 

이런 분한테는 비추...

  • Spark에 대해서 어느 정도 알고 사용 중인데 레벨업을 하고 싶다
  • Spark를 활용한 응용 작업에 대해서 자세하게 알고 싶다
  • 클라우드 환경에서 Spark 엔진이 내장된 서비스를 이미 사용 중이다
  • 파이썬을 배운 적이 없다

확실히 실습 위주가 많은 강의입니다. 생각보다 이론에 대한 주제는 짚어주지 않고 이미 Spark를 도입해서 사용 중이신 분들에게는 맞지 않을 것 같다는 생각이 들더라고요. 저는 실무에서 Spark를 사용해 본 적이 없기에 어느 정도 개념 잡으면서 코드 따라 쳐보면서 실습하니까 대충 플로우가 어떻게 흘러가는지는 감이 잡히긴 했습니다. 심화 내용을 바라신다면 이 강의는 안 맞을 수 있어요! 

 

강의 전반적인 내용

  • 몇 년 전에 촬영한 내용이라 버전이 안 맞으면 어쩌지 싶었는데 버전에 대한 이슈들은 따로 체크를 해서 수정본을 업로드해 두셨습니다.
  • 로컬 환경에서 Spark를 설치하여 실습을 하기 때문에 초반 설치 때문에 애를 많이 먹으실 수도 있습니다...... 강의 내용과는 좀 다를 수 있어서 저도 구글링을 하면서 설치를 하고 실습을 진행했습니다. 
  • AWS EMR도 활용하는 강의가 나오는데, 이 부분은 따로 진행하지는 않았습니다. 
  • PPT에 자료를 띄워 수업을 진행하시는데... 하늘색 화면에 글자만 계속 있어서 전체적으로 강의에 집중이 된다는 느낌은 안 들더라구요 ㅋㅋㅋ 그래도 차근차근 잘 따라가신다면 얻어가는 게 있으실 겁니다. 
  • 실습 내용에 따른 코드 흐름이 전부입니다. 전체적인 그림을 보기에는 최고인 것 같고 저같이 Spark가 처음인 사람들에게는 가볍게 개념 정리하기에는 좋은 것 같아요.

총평

장점과 단점은 위에서 언급을 했으니 간단한 총평만 진행하고 글을 마무리하겠습니다. 

회사에서 이번에 데이터 파이프라인 개편 작업을 진행하면서 많은 자료조사들을 시작했었습니다. 데이터 엔지니어링에 필요한 로드맵을 정리해 둔 사이트가 있었는데요. 개인적으로 그 로드맵을 봤을 때는 내가 어떤 기술과 어떤 개념을 가져야 엔지니어로써의 자질을 쌓을 수 있을지 고민했다면 지금은 어떤 파이프라인과 로직, 기술들이 회사 프로세스에 맞을지 고민하는 과정을 거치면서 다뱡면의 상황을 고려해 적절한 기술을 사용하는 것에 대해서 판단을 할 수 있는 능력이 점차 쌓여가고 있는 것 같은 느낌을 받았습니다. 

자료 조사를 하면서 항상 봤던 문구는 회사에 Spark를 사용하고 있지 않다면 도입을 하려는 시도는 해 보라는 말을 정말 많이 봤었는데요. 그걸 보면서 무작정 다른 회사는 다 spark 쓰고 있고 추후 이직을 위해서라도 spark를 나도 써 봐야 하는 거 아닐까? 라는 생각을 했지만 막상 도입을 위해 사유를 쓰려니 어떠한 사유로 spark를 써야 합니다 라고 설득 자료를 만들지를 못 하겠더라구요. 이유를 생각해 보니 저 자체가 Spark에 대한 개념 자체를 모르고 있기 때문에 무작정 도입만 고려하고 있었던 것이었습니다. 

이번 강의를 들으면서 확실하게 얻어간 게 있는데요 ㅎㅎ 강의를 듣고 실습해 보면서 데이터 흐름에 대한 이해가 되었고, 현재 우리 회사의 프로세스에서 어떤 부분에 Spark 엔진을 사용하면 효율적일지에 대한 응용이 가능해졌다는 것에 대해 큰 도움이 되었다고 생각합니다. 

 

강의에 대해서 궁금한 점이 있다면 언제든 댓글 남겨 주시면 답변 드리겠습니다. 감사합니다. 

 

시작하며

글또 9기를 시작하면서 유데미에서 강의를 지원받을 수 있는 기회를 받았습니다. 강의 수강 후 해당 강의에 대한 후기를 쓰는 것이 챌린지였는데요...! 평소에도 강의를 많이 결제해서 듣는 저에게는 선물이 아닐 수가 없습니다. 이전에도 알고리즘 강의를 유데미에서 결제해서 한참 듣고 있었거든요. 약 3 개월 동안의 두 편의 강의를 들으면서 느꼈던 후기를 풀어 보려고 합니다. 

 

내가 이 강의를 선택한 이유 

새로 입사한 곳에서 현재 온프렘 서비스들을 모두 AWS로 이관한다는 이야기를 들은 후 걱정 반 설렘 반이었습니다. AWS를 마음껏 만질 수 있다는 기대감과 설렘, 그리고 잘 모르는 상태에서 다루었을 때 다가올 풍파(?) 때문에 걱정이 많았는데요. 평소에도 SAA 자격증에 관심이 있기도 했고, [AWS의 모든 것] 이라는 오픈채팅방에서도 항상 자격증에 대한 자료들을 잘 올려주셔서 그걸 참고해서 자격증을 준비할까...... 하다가 유데미에서 지원해 주는 강의 목록에 SAA 전용 강의가 있길래 바로 신청을 해두었습니다! 올해 하반기 쯤에 SAA 자격증을 따 보려고 했는데 확실히 도움이 많이 될 것 같습니다. 

 

강의 소개 

【한글자막】 AWS Certified Solutions Architect Associate 시험합격! < 해당 강의 링크 Click!

 

 

해당 강의는 다음과 같이 구성되어 있습니다. 

전체적인 AWS의 모든 서비스들이 설명되어 있고, 저 같은 경우엔 각각의 서비스에 대한 자세한 설명보다는 AWS에는 어떤 서비스들이 있고, 그 서비스들이 어디에 쓰이는지를 알고 싶었기 때문에 저와 같은 상황이시라면 딱 도움이 되는 강의가 아닐까 싶습니다. 

2023년에 변경되었다던 내용에 맞춰서 강의도 반영이 되었고, AWS 프리티어 계정으로 무리하지 않고 실습할 수 있어 과금에 대한 걱정도 하지 않아도 됩니다. 저는 과금이 항상 마음에 걸리더라구요. 어떤 일들이 일어날지...^^ 

 

AWS Certified Solutions Architect Associate 시험을 통과하기 위해 배울 구체적 내용:

  • AWS 기초: IAM, EC2, Load Balancing, 오토스케일링, EBS, EFS, Route 53, RDS, ElastiCache, S3, CloudFront
  • AWS CLI: CLI 설정, EC2에서의 사용, 모범 사례, SDK, 고급 사용
  • 심도있는 데이터베이스 비교: RDS, Aurora, DynamoDB, Neptune, ElastiCache, Redshift, ElasticSearch, Athena
  • 모니터링, 문제 해결 및 감사: AWS CloudWatch, X-Ray, CloudTrail
  • AWS 인테그레이션 및 메시징: SQS, SNS, Kinesis
  • AWS Serverless: AWS Lambda, DynamoDB, API Gateway, Cognito
  • AWS 보안 모범 사례: KMS, 암호화 SDK, SSM 파라미터 스토어, IAM 정책
  • VPC & 네트워킹 심층 분석
  • 그 외 AWS 서비스 개요: CICD (CodeCommit, CodeBuild, CodePipeline, CodeDeploy), CloudFormation, ECS, Step Functions, SWF, EMR, Glue, OpsWorks, ElasticTranscoder, AWS Organizations, Workspaces, AppSync, Single Sign On (SSO)
  • 시험 합격 팁

커리큘럼 안에는 구체적으로 저런 서비스들에 대해서 배우는데요. 확실히 지금 와서 다시 커리큘럼을 보니 전부 다 중요한 서비스들이네요...... 이 강의를 안 듣고 지금 실무 들어갔으면 어버버했을 것 같습니다.

 

수강 후기

느낀 점 및 기억에 남는 점 

저는 회사 업무를 하면서도 온프렘 서버를 사용했었고, 사이드 프로젝트를 할 때도 해 봤자 EC2와 RDS 사용만 해 왔기 때문에 클라우드 서버라는 거대한 플랫폼이 어떻게 얼마나 사용이 되는지 어떤 식으로 구성을 해서 실제 현업에서 사용하는지 감이 잘 잡히지 않았었는데요. 흔히 들어왔던 로드밸런싱, IAM, 오토스케일링... 인프라 관리에 필요한 모든 것들과 네트워크 통신 등, CS 공부를 할 때 접했던 개념들이 기초 파트에서 나오니 확실히 뭐든 cs를 기반한 베이직 개념을 깔고 가야 하구나를 느꼈습니다. 이 년 전에 아마존 SA 직무로 면접을 봤던 적이 있었는데....... 엄청 털렸었거든요 ㅋㅋ 그때 생각이 많이 났습니다. 위에 적혀 있는 리스트만 대충 훑어 봐도 업계에서 안 쓰는 서비스들이 없지 않나요? 정말 모든 걸 다 사용하는 듯하여...... 새삼 공부하면서도 클라우드 개발자로서의 길도 생각해 보면 좋지 않을까 하는 생각도 들었었네요. 

장점

SAA 자격증을 따기 위한 목표 때문에 강의를 선택했던 것도 있었지만, AWS의 전반적인 모든 서비스들을 빠르게 훑고 파악하는 것이 제 목표였기 때문에 더 좋은 선택이 아니었나 싶습니다. 기술 스택을 선택해야 하는 상황에서 어떤 서비스가 존재하지는지도 모르고 파이프라인을 짜는 건 말도 안 되니까요. 실제로 파이프라인 구성하는 데에 많은 도움이 되었습니다. 

특히 S3, Athena, Redshift, Glue와 메시징 서비스 관련해서 궁금한 부분들이 많아 관련된 세션은 집중해서 들었던 기억이 있습니다. 

커리큘럼 이름에서 실습 < 이 있는 주제들은 모두 설명과 더불어 실습을 직접 같이 해 보는 부분들이 있는데요 함께 따라해 보면서 환경 구성하는 방법과 실제로 내부에서 어떻게 동작하는지와 같은 테스트를 해 볼 수 있어 좋았습니다. 또한 VPC까지는 아직 강의를 듣지는 않았지만 AWS 서비스 연결하고 환경 세팅할 때 VPC가 정말..... 속을 많이 썩이더라구요? 네트워킹과 VPC 부분이 자세하게 나와 있어서 도움이 많이 되겠다 싶었습니다.

아쉬웠던 점

아무래도 시험에 나오는 부분을 중점으로 강의를 진행하다 보니 이론이 많았고 실습은 아마 프리티어 위주로만 진행을 한 것 같습니다. 예를 들어 저는 glue에 대해서 설정은 어떻게 하는지 실제로 구성은 어떻게 하는지...... 이런 걸 보고 싶었는데 거기까지는 세부적으로 설명해 주지 않더라구요. 이건 아마도 DEA-C01을 들어야 자세하게 나오는 부분이 아닌가 싶습니다. SAA 로서는 가볍게 훑고 넘어갔다는 점! 

 

총평

심도있게 특정 서비스에 대해 알고 싶으신 분들은 SAA 강의가 안 맞을 수도 있습니다. 이건 정말 SAA 자격증 취득에 관한 강의 내용이기 때문에 전체적으로 훑으면서 흐름을 알고 가고 싶으신 분들께 추천해 드립니다. 저도 겸사겸사 SAA 준비도 함께 해 보자고 시작했는데 여러모로 지식이 많이 늘어나서 회사 업무상 AWS 관계자 분들과 미팅할 때도 큰 이슈 없이 잘 미팅하고 궁금한 것도 잘 캐치해서 물어봤던 것 같습니다. 왜, 아무것도 모르면 몰라서 질문할 게 없다는 말이 있잖아요. 다행히... ㅋㅋㅋ 공부를 하면서 모르는 부분들이 많이 생겨서 스스로 공부도 해 보고 물어보기도 하면서 조금이나마 성장할 수 있었습니다. 다시 한번 글또 운영진 분들과 강의 지원해 주신 유데미 관계자 분들께 감사 인사를 올리며... 올해 안으로 SAA 자격증 합격 후기로 돌아오겠습니다. 감사합니다.