4월 2일에 개최한 한데모 밋업에 참여하게 되었다

 

기억을 잃기 전에 한 번 써 두는 게 좋을 듯하여... 

데이터 직무로 제대로 입사를 하고 난 이후로는 대외활동에 참여를 많이 하려고 노력 중인데, 운 좋게 한데모 밋업에 당첨이 되어 반차를 쓰고 서울로 올라갔다 ㅋㅋ 

 

원래는 미팅이 있어서 4월 1-2 서울에 있을 예정이었는데 일자가 바뀌어서 어쩌다 보니 진짜 한데모만 보러 서울 올라간 사람됨

참여 폼에는 미팅 일자가 하필 겹쳐서 한데모 참여하면 너무 좋을 것 같다고 써서 그래서 붙여 주신 것 같았는데 어떻게 일정이 그렇게 되어 버렸다.. 

 

모임은 당근 마켓에서 장소를 제공해 주신다 하여 내가 당근 사옥을 또 언제 가 보겠어... 하는 마음으로 (언젠가 일원으로 함께 하고 싶다 ㅜ) 설레는 마음 반 긴장 반으로 도착했습니다

 

 

유명한 그 교보타워...! 

이전에 글또 코어 커피챗 모임에서도 신논현 근처에서 본 적이 있는지라 한번 슥 지나갔었는데 그게 이 건물일 줄은 몰랐다 어어엄청 컸다

 

당근 사옥 도착...

거의 시골쥐마냥 사진 왕창 찍고 싶었는데 쫄려서 많이는 못 찍고 당근 로고만 찍었다 

중앙에 있던 당근 마스코트인지 ㅜ 인형 무지하게 귀여웠음 

 

발표는 당근마켓 데이터 엔지니어 한 분과 데이터 브릭스에서 나온 이사님 한 분 이렇게 발표를 진행하시고 이후에는 네트워킹 모임을 진행했다

 

발표 이전에 프로도님께서 제일 멀리서 온 사람 책 드린다고 하길래 번쩍 손들어서 부산에서 왔다고 했는데 어쩌다 여기까지 왔냐 물으시는데 진심 당황해서 어쩌다 미팅 때문에 올라왔다고 함 아 그거 아니고 한데모 여러분들과 네트워킹 하고 싶어서 왔다고 했어야 했는데 후회... (E인데 왜 그랬을까 ㅜ) 

 

 

주제는 다음과 같았다! 

  • 당근마켓에서 MAU 1800만의 사용자 이벤트를 처리하는 방법
  • 오픈 데이터 레이크 하우스를 위한 Delta Lake

당근마켓 발표는 MAU 1800만에서 발표 시작하셨을 때 1900만으로 바꾼 채로 발표하셨다 ㅋㅋㅋ 진짜 엄청난 유저 수다...... 생에 겪어볼 숫자인가 싶다 

 

당근마켓에서 MAU 1800만의 사용자 이벤트를 처리하는 방법

 

발표 내용은 사용자 이벤트 파이프라인에서 일어나는 이슈들을 개선한 사례에 관한 것이었다

한 시간마다 준 실시간으로 배치 파이프라인을 구성했었는데 데이터의 양이 늘어나면서 적재되는 시간이 배치 주기보다 늘어나는 이슈가 있었던 것이다

 

워커를 늘리거나 비용을 많이 써도 한계가 있다고 판단했기 때문에 아키텍처를 개선해야겠다고 판단을 하셨다고 한다

 

확장성과 실시간성, 운영 비용을 고려해서 설계를 했다고 함 

 

기존에는 키네시스를 이용해서 EMR에서 스파크 배치로 빅쿼리에 데이터를 적재하는 방식이었는데 이걸 아예 GCP 환경으로 바꿔서 MSK로 데이터를 태우고 gcp pub/sub 으로 전달한다 이후 data flow 를 이용해서 데이터를 정제하고 pub/sub을 이용해서 또 정제하고 이런 식으로 운영 방식을 바꿨다고 한다 gcp에서 하고자 하는 이 펍섭과 데이터 플로우는 관리형 스트리밍 배치 서비스인 것이다

 

해당 아키텍처를 설계하고 운영하면서 이루어지는 이슈들도 공유해 주시고 여러모로 내 업무에 적용도 가능하겠다 싶은 인사이트들을 많이 얻었음 

 

오픈 데이터 레이크 하우스를 위한 Delta Lake

 

두 번째 발표는 데이터 브릭스의 고영경 이사님이 발표를 하셨다 

이 발표를 보기 전에도 이미 데이터 브릭스 도입에 대해 고려를 하고 있었던 지라 브릭스 컨퍼런스도 신청을 해 두었는데 그 세션에서 발표를 하신다고 함 우리한테 미리 보여 드리는 거라고 ㅋㅋㅋㅋ 이런 꿀정보가 

 

사실 하이브 구조로도 일을 해 보지 않았고 하둡도 안 써 봐서... ㅜ 곧바로 데이터 레이크 구조가 나와 버리니까 이해하기에는 좀 힘들긴 했다 아직 많이 모자람 .. 

 

델타 레이크라고 함은 간단하게 말하면 파케이 기반의 오픈 포맷이다. 즉 데이터 레이크를 위한 오픈 테이블 포맷인 것이다.

 

데이터 레이크에 스토리지 프레임워크가 왜 필요할까? 

아파치 후디, 아이스버스, 델타레이크와 같은 테이블 포맷에 대한 이야기가 많이 나왔고 실제로도 도입을 많이 하는 추세인데 이게 대체 뭐냐? 라고 한다면... 

 

내가 이해한 바로는 아마 S3 같은 데이터 레이크에 모든 데이터를 막 적재를 시키고, 파케이 형태로 테이블 데이터들을 파티션을 나누어서 적재를 시키는데 이게 관리가 잘 안 되니까 저런 니즈가 생긴 게 아닐까 싶다 

 

 

필기는 아주 열심히 했는데 ㅋㅋ 이 발표를 듣고 나니 23일에 있을 브릭스 컨퍼런스가 더 기대됐다 

 

시야가 넓어진다는 건 뭔가 희망이 생기는 것과 같은 느낌인 듯하다

 

이후 발표가 끝나고 네트워킹 시간을 가졌는데, 주변 분들께서 먼저 부산에서 오셨냐고 말 걸어주시고 업무적인 이야기를 했었는데 하필 또 모여서 같이 대화 나눈 분들이 모두 it 회사가 아니라 다른 도메인에 있는 데이터 엔지니어 분이셨다 

딱 데이터엔지니어 -> 시각화 (BI) 까지 담당하시는 분들이었고 업무 과정이 나와 비슷해서 동질감을 느낀 채 대화를 많이 했다

 

나처럼 혼자 일을 하시는 분들도 계셨고 데이터 팀이 존재해서 협업을 잘하고 계신 분도 있었는데 나는 지금 데이터 인프라를 구축하기 위해 조사를 많이 해야 하는 입장이니 어떤 파이프라인을 사용하고 있는지, 혼자 운영하기도 괜찮은지, 비용 관리는 어떻게 하는지에 대한 꿀팁들을 많이 얻어 갔다

 

대외활동을 많이 해야 하는 이유 중 하나..... 규모가 적은 조직에서 일을 하다 보면 고독한 일이 참 많은데 이런 기회를 통해서 업무적인 회의감이나 궁금함을 풀어나갈 수 있다는 게 정말 좋은 일이다 더 열심히 공부하고 실력을 늘려야겠다는 마음 가짐을 또 한 번 잡게 된 날이었다