[MSK+Kafka Connect] 트리거 없는 실시간 DB 동기화 구현하기
·
Develop/DATA Engineering
기존 시스템의 한계와 개편 필요성시스템 개편을 하면서 새로운 아키텍처를 구상해야 하는 과제가 있었습니다.오랫동안 DB 링크와 트리거 기반의 데이터 연계 시스템(ESB)을 운영해 왔었는데, 기존 방식은 다음과 같았습니다.Source DB → A DB 채널 → A DB target table ├── → B DB 채널 → B DB target table └── → C DB 채널 → C DB target table 해당 데이터 연계를 진행하려면 복잡한 단계를 거쳐야 했습니다:트리거 작성로직 체크(INSERT/UPDATE/DELETE 구분)비즈니스 로직 구현 (최대한 지양했지만 불가피한 경우 존재)소스 DB와 타겟 DB의 Getter/Setter 생성각 DB별 접속 및 데이터 ..
한국데이터엔지니어모임 밋업 참여 후기
·
Develop/DAILY
4월 2일에 개최한 한데모 밋업에 참여하게 되었다 기억을 잃기 전에 한 번 써 두는 게 좋을 듯하여... 데이터 직무로 제대로 입사를 하고 난 이후로는 대외활동에 참여를 많이 하려고 노력 중인데, 운 좋게 한데모 밋업에 당첨이 되어 반차를 쓰고 서울로 올라갔다 ㅋㅋ 원래는 미팅이 있어서 4월 1-2 서울에 있을 예정이었는데 일자가 바뀌어서 어쩌다 보니 진짜 한데모만 보러 서울 올라간 사람됨참여 폼에는 미팅 일자가 하필 겹쳐서 한데모 참여하면 너무 좋을 것 같다고 써서 그래서 붙여 주신 것 같았는데 어떻게 일정이 그렇게 되어 버렸다.. 모임은 당근 마켓에서 장소를 제공해 주신다 하여 내가 당근 사옥을 또 언제 가 보겠어... 하는 마음으로 (언젠가 일원으로 함께 하고 싶다 ㅜ) 설레는 마음 반 긴장 반..
[글또xUdemy] Apache Spark 와 Python으로 빅 데이터 다루기
·
Develop/강의
시작하며 [글또xUdemy] AWS Certified Solutions Architect Associate 시험합격! 강의 후기 에 이어 두 번째로 선택한 강의는 Spark 관련 강의였는데요. 데이터 엔지니어링과 데이터 인프라 구축 니즈가 올라가면서 데이터를 다루는 조직들에게는 Spark가 거의 필수 요소가 되었습니다. 지금 제가 속한 조직은 Spark를 사용하지 않고 그대로 데이터베이스 서버를 이용해서 리소스를 사용하고 있는데요, 데이터 파이프라인을 새롭게 구축하면서 Spark 에 관한 내부 구조와 관련 문법들 이 엔진이 대용량 처리에 왜 유리한지에 대해 하나하나 짚어보고자 해당 강의를 선택하게 되었습니다. 아직 다 보진 않았지만 내부 구조에 대해서 그렇게 자세하게 알려주진 않고 실무에 어떻게 쓰이는지..
[글또xUdemy] AWS Certified Solutions Architect Associate 시험합격! 강의 후기
·
Develop/강의
시작하며 글또 9기를 시작하면서 유데미에서 강의를 지원받을 수 있는 기회를 받았습니다. 강의 수강 후 해당 강의에 대한 후기를 쓰는 것이 챌린지였는데요...! 평소에도 강의를 많이 결제해서 듣는 저에게는 선물이 아닐 수가 없습니다. 이전에도 알고리즘 강의를 유데미에서 결제해서 한참 듣고 있었거든요. 약 3 개월 동안의 두 편의 강의를 들으면서 느꼈던 후기를 풀어 보려고 합니다. 내가 이 강의를 선택한 이유 새로 입사한 곳에서 현재 온프렘 서비스들을 모두 AWS로 이관한다는 이야기를 들은 후 걱정 반 설렘 반이었습니다. AWS를 마음껏 만질 수 있다는 기대감과 설렘, 그리고 잘 모르는 상태에서 다루었을 때 다가올 풍파(?) 때문에 걱정이 많았는데요. 평소에도 SAA 자격증에 관심이 있기도 했고, [AWS의..
더 이상 미룰 수 없다 나의 코딩 테스트, 알고리즘의 ㅇ도 모르는 경력직의 코테 준비기
·
Develop/etc
안녕하세요 :D 활동하고 있는 글또에서 코드 트리 이용권을 받아 8 주 동안 체험할 수 있는 기회를 얻게 되었습니다! 관련 운영진 분들께 우선 감사의 말씀을 드리고....... 코드 트리를 이용해 본 며칠 솔직 후기를 남겨 보겠습니다 이번 글은 이런 분이 읽으시면 좋아요 취업 준비할 때 코딩 테스트를 준비해 본 적이 없다 어느 정도 코딩도 할 줄 알고 cs 지식도 있지만 코딩 테스트 문제 자체를 풀기에 진입 장벽이 있다 백준이나 프로그래머스를 풀려고 봤는데 레벨 1도 어떻게 풀어야 할지 감이 안 잡힌다 저는 항상 이직을 준비할 때면 코딩 테스트를 응시하는 기업은 채용 공고를 보자마자 시선을 돌리거나 다른 기업을 찾곤 했는데요...... 전공자임에도 불구하고 ^^; 입사한 회사들마다 코딩 테스트를 요하지 ..
대용량 데이터를 전송하는 방법(1) - Message Queue
·
Develop/DATA Engineering
대용량 데이터를 전송할 때 사용하는 여러가지 방법이 있는데 그 중 하나가 Message Queue를 이용한 방법이 있습니다. 요즘 카프카가 대세다, 대용량 데이터를 처리하는 방법 등등 이런 헤드라인으로 시선을 사로잡는 광고들이 많이 보였습니다. (이미 현업에서도 많이 사용 중이지만...) 저도 데이터를 만지는 사람으로써 이런 기술들에 대한 니즈가 있긴 하지만 당장에 내 상황에 필요한 기술인지 아닌지에 대해 판단도 못 하겠고, 왜 MQ나, Kafka 같은 것들을 도입하여 사용하는지 어떤 상황에 맞게 쓰는 게 맞는지 근본적인 의문을 풀어보고자 이 글을 작성하게 되었습니다. 이 글은 제가 공부하면서 정리하고 적어 보는 거니 완전히 믿으시면 안 됩니다....! (밑밥깔기) Message Queue란 무엇인가? ..
multi class image classfication with dicom (CT) body part
·
Develop/ML&DL
목적 전신 CT 영상을 Brain, Neck, Chest, Abdomen, Pelvis 5 종류의 Class로 나누어 Classfication 하는 알고리즘 구현 필요 조건 jpg 영상이 아닌 dicom으로 학습한다 pytorch로 작성 (내가 pytorch가 편함...) AWS 같은 클라우드 사용을 할 수 없다.... ㅜㅜ 처음부터 끝까지 로컬 환경으로 구축해야 한다 모르는 부분 1. jpg or png 학습과 dicom 원본 영상 학습은 무엇이 다를까? 2. multi classfication 을 위한 데이터 로더 구조는 어떻게 구성해야 할까? 3. 학습 모델을 만든 후, 그 모델을 구축하고 배포는 어떻게 해야 할까? 4. 모델 서빙 작업이 끝난 후 웹 서버에서 test CT 영상을 올리고 class..
[빅데이터를 지탱하는 기술] 01 - 1주차 스터디
·
Develop/DATA Engineering
9/7~9/14 1단원 나온 질문들 질문1. 데이터 수집은 벌크(bulk)형데이터, 스트리밍(Streaming)형 데이터로 구분되는데 스트리밍형 데이터 수집을 할때 Message Queue를 쓰는 Kafka 를 쓰거나, Spark Streaming을 쓰는 기업으로 구분되는것같은데 두개의 차이는 무엇일까요?? 카프카는 실제로 데이터를 저장하는 것은 아니고, 데이터를 저장을 하는데 데이터 발생하는 주기가 너무 짧은데 저장할 수 없을 경우에는 큐에 쏘아놓고, 큐에 저장하는 게 카프카가 하는 일이고 (초당 데이터가 너무 빨리 발생할 때 큐에 저장할 때) 카프카는 데이터나 형변환을 할 수 있음. 중간 단위의 처리도 가능하기 때문에 데이터가 유실이 되지 않아야 할 때 많이 씀. 주 목적은 데이터 유실을 막고 큐 형..