
Nice to Meet You!
I'm DataEngineer Minchur
#All (45)
#docling (1)
#EasyOCR (1)
#Tesseract (1)
#RapidOCR (1)
#DataLake (2)
#KappaArchitecture (1)
#LambdaArchitecture (1)
#DataWarehouse (2)
#DataLakehouse (1)
#DeltaLake (1)
#DataMart (1)
#Kafka (6)
#spark (1)
#pyspark (1)
#scala (1)
#python (1)
#CS (1)
#Database (1)
#etc (2)
#Secure Coding (4)
#RabbitMQ (3)
#large-scale-system (4)
#Redis (8)
#Spring Boot (2)
#Docker (5)
#회고 (3)
#Gatsby (2)
#Linux (3)

Docling이란??
#docling#EasyOCR#Tesseract#RapidOCR
2025-06-21
정규화된 JSON/Markdown으로 문서를 변환하는 AI기반 문서 파서 Docling에 대해서 알아보자

DataLake Architecture 설계 Lambda & Kappa Architecture
#DataLake#KappaArchitecture#LambdaArchitecture
2025-05-07
DataLake Architecture 설계중 Lambda 방법론과 Kappa 방법론

DataWarehouse, DataLake, DataLakehouse 비교 분석
#DataWarehouse#DataLake#DataLakehouse#DeltaLake
2025-04-23
DataWarehouse, DataLake, DataLakehouse의 차이와 장단점, 성능비교

빅데이터 및 분석을 위한 데이터 웨어하우스 설계 방법론 비교
#DataWarehouse#DataMart
2025-04-17
논문에 나오는 4가지 주요 데이터 웨어하우스 설계 방법론(Inmon, Kimball, Data Vault, Lambda Architecture)을 중심으로 각 접근법의 핵심 개념, 장단점, 그리고 비교 분석 내용을 중점적으로 정리

ISR과 Replication에 대해서
#Kafka
2025-04-15
Kafka의 고가용성과 내결함성을 보장하는 핵심 매커니즘인 ISR(In-Sync Replicas)과 Replication(복제)에 대해 설명합니다. Replication이란 무엇이며, ISR이 어떤 역할을 하며 왜 중요한지, Kafka 클러스터 운영 시 발생할 수 있는 Replica 불일치 상황, Leader 선출, 데이터 유실 방지 전략까지 함께 다룹니다.

Spark환경에서 Python과 Scala API 성능 비교
#spark#pyspark#scala#python
2025-04-03
Apache Spark는 대규모를 분산처리하는 프레임워크로, 메모리 기반 연산을 통해 Hadoop에 비해 실시간 데이터 처리 성능을 높인 플랫폼이다.
