Azure 상식

Azure Data Platform 이해 및 서비스 개요

ktzzang0601 2025. 8. 11. 16:36

1. Azure Data Platform 이란?

  • Azure 데이터 플랫폼은 데이터베이스, 데이터 저장 및 분석을 위한 다양한 데이터 서비스를 제공하며, 다양한 작업에 Azure Virtual Machine 을 활용합니다 . Azure 스택의 모든 요소를 포함합니다. 이 플랫폼을 사용하면 모든 데이터에 대한 단일 진실 소스를 구축하거나 BI, 보고 AI/ML, 실시간 분석과 같은 혁신적인 솔루션을 스트리밍할 수 있는 기반 제품입니다.

 

2. 이점

  • 확장성 및 탄력성: Azure Data Platform은 변화하는 데이터 수요에 맞춰 쉽게 확장하거나 축소할 수 있습니다.
  • 비용 효율성: 사용량에 따라 비용을 지불하는 가격 모델을 사용하면 사용량에 따라 비용을 최적화할 수 있습니다.
  • 보안 및 규정 준수: Azure는 강력한 보안 기능과 규정 준수 인증을 제공하여 데이터를 보호합니다.
  • 다른 Azure 서비스와의 통합: 데이터 시각화를 위한 Power BI, 고급 분석을 위한 AI 서비스 등 다른 Azure 서비스와 원
    게 통합됩니다. 
  • 운영 부담 감소: 완전 관리형 서비스는 인프라 관리를 담당하므로 고객은 핵심 사업에 집중할 수 있습니다. 
  • 더 빠른 통찰력 확보 시간: 빠른 데이터 처리, 분석, 시각화를 위한 도구와 서비스를 제공하여 통찰력을 얻는 시간을 단축합니다. 

3. 사용사례

  • 실시간 분석: 사기 감지, 이상 감지 및 개인화된 추천을 위해 데이터 스트림을 분석합니다.
  • 데이터 웨어하우징 및 비즈니스 인텔리전스: 데이터웨어하우스를 구축하고 데이터 기반 의사 결정을 위한 대화형 대시보드를 만듭니다. 
  • AI와 머신 러닝: 이미지 인식, 자연어 처리, 예측 분석 등 다양한 애플리케이션을 위한 머신 러닝 모델을 개발하고 배포합니다. 
  • 데이터 통합 및 마이그레이션: 다양한 소스의 데이터를 통합하고 기존 온프레미스 데이터를 클라우드로 마이그레이션합니다. 
  • 사물 인터넷(IoT) 솔루션: IoT 기기의 데이터를 처리하고 분석하여 실시간 통찰력과 자동화를 제공합니다.
 

4. Azure Data Platform 서비스 특징

서비스명 특징
Azure Data Factory Data Factory는 디지털 혁신 이니셔티브 전체에서 작동하는 데이터 통합과 혁신 계층을 제공하는 서버리스 완전 관리형 서비스입니다. 기술 지식이 없는 통합 사용자와 데이터 엔지니어가 비즈니스 및 IT 주도의 분석/BI를 추진할 수 있는 역량을 갖추었습니다. 데이터를 준비하고, ETL 및 ELT 프로세스를 생성하고, 코드 없이 파이프라인을 오케스트레이션 및 모니터링합니다. 관리형 Apache Spark™ 서비스가 코드 생성 및 유지 관리를 처리합니다. 복사 작업을 자동화하는 지능형 의도 기반 매핑을 사용하여 더 빠르게 변환합니다.
Azure Event Hubs Azure Event Hubs는 짧은 대기 시간으로 어떤 원본에서 어떤 대상으로든 초당 수백만 개의 이벤트를 스트리밍할 수 있는 클라우드의 네이티브 데이터 스트리밍 서비스입니다. Event Hubs는 Apache Kafka와 호환됩니다. 코드 변경 없이 기존 Kafka 워크로드를 실행할 수 있습니다.
Azure Data Lake Storage Azure Data Lake Storage는 Azure Blob Storage를 기준으로 하는 빅 데이터 분석 전용 기능 세트입니다. 데이터 레이크는 정형 및 비정형의 모든 데이터를 저장할 수 있는 단일 중앙 리포지토리입니다. 조직에서는 데이터 레이크를 사용하여 단일 위치에서 다양한 데이터를 빠르고 쉽게 저장하고 액세스하고 분석할 수 있습니다. 데이터 레이크를 사용하면 기존 구조에 맞게 데이터를 구성할 필요가 없습니다. 대신 데이터를 일반적으로 파일 또는 Blob(Binary Large Object)에 해당하는 원시 또는 네이티브 형식으로 저장할 수 있습니다.
Azure Data Lake Storage는 클라우드 기반 엔터프라이즈 데이터 레이크 솔루션입니다. 이 솔루션은 모든 형식으로 대량의 데이터를 저장하고 빅 데이터 분석 워크로드를 용이하게 하도록 설계되었습니다. 다양한 프레임워크를 사용하여 쉽게 액세스 및 분석할 수 있도록 단일 위치에서 모든 형식과 수집 속도의 데이터를 캡처하는 데 사용합니다.
Azure Data Lake Storage는 전용 서비스 또는 계정 유형이 아닙니다. 대신 Azure Storage 계정의 Blob Storage 서비스와 함께 사용하는 기능 집합으로 구현됩니다. 계층 구조 네임스페이스 설정을 사용하도록 설정하여 이러한 기능을 잠금 해제할 수 있습니다.
기본적으로 Apache HDFS(Hadoop 분산 파일 시스템)를 데이터 액세스 계층으로 사용하는 모든 프레임워크에서 사용할 수 있도록 설계되어, 빅데이터 분석에 최적화되어있는 서비스입니다.
Azure Cosmos DataBase Azure Cosmos DB는 지역 복제 분산 캐싱에서 백업 스토리지, 벡터 인덱싱 및 검색에 이르기까지 운영 데이터 요구 사항에 대한 단일 데이터베이스가 됨으로써 애플리케이션 개발을 간소화하고 신속하게 처리합니다. 또한 AI 에이전트, 디지털 상거래, 사물 인터넷 및 예약 관리와 같은 최신 애플리케이션을 위한 데이터 인프라를 제공합니다. 관계형, 문서, 벡터, 키-값, 그래프 및 테이블을 비롯한 모든 운영 데이터 모델을 수용할 수도 있습니다. 
반복 개발을 위한 유연한 스키마, 대기 시간이 중요한 워크로드, 매우 탄력적인 워크로드(콘서트 티켓 예약 서비스), 높은 처리량 워크로드(원격 장비 상태 분석), 고가용성 중요 업무용 워크로드(web App)에 적합합니다.
Azure Data Warehouse 데이터 웨어하우스는 보고 및 분석을 위해 정형 데이터(데이터베이스 테이블, Excel 시트) 및 반정형 데이터(XML 파일, 웹 페이지)를 저장하는 중앙 집중식 리포지토리입니다. 데이터는 POS(Point-Of-Sale) 시스템, 비즈니스 응용 프로그램 및 관계형 데이터베이스와 같은 다양한 원본에서 수집되며, 일반적으로 웨어하우스에 도달하기 전에 정리 및 표준화됩니다. 데이터 웨어하우스는 많은 양의 정보를 저장할 수 있으므로 데이터 웨어하우스를 사용하면 데이터 마이닝, 데이터 시각화 및 기타 형태의 비즈니스 인텔리전스 보고에 사용할 수 있는 다양한 기록 데이터에 쉽게 액세스할 수 있습니다.
Azure Stream Analytics Azure Stream Analytics는 대기 시간이 밀리초 미만인 대용량 스트리밍 데이터를 분석 및 처리하도록 설계된 완전 관리 스트림 처리 엔진입니다. Stream Analytics를 사용하여 스트리밍 데이터 파이프라인을 빌드하여 애플리케이션, 디바이스, 센서, 클릭스트림 및 소셜 미디어 피드를 비롯한 다양한 입력 원본에서 발생하는 데이터의 패턴과 관계를 식별할 수 있습니다. 그런 다음 이러한 패턴을 사용하여 작업을 트리거하고 경고 발생, 보고 도구에 정보 제공, 나중에 사용하기 위해 변환된 데이터 저장 등의 워크플로를 시작할 수 있습니다. Stream Analytics는 IoT 디바이스에서 직접 데이터를 처리할 수 있도록 하는 Azure IoT Edge 런타임에서도 사용할 수 있습니다.
급증, 하락, 느린 긍정적 및 부정적 변화를 검색하기 위한 센서 데이터의 이상 탐지, fleet 관리 및 드라이버가 없는 자동차에 대한 지리 공간적 분석, 원격 모니터링 및 높은 가치 자산의 예측 유지 관리, 스트림 분석을 클릭하여 고객 동작 확인, 애플리케이션 및 IoT 디바이스의 실시간 원격 분석 스트림 및 로그 분석에 주로 사용됩니다.
Azure Synapse Analytics Azure Synapse데이터 웨어하우스와 빅 데이터 시스템 전체에서 인사이트를 얻는 시간을 앞당길 수 있는 엔터프라이즈 분석 서비스입니다. Azure Synapse는 엔터프라이즈 데이터 웨어하우징에 사용되는 최고의 SQL 기술, 빅 데이터에 사용되는 Spark 기술, 로그 및 시계열 분석을 위한 Data Explorer, 데이터 통합 및 ETL/ELT를 위한 파이프라인, Power BI, CosmosDB  AzureML과 같은 Azure 서비스와의 긴밀한 통합을 결합합니다.
Azure AI Search Azure AI Search는 다른 유형의 콘텐츠를 인덱싱하고 API, 애플리케이션 및 AI 에이전트를 통해 검색할 수 있도록 하는 확장 가능한 검색 인프라입니다. 이 플랫폼은 Azure의 AI 스택(OpenAI, AI Foundry, Machine Learning)과 네이티브 통합을 제공하고 타사 및 오픈 소스 모델 통합을 위한 확장 가능한 아키텍처를 지원합니다.
이 서비스는 대화형 AI 애플리케이션에 대한 기존 검색 워크로드와 최신 RAG(검색 보강 세대) 패턴을 모두 처리합니다. 따라서 채팅 완성 모델을 통해 동적 콘텐츠 생성이 필요한 AI 기반 고객 환경뿐만 아니라 엔터프라이즈 검색 시나리오에도 적합합니다.
Azure Databricks Azure Databricks는 엔터프라이즈급 데이터, 분석 및 AI 솔루션을 대규모로 빌드, 배포, 공유 및 유지 관리하기 위한 통합된 개방형 분석 플랫폼입니다. Databricks Data Intelligence 플랫폼은 클라우드 계정의 클라우드 스토리지 및 보안과 통합되며, 클라우드 인프라를 관리하고 배포합니다. 엔터프라이즈 데이터 레이크하우스 빌드, ETL 및 데이터 엔지니어링, 기계 학습, AI 및 데이터 과학, 대규모 언어 모델 및 생성 AI, 데이터 웨어하우징, 분석 및 BI, 데이터 거버넌스 및 보안 데이터 공유, DevOps, CI/CD 및 작업 오케스트레이션, 실시간 및 스트리밍 분석 에 주로 사용됩니다.
Azure Machine Learning Azure Machine Learning은 ML(기계 학습) 프로젝트 수명 주기를 가속화하고 간편하게 관리할 수 있는 클라우드 서비스입니다. ML 전문가, 데이터 과학자 및 엔지니어는 일상적인 워크플로에서 이를 사용하여 모델을 학습 및 배포하고 MLOps(기계 학습 운영)를 관리할 수 있습니다.
Machine Learning에서 모델을 만들 수도 있고 PyTorch, TensorFlow 또는 scikit-learn과 같은 오픈 소스 플랫폼에서 빌드된 모델을 사용할 수도 있습니다. MLOps 도구를 사용하여 모델을 모니터링, 재학습 및 재배포할 수 있습니다.
Azure Machine Learning에는 LLM(대규모 언어 모델)에서 제공하는 생성형 AI 애플리케이션을 빌드하는 데 도움이 되는 도구가 포함되어 있습니다. 솔루션에는 모델 카탈로그, 프롬프트 흐름 및 AI 애플리케이션의 개발 주기를 간소화하는 도구의 모음이 포함되어 있으며, Azure Machine Learning 스튜디오 및 Azure AI Foundry를 모두 사용하여 LLM을 사용할 수 있습니다. 

 

5. 참고 문서