040101 Data Integration Basics
2023-04-10
위 벳지는 수강을 완료하고 받은 뱃지입니다.
Get Data into the EMS
01 Set up a Data Pipeline
Data Integration Basics
REQUIRED |
---|
25min |
Get a brief overview of what Data Integration is for and how it works. |
1 학습 목표
11 학습 목표
- 데이터 통합의 용도 이해
- 데이터 통합 작동 방식의 기본 이해
- “실시간” 데이터 통합의 의미와 사용 사례 이해
2 필요한 데이터 식별
21 데이터 통합이란 무엇입니까?
데이터 통합(이전에는 Event Collection이라고 함)에서 작업하는 데이터 엔지니어 또는 분석가는 깨끗한 실시간 프로세스 데이터를 EMS로 가져올 책임
이 있습니다 . 즉, 데이터 파이프라인을 구축합니다 .
“그게 왜 중요해”라고 생각하실 텐데요? 글쎄요, 당신이 가져온 프로세스 데이터가 다른 사람들이 분석하고 조치를 취할 수 있는 바로 그 기반이 되기 때문입니다 .
이 데이터가 없으면 EMS 내에서 다른 활동을 수행할 수 없으며 프로세스를 마이닝, 개선, 조치 또는 자동화할 수 없습니다.
22 “프로세스 데이터”란 무엇입니까?
핵심에서 프로세스 데이터는 하나의 특정 사례 또는 개체를 따르는 타임스탬프가 있는 일련의 연결된 활동
입니다. 모든 활동은 "이벤트"
이며 귀하의 임무는 이러한 이벤트를 수집 하고 올바른 순서로 구성
하는 것입니다.
인간의 언어로 번역하면 온라인 쇼핑의 프로세스 데이터를 생각하면 주문, 포장, 배송, 결제와 같이 주문한 항목이 거치는 단계를 추적 하고 각 단계가 발생하는 시점을 추적하는 것을 의미합니다.
활동 테이블
주문한 항목에 발생하는 모든 활동 또는 단계는 IT 시스템에 기록되고 디지털 발자국을 남깁니다 . 때때로 활동 데이터는 하나의 시스템에서 가져오지만 대부분의 경우 여러 시스템에 있습니다. 어느 쪽이든 “활동 테이블”에서 활동을 함께 가져옵니다. 이벤트 로그라고도 하는 이 활동 테이블
은 프로세스 데이터의 핵심이며 데이터 통합에서 구축하는 것입니다.
추가 테이블: 사례 테이블 및 기타
활동 테이블 위에는 주문한 모든 항목(예: 모든 “사례”)을 가리키는 사례 테이블 과 판매자, 제품 세부 정보와 같은
추가 컨텍스트를 제공하는 기타 마스터 데이터
테이블과 같은 추가 테이블도 있습니다. 등등.
다중 프로세스
더 복잡한 경우에는 연결된 여러 프로세스를 함께 가져옵니다 . 예를 들어 주문 관리와 같은 온라인 쇼핑 프로세스의 일부는 미수금 프로세스
와 관련될 수 있습니다.
최종 결과는 데이터 모델입니다.
사물의 데이터 측면에서 이는 하나 이상의 활동 테이블, 사례 테이블 및 마스터 데이터 테이블
을 생성함을 의미합니다. 그런 다음 데이터 모델 에서 서로 연결
합니다 .
3 데이터 파이프라인 구축
31 데이터 모델은 어떻게 구축됩니까?
좋아, 프로세스 데이터가 당신이 추구하는 데이터인데, Celonis로 가져오려면 무엇이 필요할까요? 이것이 바로 데이터 통합의 목적입니다. 소스 시스템에 연결하고 , 관련 데이터를 추출하고 , 필요에 따라 변환 하고, 세련된 데이터 모델로 로드하는 데 도움이 됩니다 . 데이터 모델을 EMS의 다른 모든 작업에 대한 연료로 생각할 수 있습니다
. 준비가 완료되면 팀에서 이를 선택하여 분석 및 조치를 시작할 수 있습니다.
4 데이터 파이프라인 개선
41 데이터 파이프라인 개선
데이터가 데이터 모델에 로드되면 작업이 완료됩니까? 정답은 아닙니다. 데이터 모델을 구축할 때 유효성 검사 , 예약 , 모니터링 및 성능 최적화
도 담당해야 합니다 . 즉, 다음 질문에 반복적으로 답해야 합니다.
- 데이터가
정확
합니까 ? - 올바른 데이터가 올바른 간격으로 새로 고쳐지도록 예약되어 있습니까 ?
- 추출, 변환 및 데이터 모델 로드가 최대한 빠르고 안정적입니까 ?
- 프로세스를 강화할 수 있는 다른 데이터가 있습니까 ?
즉, 데이터 통합
에서 Celonis 구현을 위한 데이터 파이프라인 기반을 마련하고 지속적인 최적화 및 확장을 담당
합니다.
데이터 기반이 강력하고 성능이 높을수록 팀은 EMS의 실행 기능을 더 빠르고 안정적으로 활용할 수 있습니다.
42 작업 속도 향상
데이터 통합 작업 속도를 높이기 위해 Celonis는 가장 일반적인 프로세스 및 시스템을 위한 “ 프로세스 커넥터
“를 제공합니다.
Process Connectors에는 데이터 파이프라인 구축의 연결, 추출, 변환, 로드 및 예약 단계를 지원
하는 템플릿과 스크립트가 포함되어 있습니다. 다음은 각 단계에서 예상되는 사항에 대한 아이디어입니다.
43 UI 살펴보기
Data Integration의 인터페이스는 데이터 파이프라인 구축 프로세스를 단계별로 안내하도록 설계되었습니다. 왼쪽에서 오른쪽으로 흐릅니다.
각 레이블을 클릭하면 각 UI 영역에 대한 기본 정보를 얻을 수 있습니다.
Navigation
ConnectExtract
Transform
LoadDataModels
StudioPackages
5 실시간 데이터 파이프라인
51 실시간 - 무엇을 왜
실시간이란 무엇입니까?
이제 데이터 통합의 기본 사항을 이해했으므로 Celonis가 “실시간”으로 의미하는 바를 살펴보겠습니다.
데이터 파이프라인을 구축할 때 Celonis는 실시간 추출 및 변환 기능을 제공합니다 . 간단히 말해서 실시간이란 EMS가 원본 시스템 (예: SAP, Salesforce, 데이터베이스, Azure Event Hub, Azure Service Bus
) 의 데이터 증분 변경 사항을 추적
하고 자주 복제
할 수 있음을 의미합니다. 이렇게 하면 EMS에서 변경 사항을 확인하는 빈도에 따라 몇 분마다 새 데이터가 제공
됩니다. 반대로 비실시간 데이터 파이프라인은 일반적으로 대부분 예약된 전체 로드를 기반으로 합니다.
왜 실시간인가?
실시간 파이프라인의 주요 목표는 사용자가 데이터에 대해 운영적으로 조치
를 취하는 것입니다. 즉, Celonis Execution Apps 또는 조치가 필요한 기타 유사한 자산을 사용하는 일상적인 작업을 위한 것입니다 . 거의 실시간에 가까운 데이터 업데이트*를 통해 사용자는 즉시 조치를 취하고 비즈니스에 미치는 영향을 극대화할 수 있습니다. 실시간의 또 다른 이점은 일반적으로 소스 시스템에 대한 로드 부담이 적다는 것입니다. *참고 - 실시간 새로 고침이 가능한 정도는 소스 시스템에 따라 크게 다릅니다. 다음 페이지에서 자세한 내용을 확인하십시오.
처음부터 실시간
Celonis는 가능한 한 EMS 기능의 가치를 극대화하기 위해 처음부터 실시간 설정을 목표로 할 것을 권장합니다. 초기에 프로젝트에 실시간 데이터가 필요하지 않더라도 많은 분석 또는 프로세스 마이닝 프로젝트가 결국 운영 또는 실행 사용 사례로 발전한다고 가정하는 것이 안전합니다. 처음부터 실시간 파이프라인을 설정하면 나중에 마이그레이션 작업을 줄일 수 있습니다.
52 운영 및 분석 데이터 모델
운영 데이터 모델
실시간 연결로 작업할 때 동일한 데이터를 기반으로 두 개 이상의 데이터 모델을 설정할 가능성이 높습니다. 이는 가장 최근
의 널리 퍼진 사례만 검사하는 제한된 데이터 범위의 운영 데이터 모델
을 원할 수 있기 때문입니다. 로드하는 데이터와 해당 기간을 제한함으로써 데이터 모델이 거의 실시간으로 업데이트되어 사용자가 조치를 취할 수 있습니다. 즉, 운영 데이터 모델은 더 작고 더 빨리 로드되며 비즈니스 사용자가 일상적인 비즈니스에서 사용하는 모델입니다 .
분석 데이터 모델
동시에 데이터를 정기적으로 완전히 로드하는 전체 범위의 분석 데이터 모델
을 가질 수 있습니다. 이 모델을 사용하여 분석가는 프로세스를 드릴다운하고 패턴을 찾고 필터링하는 등의 작업을 수행할 수 있습니다. 이러한 “사후”(사후) 분석에는 반드시 실시간 데이터가 필요한 것은 아닙니다. 오프 시간 동안 일정에 따라 이 데이터 모델을 새로 고칠 수 있고 새로 고칠 때마다 전체 데이터를 가져올 수 있습니다.
하나의 데이터 모델에 모든 것을 포함하지 않는 이유는 무엇입니까?
현재 실시간 데이터 통합은 데이터 모델 로드가 아닌 추출 및 변환 단계에만 적용됩니다 . 데이터 모델 로드의 경우 변경 사항만 있는 테이블 업데이트는 현재 가능하지만 일정을 사용하는 경우에만 가능합니다. 이는 향후 변경될 수 있습니다.
이 문제를 해결하고 로드 시간을 최소화하기 위해 Celonis는 데이터 범위를 다음과 같이 줄이는 더 작은 운영 데이터 모델을 생성할 것을 권장
합니다.
- 필수 테이블 및 열(예: 활동 및 사례 테이블),
- 필요한 시간 범위,
- 운영 업무에 필요한 경우.
그런 다음 이 축소된 데이터 모델을 설정하여 가능한 가장 높은 빈도로 로드할 수 있습니다.
53 실시간의 주요 이점
프로젝트에서 실시간 파이프라인을 구축하면 많은 질문이 제기될 수 있습니다. 다음은 적용되는 데이터 통합의 두 단계에 대한 실시간의 이점에 대한 간략한 개요입니다.
발췌
- 더
빠른
추출 성능 - 소스 시스템의 기본 기능을 사용하여 변경 사항을 추적하고 추출하므로 소스 시스템에 대한
부담이 줄어듭
니다. - 통합 초기를 제외하고 전체 추출이 거의 필요하지 않습니다.
변환
-
더 빠른 변환 성능
-
전체 테이블 변환 필요성 크게 감소
-
견고하고 오류 없는 변환
-
예측 가능한 런타임
단점이 있습니까?
“미개발”(신규) 프로젝트의 경우 짧은 대답은 ‘아니오’입니다. 실시간은 더 높은 성능과 안정성을 제공
하고 소스 시스템의 시스템 로드를 낮춥니다
(자세한 내용은 도움말 설명서 FAQ 페이지 참조 ). 실시간 연결, 추출 및 변환을 설정하는 데 조금 더 많은 시간을 투자해야 하지만 장기적으로는 그만한 가치가 있습니다. 일반 파이프라인과 마찬가지로 Celonis는 Marketplace의 Process Connector를 사용하여 실시간 파이프라인을 가능한 한 쉽게 설정할 수 있도록 합니다.
일부 시스템에서는 실시간을 사용할 수 없으며 현재 SAP, Salesforce, JDBC(데이터베이스), Azure Event Hub, Azure Service Bus 및 Kafka에서만 사용
할 수 있습니다. 또한 이러한 각 시스템에 대한 실시간 이면의 접근 방식은 소스 시스템의 기능에 따라 다릅니다.
기존 파이프라인 마이그레이션
고도로 맞춤화된 파이프라인에서 실시간 파이프라인으로 마이그레이션하는 것은 어려울 수 있습니다. 마이그레이션 프로젝트에서는 스테이징과 프로덕션의 분리와 함께 변경 사항을 철저히 검증하는 것이 좋습니다. 다음은 그린 필드 프로젝트와 마이그레이션 프로젝트 간의 복잡성 차이에 대한 개요입니다.
마이그레이션이 모든 것을 변경해야 한다는 의미는 아닙니다. 이는 운영 데이터 모델에 필요한 테이블에 대해 실시간을 설정
해야 함을 의미합니다 .
실시간 추출 및 변환을 설정하는 방법에 대해 자신과 팀을 가장 잘 준비 하려면 특정 시스템에 대한 도움말 문서와 함께 “ 데이터 추출 “ 및 “ 데이터 변환 “ 과정 을 살펴보십시오 .
다음으로 데이터 통합에 대해 배운 내용을 테스트해 보겠습니다.
6 배운 내용 확인 및 요약
61 배운 내용 확인 - 데이터 통합 기본 사항
62 요약
다음은 우리가 다룬 내용을 간략히 요약한 것입니다.
데이터 통합의 주요 목적은 프로세스 데이터를 기반으로 데이터 모델을 구축하는 것입니다.
활동 테이블
은 데이터 모델의핵심
입니다.- 데이터 모델 구축의 주요 단계:
연결, 추출, 변환 및 로드
. - Celonis Marketplace는 가장 일반적인 시스템 및 프로세스에 대한 데이터 모델 구축 작업을 신속하게 수행할 수 있도록
프로세스 커넥터를 제공
합니다. - 처음부터
실시간 데이터 파이프라인을 목표
로 하는 것이 나중에 마이그레이션하는 것보다 쉽습니다. - 실시간 데이터 파이프라인은
운영 사용 사례를 위한 것
이며 데이터 통합의 추출 및 변환 단계에 사용할 수 있습니다. 피드백 페이지를 방문하는 것을 잊지 마십시오 . 귀하의 피드백은 선택 사항 이지만 대단히 감사합니다.