기존의 OCR 류의 서비스는 양식이 정해진 문서를 대상으로 하고, 타케팅된 정보만을 추출하여 시사점을 발굴하는 케이스까지는 못 만들었는데요, 이번 소개 사례에서는 여러가지 기능을 접목해서 "프로세스"단위의 효율성 개선된 사례를 보여드렸다고 이해해 주시면 좋겠습니다.
이러한 기능을 SAP ERP에서 사용하기 위해서 어떤 부분이 업그레이드되어야 하는지는 고객사의 상황에 따라 다를 수 있습니다. 저희가 알고 있기로는 Embedded AI (기존의 SAP standard application에 기성품 형태의 AI 기능 탑재)는 ECC나 On-premise 시스템은 적용이 안되는 제약이 존재하고, Customized AI는 ECC나 on-premise 시스템도 BTP와 연동될 수 있으므로 적용 가능하다고 알고 있습니다.
또한 사후 검증 포인트 자체는 사람이 고안해야 하고, 또한 사후 검증에 필요한 데이터 역시 어떠한 방식으로든 모델에 입력되어야 하는 이슈는 있습니다. 예를 들어 위/경도 정보를 이용하여 경비 사용처와 사업장 간의 거리를 구하기 위해서는 당연히 경비 사용처의 위/경도 정보 역시 시스템에서 관리되어야 합니다.
1. 어떤 데이터(e.g. ERP 내 데이터 등)를 가공하여 시계열 데이터로 확인할 수 있도록 한 것 일까요?
- 말씀해주신 내용 중에, 시계열 분석 등 '데이터 분석을 위해 중요한 부분이 데이터가 머신러닝 학습을 위해 깔끔하게 정리가 되어있고, 학습에 유의미한 데이터여야 한다'라는 내용이 있었는데, 해당 사례와 같인 분석을 진행하려면, ⓐ 기본적으로 어떤 데이터셋을 활용하나요? (ERP 내 데이터 등) ⓑ 머신러닝 학습 이전, 해당 데이터가 유의미한지 판단하는 기준 또는 해석은 무엇이 있나요?
2. 실제값과 사전/사후 예측을 비교할 때, ⓐ 해당 데이터 셋으로 유의미한 학습인지 여부를 판단하는 기준, ⓑ예측값에 대해 검증하는 기준 또는 방법에 대해 궁금합니다. e.g. ⓐ-1) 예측값이 오차 범위 내(±5%)
3. PPT 해당 장표 예시에 있는, '숨겨진 변수 차이'라 함은, 여러 외생 변수에 의한, 예측값 변동을 의미하는 걸까요 ?
2. 모델의 성능을 평가하는 방법은 많을 수 있습니다. 본 사례의 경우는 좀 직관적이고 설명이 편한 방법을 채택했습니다. 일차적으로 실적과 사전 예측이 가장 큰 Top L을 구하고, 이차적으로 Top N 중 사전 예측과 사후 검증의 값이 큰 Next Top M을 구한 다음, 마지막으로 사후 검증과 실제의 값이 큰 Top N을 구했습니다. 예측 모델은 성능도 중요하지만, 이 결과를 판단하고 해석하는 사람에 대한 설명도 중요하다고 생각해서 위와 같은 절차를 수행했습니다.
3. 여러 의미가 될 수 있습니다. 미처 모델에 포함하지 못한 변수 (예: 러시아-우크라이나 전쟁이나 이스라엘-하마스 전쟁의 영향)일 수도 있고, 사용했던 알고리즘 자체의 문제일 수도 있습니다. 이 역시 면밀한 판단이 필요하고, 이러기에 예측의 영역이 쉽지 않은 주제일 듯 합니다.