지속 가능한 AI를 위한 AIOps와 데이터 운영체계의 중요성

발표자: 정경순 대표, 아하랩스
전사 본문 표기: 정영순 대표, 아알에스

Summary

제조AI가 PoC 이후 꺼지는 이유는 모델 자체보다 데이터 원장 부재, 데이터 드리프트 감지 실패, 재학습/재배포 파이프라인 부재에 있다. 지속 가능한 AI를 위해서는 수집, 전처리, 모니터링, RCA, 라벨링, 재학습, 배포까지 전 생애주기를 표준화해야 한다.

핵심 메시지

  1. 한국 제조업은 AI 적용 조건이 좋지만 지속 운영이 어렵다.
    반도체, 디스플레이, 2차전지 등 통제된 대량 생산 환경은 AI 학습에 유리하지만, 많은 제조AI 프로젝트가 PoC에서 멈추고 양산 적용으로 이어지지 못한다.

  2. AI를 켜두지 못하는 이유는 데이터 운영 부재다.
    초기 정확도가 높아도 시간이 지나며 성능이 떨어지고, 원장 데이터가 없으면 왜 나빠졌는지 분석할 수 없어 처음부터 재학습하는 악순환이 생긴다.

  3. 데이터 드리프트는 제조AI의 핵심 운영 리스크다.
    조명, 카메라 초점, 렌즈 오염, 원자재 공급처 변경, 장비 노후화, 진동, 형광등 교체 같은 물리적 변화가 모델 입력 분포를 바꾼다.

  4. 무조건 재학습이 답은 아니다.
    카메라 초점이 틀어진 데이터를 모아 재학습하는 것은 문제를 해결하지 못한다. 물리 환경 문제인지 데이터 패턴 변화인지 RCA가 먼저다.

  5. Data Camp와 Daisy는 데이터 수집과 MLOps를 분리해 설명하는 좋은 프레임이다.
    Data Camp는 이종 설비 데이터를 표준 인터페이스와 레시피 기반으로 수집/전처리하고, Daisy는 모델 생성, 배포, 모니터링, 재학습을 관리한다.

지속 가능한 제조AI 운영 루프

flowchart LR
  Collect["원장 데이터 수집"] --> Context["공정 맥락 결합"]
  Context --> Monitor["데이터/모델 모니터링"]
  Monitor --> Drift["Drift 감지"]
  Drift --> RCA["근본 원인 분석"]
  RCA --> Action["현장 조치 또는 재학습"]
  Action --> Deploy["재배포"]
  Deploy --> Collect

데이터 운영체계 요구사항

요구사항설명
원장 데이터검사 과정에서 발생하는 실제 현장 데이터를 별도 저장해야 성능 저하 원인을 분석할 수 있다.
맥락 데이터타임스탬프, 셀 ID, 제품 시리얼, 공정 조건 등 문맥이 함께 저장되어야 한다.
선별 수집모든 데이터를 무작정 저장하지 않고 정상 샘플링, 불량/이상 의심 데이터 중심 수집 전략이 필요하다.
프로토콜 표준화OPC UA, MQTT, PLC 전용 프로토콜, GigE Vision 등 이종 장비 연동을 표준화해야 한다.
노코드 운영도메인 엔지니어가 직접 데이터와 모델 상태를 이해하고 조치할 수 있어야 한다.

제조AI 운영 인사이트

  • 모델 품질 모니터링은 최종 판정 정확도만 보는 것이 아니라 모델이 쓰는 핵심 feature 분포 변화를 봐야 한다.
  • 현장 택타임이 50ms~100ms 수준이면 거대 모델을 양산 장비에 직접 올리기 어렵다.
  • 거대 모델은 데이터 준비와 라벨링 품질 향상에 쓰고, 현장에는 경량 모델을 배포하는 투트랙이 현실적이다.
  • 액티브 러닝, 기존 모델 기반 자동 라벨링, foundation model 기반 자동 라벨링은 라벨링 병목을 줄이는 수단이다.

Tip

제조AI에서 AIOps는 장애 대응 도구가 아니라 데이터, 모델, 현장 조치, 재학습을 하나의 운영 루프로 묶는 체계다.

자료 첨부

  • 발표자료:
  • 사진:
  • 현장 메모:
  • 관련 링크:

권장 첨부 폴더:

content/40. Manufacturing AI/AI Factory Seminar 2026-07-02/attachments/

후속 질문

  • 기업별 제조 데이터 원장 구조를 어떻게 설계할 것인가?
  • 데이터 드리프트와 물리 설비 이상을 구분하는 RCA 템플릿이 필요한가?
  • 현장 엔지니어가 쓸 수 있는 노코드 MLOps 체크리스트는 무엇인가?
  • AI Native KMS에 모델 버전, drift 이벤트, 재학습 기록을 어떻게 남길 것인가?

관련 문서