🗓️ 프로젝트 기간
- 1차 개발(version1) : 2025.08.04 ~ 2025.08.22
- 2차 개발(version2) : 2025.09.11 ~ 2025.10.18
🏆 프로젝트 성과
-
2025 경기도 AWS 인공지능 전문인력 양성과정 프로젝트 발표회 최우수상 수상 ( 2025.08.22 )
-
2025 경기도 AI 청년 CONNECT Tech Day 경기도경제과학진흥원장상 최우수상 수상 ( 2025.10.23 )
👥 프로젝트 팀원
-
version1 contributors
이름 박재원(PM) 박세현 이경민 허서현 황예현 역할 FE, 로컬AI AI BE, 아키텍팅 디자인 DS -
version2 contributors
이름 박재원(PM) 권민구 김성민 이경민 허서현 황예현 역할 FE, 로컬AI AI 디자인, FE BE, 아티텍팅 IR 자료제작 시장분석
저희 서비스의 출발은 영화 아이언맨이었습니다.
토니 스타크가 조력자 자비스를 단순한 제스처와 음성으로 제어하는 장면은, “비접촉 제어가 현실화된다면 얼마나 유용할까?”라는 영감을 주었습니다.
비접촉 제어 서비스의 실생활 적용 가능성과 시장성을 검증하기 위해 자체적으로 데이터를 분석했습니다. 데이터를 크롤링 기법을 통해 직접 수집하고, AWS의 Sagemaker를 통해 머신러닝 기반 분석을 진행했습니다.
- 수집 방식: 웹 크롤링
- 수집 범위: 2023 ~ 2025년 공개 보도자료·공개 요약 페이지
- 데이터 크기: 약 100개의 수치 데이터
- 주요 출처 : Precedence Research, Custom Market Insights, Grand View Research, Fortune, TBRC, Mordor, Towards Automotive
📊 모션제스처 사용사례 분석결과, 수술실, 클린룸, 특수환경장비 (예) Gorilla Glass 기반 기기) - 다음과 같은 환경에서 비접촉 제어는 단순 편의가 아니라 필수 요건임을 확인했습니다.
📊 모션제스처 사업의 성장현황에 대한 분석결과,
- 시장 규모는 2025년 약 257억 달러에서 → 2034년 약 344억 달러로 성장
- 연평균성장률(CAGR)은 무려 19%로 예측
이를 통해 모션 제스처는 단순한 유행이 아니라, 지속적으로 성장하는 글로벌 산업 트렌드임을 확인할 수 있었습니다.
제스처기반 비접촉 제어기술이 상용화되어 성공한 사례는 AR/VR, 자동차, 헬스케어, 스마트홈, 게임 분야로 다양했지만, 이런 모션제스처 기술을 범용적으로 지원해주는 서비스는 부재하다는 문제를 마주 할 수 있었습니다.
하지만 일상적인 상황에서도 비접촉 제어의 필요성은 다양합니다. 다음은 실제로 팀원들이 일상생활속 비접촉 컴퓨터제어 서비스가 필요하다고 느낀 순간들입니다. 따라서 저희는 범용적으로 누구나 일상생활에서 사용할 수 있는 모션제스처 기술 서비스를 만들고자 했습니다.
비접촉제어 범용 서비스를 기획하면서 다음과 같은 잠재적 문제를 예상하였고, 이에 대한 보완책을 마련하여 서비스를 완성했습니다.
- 컴퓨터 제어의 도구로 제스처 단독 사용 시 높은 오류 가능성 ➡️ 음성제어 기능을 도입하여 보조적인 제어도구로 활용
- 로컬 컴퓨터를 제어한다는 특성상 보안·권한 문제 발생가능성 ➡️ 비접촉 얼굴인증 기능을 도입하여 권한 관리 및 사용자 인증을 강화
또한 이러한 대응 방안이 실제로 타당한지 검증하기 위해, AWS Sagemaker를 활용하여 모션 제스처 서비스 관련 사례 데이터 분석을 추가적으로 진행하였습니다.
- 수집 방식: 웹 크롤링 (requests + BeautifulSoup, Selenium 등 활용)
- 수집 범위: 2023~2025년 공개 문서/뉴스/가이드라인
- 데이터 크기: 총 1,200 문서, 약 2.5M 토큰
- 주요 출처 : 질병관리청 감염관리 지침 / WHO, CDC 공식 가이드 문서 / 메디칼타임즈, 메디게이트 뉴스 기사 / 클린룸 관련 기업(예: TSI, Honeywell) 백서
📊 데이터 분석결과
- 제스처에 보조 수단(자막, 음성) 을 결합하면 오류 확률이 20%에서 2% 이하로 크게 감소
- 특히 음성은 제스처보다 더 직관적이고, 강력한 제어 수단으로 작동
더불어 얼굴인식 또한 사용자의 얼굴이라는 고유한 생체정보를 활용하여 인증·인가·권한처리를 수행하고 기존의 로그인 방식을 결합하여 MFA 다중인증 수준의 보안성을 확보할 수 있을 것이라는 기대를 하게 되었습니다.
결과적으로 정립된 시그마(Sigma) 서비스는 " 범용 사용자들을 위한 비접촉 컴퓨터 제어 서비스 " 입니다.
- 가장 주된 방식으로, 모션 제어(gesture)를 통해 제스처로 마우스를 대체합니다. ✋🏻
- 더불어 보조적인 음성 제어(voice)를 통해 직관적인 사용성을 제공하고, 키보드를 대체하며 오류를 보완하도록 합니다. 🔊
- 마지막으로 기능 사용 전에 얼굴인증을 통해 비접촉식 MFA로 보안을 강화하고자하였습니다. 🙂
즉, 얼굴 + 모션 + 음성을 결합하여 누구나 사용할 수 있는 완전한 비접촉 환경을 제공하는 것이 저희 시그마의 최종 목표입니다.
사용자는 Google OAuth를 통해 간단히 서비스에 로그인합니다. 계정 선택 후 인증 절차가 완료되면, 서비스 접근이 가능해집니다.
- 최초 로그인 후 사용자는 자신의 얼굴을 등록합니다. 얼굴 등록이 실패하면 업로드된 이미지는 즉시 삭제됩니다. 등록이 성공하면 S3에 안전하게 저장되고, 사용자 정보에 얼굴 데이터가 반영됩니다. 👉 추후 얼굴 인증 및 MFA(다중 인증) 기반 권한 제어에 활용
- 서비스 이용 시, 사용자는 등록된 얼굴 정보로 인증을 진행합니다. 인증 실패 시 업로드 이미지는 삭제되고, 성공 시 사용자 기반 세션이 발급됩니다. 세션은 일정 시간(30분) 동안 유효하며 이후 재인증이 필요합니다. 👉 비접촉 방식으로 사용자 보안 강화, 자동 세션 관리
로그인 및 인증 완료 후 홈 화면에 진입합니다.
- 사용자 정보: Google 프로필 및 요금제(추후 유료 모델 확장 가능) 확인.
- 트래킹 기능: 카메라를 통한 실시간 손동작 추적 활성화.
- 모션 설정: 사용자가 특정 손동작을 클릭, 붙여넣기 등 컴퓨터 제어 동작과 매핑 가능. ( 중복된 모션정의는 에러로 제어 )
👉 실제 마우스/키보드 입력을 대체하는 비접촉식 인터랙션
사용자의 손동작(제스처)이 실시간으로 인식되어 컴퓨터 제어 동작으로 매핑됩니다.
👉 제스처와 음성을 결합하여 오류를 줄이고 직관적인 사용성을 제공
사용자가 음성 제스처(엄지+약지)를 취하면 음성인식 모드가 활성화됩니다. 이후 발화한 명령어가 시스템 제어로 반영됩니다.
- 확장성을 고려한 flutter 프레임워크 이용 & Figma로 UI 디자인
- 로컬 컴퓨터 제어를 위한 python 스크립트 작성
- pyautogui를 이용한 마우스 제어 & pyperclip을 이용한 클립보드 접근
- cv2, MediaPipe를 이용한 손 랜드마크 추출 & pyqt를 이용해 손 랜드마크 오버레이 표시
- subprocess를 이용한 AWS Bedrock FM(Nova)으로부터 받은 시스템 명령어 실행
- Java17기반 Springboot 3.3.2 - webclient를 사용하여 외부 AI서버와 통신
- 서버 배포운영환경은 AWS의 주요 리소스인 EKS, Aurora DB, S3를 사용하여 안정적이고 확장가능한 서버환경을 구축
- Route53을 통해 고유 도메인을 발급받고 ACM으로 TLS인증서를 적용하여 안전한 Https통신을 보장
- DevOps환경을 위한 CI/CD 파이프라인을 구축 : Git webhook으로 트리거 -> Jenkins 빌드 파이프라인 -> Docker image ECR에 저장 -> ArgoCD는 GitOps기반 반자동화 배포
- AWS Rekognition의 얼굴 감지와 유사도 검사 기능을 통해 얼굴 인증 기능을 구현
- AWS Transcribe streaming을 이용한 음성 실시간 전사
- AWS Bedrock FM(AWS Nova)를 이용한 사용자 명령에 대한 시스템 명령어 변환 + Local Agent를 이용해 사용자 명령의 부족한 정보를 취합
- AWS SAM을 이용해 람다 배포, API 게이트웨이를 이용해 AI 백엔드 서버 배포
- AWS Transcribe Streaming 기반
- 웹소켓 기반 스트리밍 방식 → 기존 8초 지연 문제 해결
- 오버랩(Overlap) 기법으로 청크 간 단절 보완 → 정확도 + 실시간성 확보
- Bedrock 기반 LLM + 로컬 에이전트 동작
- 로컬 정보(운영체제, 파일 경로 등) 필요 시 → 로컬 에이전트가 보완 후 전달
- AI 서버 ↔ 로컬 컴퓨터 간 정보 단절 문제 해결
-
얼굴인증구조
- 2단계 얼굴인증구조 : 1단계 detect( 인증가능한 정면 인간 얼굴 여부 확인 - 필터링, 유효성 확인 ) ➡️ 2단계 verify( 사용자 등록 얼굴과 일치 여부 확인 )
- Rekognition의 처리 호출은 반드시 private subnet에 위치한 EKS 백앤드로직을 거쳐 실행 → API 요청 무단 우회를 방지하고 안정성, 통제력 확보
-
데이터 처리
- Presigned URL을 통한 S3 업로드 : 퍼블릭 접근을 모두 차단한 private S3상태를 유지하면서 업로드 작업을 서버 중앙화하지 않고 부하분산
- UserID 기반 경로 검증
-
네트워크 보안
- public 업로드 경로 : 외부 프론트에서 presigned URL을 통해 S3에 즉시 업로드 처리
- private 관리경로 : EKS ↔ S3는 VPC Endpoint 기반 AWS 내부망 통신 / 민감 작업(삭제·관리)은 인터넷을 거치지 않음, 더불어 NAT 게이트웨이 미사용으로 보안 + 비용 최적화
-
인증 지속성 : 비접촉식 MFA
- 로그인을 통한 accessToken과 별도로 관리되는 FaceSession을 발급
- 비접촉식 MFA 이중인증으로 활용가능 ( Oauth기반 서비스 사용자 로그인 + 얼굴인증기반 기능사용자 로그인 )
- 실시간 모션 트래킹 기반 손동작 제어
- Google MediaPipe Hand Landmarker를 이용한 손 랜드마크 감지
- 기본 제스처 정의(클릭, 스크롤, 붙여넣기 등) + 동작 지정 가능
- 로컬 내부 통신을 이용하여 통신 지연 최소화 & 직관적 사용자 경험 제공
SIGMA Version 2는 태블릿 기반의 모바일 플랫폼 환경으로 확장되었습니다. 📲
태블릿은 우리의 일상 속 다양한 환경에서 사용되며, 정밀함보다는 편의성이 가장 중요한 디바이스로, SIGMA가 제공하는 비접촉 제스처·음성 기반 제어 기술이 가장 큰 효용을 발휘할 수 있는 환경입니다.
이제 SIGMA는 태블릿을 통해 유튜브와 인스타그램 등, 수십억 명이 매일 사용하는 글로벌 모바일 플랫폼 위에서 새로운 사용자 경험을 제공하는 서비스를 목표로 합니다. 🌎✨
-
다각도 얼굴 분석 로직 고도화 : 사용자 얼굴 등록 시 단일 정면 사진만 사용하던 구조에서 정면·좌측·우측 3장의 이미지를 수집하여 Rekognition 컬렉션에 저장 ➡️ 조명, 각도 변화에도 안정적으로 얼굴을 매칭할 수 있게 되어 실시간 환경에서 인식률이 크게 향상됨
-
Threshold 조정으로 오인식 최소화 : SimilarityThreshold 파라미터(유사도 임계값)를 기존 80 → 93 이상으로 상향 조정하여 유사 인물간의 잘못된 매칭을 줄이고 보안강도 및 인증 정확도 강화
💬 [ Bedrock ]
- 명령 히스토리(캐시) 저장기반 명령변환 최적화 : 사용자의 반복 명령 패턴을 캐시로 저장해 빠르게 매핑하도록 개선, LLM 호출 빈도를 줄여 평균 응답 지연을 95.8% 단축⚡️
"애플홈페이지 열어줘" 명령에 대한 처리속도
적용전 : 770ms
적용후 : 32ms
🎙️ [ Transcribe ]
- Speaker Label 및 노이즈 필터링 강화 : ShowSpeakerLabel 활성화로 실생활 소음(가전, TV, 대화 등)에 의한 오탐지를 감소.
- 필러 단어(Filler Word) 정제 로직 추가 : “음”, “저”, “그”, “있잖아” 등 비의미적 발화(Disfluency) 를 자동 제거하는 후처리 파이프라인 구현하여 명령에 대한 핵심 지시어만 추출되어 LLM 전송 전 정제품질 향상
-
EKS에서 ECS(Fargate Type)로 마이그레이션 : 관리형 인프라로 유지보수 부담 감소시키고, AWS 생태계 서비스(CloudWatch, ALB, Parameter Store 등)와의 통합성을 강화
-
WebSocket Gateway 환경에서 gatewayToken 기반 인증 구조 설계 : $connect단계에서 Lambda를 통한 HMAC 검증 로직을 적용하여 비인가 접근 차단, Public endpoint에서도 안전한 실시간 양방향 통신 채널 확보 🔐
-
플랫폼 변환 : Window app ➡️ iOS app 태블릿 환경에 최적화된 iOS 플랫폼으로 전환, UX 전반을 재설계
-
커서 안정화 및 손떨림 제거
- 손목 기준 움직임 감지: 손가락만 움직일 때 커서 위치 유지
- 지수이동평균(EMA) 스무딩: 가중치 0.3으로 부드러운 커서 이동
- 2단계 안정화: 미세 움직임(< 0.006) 5프레임 유지 시 커서 완전 고정, 큰 움직임(> 0.025) 감지 시 즉시 해제
- 떨림 방지 영역(DEADZONE 0.11): 제스처 시작 후 일정 범위 내 미세 움직임 무시























