분류AI 아래의 글

  • comfyUI/models/svd/
    svd.safetensors
    svd_image_decoder.safetensors
    svd_xt.safetensors
    svd_xt_image_decoder.safetensors

frames: 60 으로 설정
fps: 보통 6으로 고정 (모델 제한)
💡 만약 frames 대신 num_frames 라는 파라미터라면 동일하게 60으로 설정하세요.

정확한 요구사항을 받았습니다!
Windows 11 + RTX 4080 환경에서, First Order Motion Model (FOMM) 을 사용하여 사진 속 인물이 머리카락이 흔들리거나, 웃는 모습, 눈 깜빡임 등 자연스러운 움직임이 있는 동영상을 생성하는 전체 가이드 및 샘플 소스를 아래에 정리해 드릴게요.


✅ 목표

  • Windows 11 환경에서 GPU 활용
  • RTX 4080 기반 CUDA 12.x 지원
  • First Order Motion Model(FOMM) 설치 및 실행
  • 사진 → 머리카락 흔들림, 웃음, 눈 깜빡임 영상 생성
  • 무료 오픈소스 기반

🧰 필요한 도구 요약

항목설명
OSWindows 11
GPUNVIDIA RTX 4080
CUDA12.7 (기본적으로 설치됨)
Python3.9 or 3.10
PyTorchtorch==2.5.0+cu121 (CUDA 12.1 이상 호환 가능)
FOMMhttps://github.com/AliaksandrSiarohin/first-order-model
FFmpeg후처리용

🚀 Step-by-Step 설치 및 실행 가이드


🔧 1단계: 개발 환경 설정

1. Python 설치

python --version
pip --version

2. NVIDIA 드라이버 확인

nvidia-smi
위 명령어로 드라이버와 CUDA 버전 확인 (CUDA 12.7 이상)

3. PyTorch 설치 (CUDA 12.1 기준 — CUDA 12.7에서도 작동함)

공식 사이트에서 아래 명령어 복사:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

설치 확인:

python -c "import torch; print(torch.cuda.is_available())"

출력이 True라면 GPU가 정상적으로 인식되고 있음


📦 2단계: First Order Motion Model(FOMM) 설치

1. 소스 코드 복제

git clone https://github.com/AliaksandrSiarohin/first-order-model.git
cd first-order-model

2. 필요한 패키지 설치

pip install -r requirements.txt

필요 시 수동 설치:

pip install numpy opencv-python imageio configargparse

3. 사전 학습된 모델 다운로드

  • VoxCeleb2 256 모델

    • vox-cpk.pth.tar 파일 다운로드
    • 프로젝트 폴더 내 checkpoints/ 디렉토리에 넣기

🖼️ 3단계: 입력 파일 준비

1. inputs/source_image.jpg

  • 인물 사진 (고해상도, 얼굴 중심에 위치)
  • 예: inputs/source_image.jpg

2. inputs/driving_video.mp4

  • 표정 변화 또는 머리카락이 자연스럽게 움직이는 영상
  • 예: 유튜브에서 다운받은 사람 영상 중 웃는 장면 또는 바람 부는 장면
💡 샘플 드라이빙 영상이 필요하시면 알려주세요! 직접 제공 가능합니다.

🎬 4단계: AI 기반 움직임 생성 실행

기본 실행 명령어:

python demo.py --config config/vox-256.yaml \
               --checkpoint checkpoints/vox-cpk.pth.tar \
               --source_image inputs/source_image.jpg \
               --driving_video inputs/driving_video.mp4 \
               --result_video results/generated_video.mp4
이 스크립트는 드라이빙 영상의 움직임을 소스 이미지에 적용하여 영상을 생성합니다.

🎞️ 5단계: 결과물 확인 및 후처리

생성된 영상: results/generated_video.mp4

필요 시 SNS용 비율(9:16)으로 변환:

ffmpeg -i results/generated_video.mp4 \
       -vf "scale=1080:1920:force_original_aspect_ratio=decrease,pad=1080:1920:(ow-iw)/2:(oh-ih)/2" \
       results/output_9_16.mp4

📌 샘플 예제 소스 코드

run_fomm.bat (Windows 배치 파일 예시)

@echo off
set PYTHONPATH=%CD%
python demo.py ^
    --config config/vox-256.yaml ^
    --checkpoint checkpoints/vox-cpk.pth.tar ^
    --source_image inputs/source_image.jpg ^
    --driving_video inputs/driving_video.mp4 ^
    --result_video results/generated_video.mp4

실행 방법:

run_fomm.bat

📁 전체 폴더 구조 예시

first-order-model/
├── config/
├── checkpoints/
│   └── vox-cpk.pth.tar
├── inputs/
│   ├── source_image.jpg
│   └── driving_video.mp4
├── results/
│   └── generated_video.mp4
├── demo.py
└── requirements.txt

📦 결과물 예시

조건결과물 특징
드라이빙 영상: 웃는 표정사진 속 인물도 웃는 듯한 효과
드라이빙 영상: 바람에 머리카락 흔들림사진 속 인물의 머리카락이 자연스럽게 날리는 듯한 효과
드라이빙 영상: 고개 돌림 / 눈 깜빡임표정 변화 포함된 영상 생성 가능

🙋‍♂️ 질문 남겨주세요!

  • 드라이빙 영상 샘플이 필요하신가요?
  • 여러 장의 사진을 자동 처리하고 싶으신가요?
  • 자동으로 트랜지션 없이 순수 영상만 만들고 싶으신가요?

필요하시면 자동 처리 스크립트, 배치 작업 예제, 드라이빙 영상 샘플도 보내드릴 수 있어요 😊


GPU 환경이 잘 갖춰져 있으니 매우 빠르고 고화질의 결과물을 얻으실 수 있을 거예요!
궁금한 점 언제든지 물어보세요 👍

ChatGPT https://chatgpt.com
perplexity https://perplexity.ai
Genspark https://genspark.ai

Midjourney https://midjourney.com
Freepik https://freepik.com

Kling AI https://app.klingai.com
Hailuo https://hailuoai.video
Runway ML https://runwayml.com
SORA https://sora.chatgpt.com
Higgsfield https://higgsfield.ai
LumaLabs https://lumalabs.ai

ElevenLabs https://try.elevenlabs...

Hedra https://hedra.com
HeyGen https://heygen.com

SUNO https://suno.com
UDIO https://udio.com

1주차
온보딩

모두의연구소와 아이펠 교육 철학의 이해

아이펠을 AI 학교라고 부르는 이유, 커뮤니티 기반 성장형 교육이란 무엇인지 이해하기

아이펠 교육 방식 이해하기

게임형 퀘스트 유형 설명 및 실습하기

과정에서 목표로 하는 성장 이미지 공유하기

개발자의 기초 소양 갖추기

GitHub 사용 방법을 이해하고 실습하기

터미널로 배우는 리눅스 운영체제 이해하기

개발자의 글쓰기 전략과 필요성 이해하기

2~3주차
딥러닝 기초
머신러닝과 딥러닝 일반

머신러닝의 전반적인 프로세스와 머신러닝의 특징 및 기본 개념 이해하기

데이터 정제, 시각화, 모델 설계에 필요한 다양한 라이브러리 학습하기

기본 통계 개념

머신러닝을 위한 기본적인 통계 개념 학습하기

인공신경망과 딥러닝

인공신경망의 구조와 딥러닝의 기본적인 원리 학습하기

머신러닝과 딥러닝의 학습 프로세스 이해

딥러닝 모델 학습에서 발생 가능한 문제점을 이해하고, 해결 방안 도출하기

평가 지표를 설정하고 분석하는 법 이해하기
3~4주차
딥러닝 심화
다양한 딥러닝 모델 End to End 학습

데이터 준비와 전처리의 방법론 이해하고 실습하기

CNN, RNN~ Transformer 까지 계열 별 기본 모델을 학습시키면서 원리 이해하기

Task 별 딥러닝 적용의 원인을 이해하고 구현하기

데이터에 적절한 방법론의 종류를 이해하고 적용하기

DLthon

주어진 task로 프로젝트 수행

주어진 데이터를 활용하여 팀 프로젝트 완성하기

Task에 맞는 EDA와 전처리 실습하기

적절한 모델 선정하기

평가를 위한 지표 설정과 결과 분석하기

성능향상을 위한 논리적인 방법론 선택하기

심사를 통해 프로젝트 결과물 피드백 받기

8~11주차
딥러닝 고도화
컴퓨터비전(CV) 전공

깊은 레이어 모델을 학습할 때 문제점과 ResNet모델의 이론적 배경 이해 및 구현하기

데이터 증강 원리 이해하고 활용하기

Detection과 Segmentation 이론적 배경과 기술 학습하기

CNN을 분석하기 위한 XAI Tool 구현과 적용하기

OCR 기본 원리 이해하고 구현하기

CV 최신 트렌드 모델 이해하기

자연어처리(NLP) 전공

자연어 데이터와 임베딩 이해하기

토크나이징 원리와 적용법 이해하기

자연어 데이터의 벡터화 및 수치화하기

Attention 이해하기

Transformer 이해하고 구현하기

Hugging Face 모델 사용법 이해하고 학습 루프 구현하기

NLP 최신 트렌드 모델 이해하기

12~13주차
딥러닝 응용
MLOps 프로세스 학습

MLOps의 이해와 트렌드

머신러닝 도입 배경과 MLOps의 개념을 학습하며 MLOps 생태계와 주요 도구들을 탐구.

구현 전략과 성숙도 단계, 그리고 시장 동향과 미래 발전 가능성까지 통합적인 이해.

도커 활용과 컨테이너 관리

Docker의 설치와 기본 개념을 익히고, 컨테이너 환경 구성 및 최적화 전략 실습.

도커 스웜과 컴포즈를 활용한 오케스트레이션 기법 학습, 부하 분산 및 Kubernetes 기초 탐색.

GCP와 Vertex AI로 확장하기

Google Cloud Platform의 서비스와 BigQuery를 활용한 데잍터 처리.

Vertex AI를 활용한 모델 학습, 서빙, 그리고 클라우드 기반 AI 파이프라인 구축.

Airflow로 워크플로 자동화

에어플로 환경 구성과 DAG 설정을 중심으로, 데이터 워크플로 관리 실습.

복합적인 데이터 아키텍쳐 설계와 에어플로를 활용한 대규모 작업 관리.

데이터 및 모델 파이프라인

CI/CD 파이프라인의 기초부터 자동화된 빌드와 배포를 학습.

Vertex AI 기반의 파이프라인 구축 및 온라인 예측 배포를 통한 실무 지향적 훈련.

실전 프로젝트: 통합 MLOps

데이터 전처리, 모델 훈련, 배포를 포함한 파이프라인 설계와 개선 실습.

Kubeflow pipeline 도입 및 성능 모니터링, 최적화와 템플릿 자동화를 통한 실제 적용 경험

Mini AIFFELthon
해결하고자 하는 task로 프로젝트 수행

목표 정의 및 자료 확보를 통한 연구 계획 수립하기

주체에 적합한 데이터 탐색과 가공 진행하기

최적의 알고리즘 결정하기

검증을 위한 메트릭 선정과 산출물 해석하기

효율 개선을 위한 체계적인 접근법 채택하기

평가를 통해 최종 결과물 리뷰 받기

14~16주차
논문과 친해지기
논문 읽기

논문을 빠르게 읽고 효과적으로 이해하는 노하우 배우기

전공 별 트렌드에 맞는 HOT한 모델 이해하기

CV, NLP를 아우르는 MultiModal 모델 이해하기

논문 쓰는 노하우 배우기

CV: 3D gaussian splatting - Instance segmentation - ViT - DETR (+Dino)

NLP:Transformer-RAG Survey paper - QLoRA (+LoRA) - Deepseek-r1 (+Deepseek-v3)

공통: CLIP - Masked AutoEncoder - Segment anything - LLaVA (LLaVA-o1)

  • (논문은 트랜드를 반영하여 달라질 수 있음)
    17~24주차
    AI 연구 프로젝트
    Project Planning과 PoC LAB

아이디어를 구현하기 위한 합리적인 프로젝트 계획하기

계획의 구현 가능성과 문제점을 파악하고, 주어진 환경 자원에 맞춰 고도화하기

Project Managing

팀장, 팀원으로 기한 내 계획된 프로젝트를 완수하기 위한 시간관리, 자원 배분 등 매니징 능력 등 소프트스킬 기르기

Project 실행 및 문제해결 역량 기르기

파이프라인 구성과 커스텀 함수 등 다양한 구현 능력 기르기

구현 중 발생하는 다양한 문제 해결 능력 기르기