PUKYONG

A Study on Image Outpainting and Video Editing UsingGenerative AI

Metadata Downloads
Alternative Title
생성형 AI를 통한 Image Outpainting 및 Video Editing에 관한 연구
Abstract
생성형 AI의 최근 급속한 발전은 visual modality와 text modality를 융합하여 새로운 기술의 장을 열었다. 그 중, text-guided diffusion model은 주어진 text prompt에 따라 다양한 이미지를 손쉽게 생성하거나 조작할 수 있다. 또한 이미지뿐만 아니라 비디오를 생성하거나 편집할 수 있다. 이러한 생성형 AI가 활용되는 분야 중, 이미지의 손상된 부분이나 알려지지 않은 부분에 대해 이미지를 복원 혹은 생성하는 image completion 분야는 학습하지 않은 데이터를 생성해야 하기 때문에 다른 task들 보다 상대적으로 어려운 분야이다. 이미지와의 거리가 먼 외부에 대한 영역을 생성하기 위해 많은 연구들이 있었으나 결과는 만족스럽지 못하다. 본 연구의 첫 번째 연구인 image outpainting은 이미지를 text prompt로 생성하는 text-guided diffusion model과 이미지에 대한 caption을 생성하는 image captioning model을 활용하여 좋은 성능으로 image outpainting task를 수행하는 통합적인 프레임워크를 제안한다. 이는 많은 text-guided diffusion model과 image captioning model을 활용할 수 있는 효율적이고 범용적인 framework이다. 제안하는 방법을 통해 image outpainting 뿐만 아니라 멀리 떨어져 있는 두 이미지 사이의 공간에 대한 영역을 생성할 수 있는 wide-range image blending task 또한 수행할 수 있다.
또한 최근에는 생성형 AI를 통해 ext prompt와 이미지 사이의 관계를 나타내는 attention map을 활용한 비디오 편집까지 연구가 확장되고 있다. 본 논문의 두 번째 연구인 video editing에서는 이미지와는 다른 비디오만의 특징인 motion 정보를 활용하여 비디오를 편집하는 방법을 제안한다. 기존의 연구들이 이미지를 기반으로 학습된 모델로부터 생성된 attention map을 비디오에 적용할 때 움직임에 대한 정보가 담긴 prompt의 attention map을 정확히 추정하지 못한다는 문제점이 있다. 이러한 문제들을 비디오만의 특성인 motion 정보를 활용하여 해결하고 더 나아가 추가적인 외부 딥러닝 모델 없이 motion 정보만을 추정하여 비디오 내부에서 나타나는 움직임의 방향을 특정하여 편집할 수 있는 방법을 제안한다.
앞서 설명한 두 framework를 통해 본 논문에서는 생성형 AI가 image outpainting과 video editing task에서도 좋은 성능을 나타내면서 적용할 수 있음을 두 연구에 대한 실험결과를 통해 보인다. Image outpainting에 대한 연구의 실험 결과는 기존 모델 성능 대비 제안하는 framework를 통해 생성된 output이 더 우수함을 보였고, video editing에 대한 실험 결과는 기존 모델에 제안하는 framework를 적용했을 때, 더 나은 output을 생성하는 것을 확인했다. 추후 생성형 AI를 image outpainting과 video editing 분야에 함께 적용할 수 있는 방법을 연구하고자 한다.
Author(s)
Seong-Hun Jeong
Issued Date
2023
Awarded Date
2023-08
Type
Dissertation
Keyword
generative AI, image outpainting, video editing
Publisher
부경대학교
URI
https://repository.pknu.ac.kr:8443/handle/2021.oak/33471
http://pknu.dcollection.net/common/orgView/200000695442
Alternative Author(s)
정성훈
Affiliation
부경대학교 대학원
Department
미디어커뮤니케이션학과
Advisor
공경보
Table Of Contents
Ⅰ. Introduction 1
Ⅱ. Image Outpainting 3
1. Introduction 3
2. Related Work 7
1) Image Completion 7
2) Image Captioning 7
3) Text-guided Image Manipulation 8
3. Proposed Method 9
1) Captioning-based Extensive Painting Module 9
(1) Image Captioning Network 10
(2) Text-guided Image Manipulation Network 12
2) Image Outpainting 13
3) Wide-range Image Blending 13
4. Experiments 13
1) Base line Methods 14
2) Datasets 14
(1) Beach dataset 14
(2) Scenery6000 dataset 14
(3) AmsterTime dataset 14
(4) Landmarks dataset 14
(5) 4K dataset 15
3) System Set-up 15
4) Quantitative Results 16
(1) Image Outpainting 17
(2) Wide-Range Image Blending 18
5) Qualitative Results 24
6) Ablation Studies 24
(1) Effect of Optimizing an Image Captioning Model 25
(2) Effect of Captions for Extensive Painting 26
(3) Effect of Mask Sizes 26
(4) Comparison on Hint-based Methods 27
(5) Comparison on Captioning Models 27
5. Limitation 29
Ⅲ. Video Editing 30
1.Introduction 30
2.Related Work 33
1) Text-Guided Editing 33
2) Optical Flow Estimation 34
3.Proposed Method 35
1) Preliminary 38
2) Motion Map Injection Module 38
4.Experiments 41
1) Experimental Setup 41
2) User Study 41
3) Quantitative Results 42
4) Qualitative Results 45
5) Ablation Study 46
6) Application 48
7) Limitation 49
Ⅳ. Conclusion 50
Ⅴ. Reference 52
Degree
Master
Appears in Collections:
대학원 > 미디어커뮤니케이션학과
Authorize & License
  • Authorize공개
  • Embargo2023-08-07
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.