Konwersja 2D do 3D - 2D to 3D conversion

Konwersja 2D do 3D
Typ procesu cyfrowe i drukowane
Sektor(y) przemysłowy(e) Produkcja filmowa i telewizyjna, druk
Główne technologie lub podprocesy Oprogramowania komputerowego
Produkt(y) Filmy, programy telewizyjne, media społecznościowe, drukowane obrazy

Konwersja wideo 2D do 3D (zwana również konwersją 2D do stereo 3D i konwersją stereo ) to proces przekształcania filmu 2D ("płaskiego") do postaci 3D , która prawie we wszystkich przypadkach jest stereo , więc jest to proces tworzenia obrazów dla każde oko z jednego obrazu 2D.

Przegląd

Konwersja 2D na 3D dodaje wskaźnik głębi rozbieżności obuocznej do obrazów cyfrowych odbieranych przez mózg, a zatem, jeśli jest wykonywana prawidłowo, znacznie poprawia immersyjny efekt podczas oglądania wideo stereo w porównaniu z wideo 2D. Jednak, aby odnieść sukces, konwersja powinna być wykonana z wystarczającą dokładnością i poprawnością: jakość oryginalnych obrazów 2D nie powinna ulec pogorszeniu, a wprowadzona wskazówka rozbieżności nie powinna być sprzeczna z innymi wskazówkami używanymi przez mózg do percepcji głębi . Jeśli zostanie wykonana prawidłowo i dokładnie, konwersja tworzy wideo stereo o podobnej jakości do „natywnego” wideo stereo, które jest nagrane w stereo i dokładnie dopasowane i wyrównane w postprodukcji.

Dwa podejścia do konwersji stereo można luźno zdefiniować: wysokiej jakości półautomatyczna konwersja dla kin i wysokiej jakości 3DTV oraz niskiej jakości automatyczna konwersja dla tanich aplikacji 3DTV , VOD i podobnych.

Ponowne renderowanie komputerowych filmów animowanych

Komputerowe animowane filmy 2D wykonane z modeli 3D można ponownie renderować w stereoskopowym 3D, dodając drugą wirtualną kamerę, jeśli oryginalne dane są nadal dostępne. Z technicznego punktu widzenia nie jest to konwersja; dlatego takie ponownie renderowane filmy mają taką samą jakość, jak filmy pierwotnie wyprodukowane w stereoskopowym 3D. Przykłady tej techniki obejmują ponowne wydanie Toy Story i Toy Story 2 . Ponowne sprawdzenie oryginalnych danych komputerowych dla dwóch filmów zajęło cztery miesiące, a także dodatkowe sześć miesięcy na dodanie 3D. Jednak nie wszystkie filmy CGI są ponownie renderowane w celu ponownego wydania 3D z powodu kosztów, wymaganego czasu, braku wykwalifikowanych zasobów lub brakujących danych komputerowych.

Znaczenie i zastosowanie

Wraz ze wzrostem liczby filmów wydawanych w 3D, konwersja 2D do 3D stała się bardziej powszechna. Większość przebojów 3D, które nie są oparte na technologii CGI , jest konwertowana w całości lub przynajmniej częściowo z materiału 2D. Nawet Avatar zawiera kilka scen nakręconych w 2D i przekonwertowanych na stereo w postprodukcji. Przyczyny kręcenia w 2D zamiast stereo są finansowe, techniczne, a czasem artystyczne:

  • Przepływ pracy w postprodukcji stereo jest znacznie bardziej złożony i nie jest tak ugruntowany jak przepływ pracy 2D, co wymaga więcej pracy i renderowania.
  • Profesjonalne zestawy stereoskopowe są znacznie droższe i bardziej nieporęczne niż zwykłe kamery jednookularowe. Niektóre ujęcia, zwłaszcza sceny akcji, można wykonać tylko przy użyciu stosunkowo małych kamer 2D.
  • Kamery stereo mogą wprowadzać różne niedopasowania w obrazie stereo (takie jak paralaksa pionowa , pochylenie, przesunięcie kolorów, odbicia i odblaski w różnych pozycjach), które i tak powinny zostać naprawione w postprodukcji, ponieważ psują efekt 3D. Ta korekcja może czasami mieć złożoność porównywalną z konwersją stereo.
  • Kamery stereoskopowe mogą zdradzić praktyczne efekty wykorzystywane podczas filmowania. Na przykład niektóre sceny z trylogii Władca Pierścieni zostały nakręcone przy użyciu wymuszonej perspektywy, aby umożliwić dwóm aktorom wyglądać na różnej wielkości. Ta sama scena nakręcona w stereo ujawniłaby, że aktorzy nie znajdowali się w tej samej odległości od kamery.
  • Ze swej natury kamery stereoskopowe mają ograniczenia co do odległości kamery od filmowanego obiektu i nadal zapewniają akceptowalną separację stereo. Na przykład najprostszym sposobem sfilmowania sceny z boku budynku może być użycie kamery z drugiej strony ulicy na sąsiednim budynku za pomocą obiektywu zmiennoogniskowego. Jednak podczas gdy obiektyw zmiennoogniskowy zapewniałby akceptowalną jakość obrazu, separacja stereo byłaby praktycznie zerowa na takiej odległości.

Nawet w przypadku filmowania stereofonicznego, konwersja może być często konieczna. Oprócz wspomnianych trudnych do kręcenia scen, zdarzają się sytuacje, w których niedopasowania w widokach stereo są zbyt duże, aby je dostosować, i łatwiej jest przeprowadzić konwersję 2D do stereo, traktując jeden z widoków jako oryginalne źródło 2D.

Problemy ogólne

Bez względu na poszczególne algorytmy, wszystkie procesy konwersji powinny rozwiązywać następujące zadania:

  1. Alokacja „budżetu głębokości” – określenie zakresu dopuszczalnej dysproporcji lub głębokości, jaka wartość głębokości odpowiada pozycji na ekranie (tzw. pozycji „punktu zbieżności”), dozwolone zakresy odległości dla efektów poza ekranem i za obiekty tła ekranu. Jeśli obiekt w stereoparze znajduje się dokładnie w tym samym miejscu dla obu oczu, to pojawi się na powierzchni ekranu i będzie miał zerową paralaksę. Mówi się, że obiekty przed ekranem mają ujemną paralaksę, a obrazy tła za ekranem mają dodatnią paralaksę. Istnieją odpowiednie przesunięcia ujemne lub dodatnie w pozycjach obiektów dla obrazów lewego i prawego oka.
  2. Kontrola komfortowej dysproporcji w zależności od rodzaju sceny i ruchu – zbyt duża paralaksy lub sprzeczne sygnały głębi mogą powodować zmęczenie oczu i nudności
  3. Wypełnianie nieosłoniętych obszarów – obrazy widoku lewego lub prawego pokazują scenę pod innym kątem, a części obiektów lub całe obiekty pokryte pierwszym planem w oryginalnym obrazie 2D powinny stać się widoczne w stereoparze. Czasami powierzchnie tła są znane lub można je oszacować, dlatego należy je wykorzystać do wypełnienia odsłoniętych obszarów. W przeciwnym razie nieznane obszary muszą zostać wypełnione przez artystę lub zamalowane , ponieważ dokładna rekonstrukcja nie jest możliwa.

Wysokiej jakości metody konwersji powinny również rozwiązywać wiele typowych problemów, w tym:

  • Obiekty półprzezroczyste
  • Refleksje
  • Rozmyte, półprzezroczyste granice obiektów – takich jak włosy, futro, nieostre obiekty na pierwszym planie, cienkie obiekty
  • Ziarno filmu (prawdziwe lub sztuczne) i podobne efekty szumów
  • Sceny z szybkim, nieregularnym ruchem
  • Małe cząstki – deszcz, śnieg, wybuchy i tak dalej.

Wysokiej jakości półautomatyczna konwersja

Konwersja oparta na głębokości

Większość półautomatycznych metod konwersji stereo wykorzystuje mapy głębi i renderowanie oparte na obrazach głębi.

Pomysł polega na tym, że dla każdej klatki lub serii jednorodnych klatek tworzony jest oddzielny obraz pomocniczy, znany jako „ mapa głębi ”, aby wskazać głębię obiektów obecnych na scenie. Mapa głębi to oddzielny obraz w skali szarości o takich samych wymiarach jak oryginalny obraz 2D, z różnymi odcieniami szarości wskazującymi głębię każdej części ramki. Chociaż mapowanie głębi może stworzyć dość silną iluzję obiektów 3D w filmie, z natury nie obsługuje półprzezroczystych obiektów ani obszarów, ani nie przedstawia zasłoniętych powierzchni; aby podkreślić to ograniczenie, reprezentacje 3D oparte na głębi są często wyraźnie określane jako 2.5D . Te i inne podobne kwestie powinny być rozwiązywane odrębną metodą.

Przykład mapy głębi
Generowanie i rekonstrukcja kształtów 3D z map głębi lub sylwetek w jednym lub wielu widokach

Główne etapy metod konwersji opartych na głębokości to:

  1. Alokacja budżetu głębokości – jaka jest całkowita głębokość sceny i gdzie będzie płaszczyzna ekranu.
  2. Segmentacja obrazu , tworzenie mat lub masek, zazwyczaj metodą rotoscopingu . Każda ważna powierzchnia powinna być odizolowana. Poziom szczegółowości zależy od wymaganej jakości konwersji i budżetu.
  3. Tworzenie mapy głębokości. Każdej izolowanej powierzchni należy przyporządkować mapę głębi. Oddzielne mapy głębi powinny być wkomponowane w mapę głębi sceny. Jest to proces iteracyjny, wymagający dostosowania obiektów, kształtów, głębi i wizualizacji wyników pośrednich w stereo. Do najważniejszych powierzchni dodawany jest mikro-relief, trójwymiarowy kształt, aby zapobiec efektowi „kartonu”, gdy obrazy stereo wyglądają jak kombinacja płaskich obrazów ustawionych na różnych głębokościach.
  4. Generowanie stereo w oparciu o 2D + głębokość z dodatkowymi informacjami, takimi jak czyste płyty, przywrócone tło, mapy przezroczystości itp. Po zakończeniu procesu zostanie utworzony lewy i prawy obraz. Zwykle oryginalny obraz 2D jest traktowany jako obraz centralny, dzięki czemu generowane są dwa widoki stereo. Jednak niektóre metody proponują użycie oryginalnego obrazu jako obrazu jednego oka i wygenerowanie tylko obrazu drugiego oka, aby zminimalizować koszt konwersji. Podczas generowania stereo piksele oryginalnego obrazu są przesuwane w lewo lub w prawo w zależności od mapy głębi, maksymalnej wybranej paralaksy i położenia powierzchni ekranu.
  5. Rekonstrukcja i malowanie wszelkich odkrytych obszarów niewypełnionych przez generator stereo.

Stereo może być prezentowany w dowolnym formacie do celów podglądu, w tym anaglif .

Czasochłonne czynności to segmentacja obrazu/rotoskopia, tworzenie mapy głębi i wypełnianie odsłoniętego obszaru. To ostatnie jest szczególnie ważne dla najwyższej jakości konwersji.

Istnieją różne techniki automatyzacji tworzenia mapy głębi i rekonstrukcji tła. Na przykład automatyczne oszacowanie głębokości może służyć do generowania początkowych map głębokości dla niektórych ramek i ujęć.

Osoby zaangażowane w taką pracę można nazwać artystami głębi.

Wielowarstwowość

Rozwój mapowania w głąb, wielowarstwowy, pozwala obejść ograniczenia mapowania w głąb, wprowadzając kilka warstw masek głębi w skali szarości, aby zaimplementować ograniczoną półprzezroczystość. Podobnie jak w przypadku prostej techniki, wielowarstwowość polega na zastosowaniu mapy głębi do więcej niż jednego „wycinka” płaskiego obrazu, co skutkuje znacznie lepszym przybliżeniem głębokości i wypukłości. Im więcej warstw jest przetwarzanych osobno na klatkę, tym wyższa jakość iluzji 3D.

Inne podejścia

Rekonstrukcja 3D i reprojekcja mogą być użyte do konwersji stereo. Obejmuje tworzenie modelu sceny 3D, ekstrakcję oryginalnych powierzchni obrazu jako tekstur obiektów 3D i wreszcie renderowanie sceny 3D z dwóch wirtualnych kamer w celu uzyskania wideo stereo. Podejście to sprawdza się wystarczająco dobrze w przypadku scen ze statycznymi, sztywnymi obiektami, takich jak ujęcia miejskie z budynkami, ujęcia wnętrz, ale ma problemy z niesztywnymi bryłami i miękkimi rozmytymi krawędziami.

Inną metodą jest ustawienie zarówno lewej, jak i prawej kamery wirtualnej, przesuniętej względem oryginalnej kamery, ale z rozdzieleniem różnicy przesunięcia, a następnie namalowanie krawędzi okluzji izolowanych obiektów i postaci. Zasadniczo oczyszczenie kilku elementów tła, środkowego i pierwszego planu.

Różnicę obuoczną można również wyprowadzić z prostej geometrii.

Automatyczna konwersja

Głębokość od ruchu

Możliwe jest automatyczne oszacowanie głębokości przy użyciu różnych rodzajów ruchu. W przypadku ruchu kamery można obliczyć mapę głębi całej sceny. Ponadto można wykryć ruch obiektu, a ruchomym obszarom można przypisać mniejsze wartości głębokości niż tło. Okluzje dostarczają informacji o względnej pozycji poruszających się powierzchni.

Głębia ostrości

Podejścia tego typu nazywane są również „głębią z rozmycia” i „głębią z rozmycia”. W przypadku podejścia „głębia z nieostrości” (DFD) informacje o głębi są szacowane na podstawie stopnia rozmycia rozpatrywanego obiektu, podczas gdy podejście „głębia z ostrości” (DFF) ma tendencję do porównywania ostrości obiektu w zakresie obrazów wykonane z różnymi odległościami ostrości w celu określenia jego odległości od aparatu. DFD potrzebuje tylko dwóch lub trzech z różnymi ustawieniami ostrości, aby prawidłowo działać, podczas gdy DFF potrzebuje co najmniej 10 do 15 obrazów, ale jest dokładniejszy niż poprzednia metoda.

Jeśli na przetworzonym obrazie zostanie wykryte niebo, można również wziąć pod uwagę, że bardziej odległe obiekty, oprócz tego, że są zamglone, powinny być bardziej nienasycone i bardziej niebieskawe ze względu na grubą warstwę powietrza.

Głębokość z perspektywy

Idea metody opiera się na fakcie, że równoległe linie, takie jak tory kolejowe i pobocza dróg, wydają się zbiegać wraz z odległością, ostatecznie osiągając znikający punkt na horyzoncie. Znalezienie tego znikającego punktu daje najdalszy punkt całego obrazu.

Im bardziej linie się zbiegają, tym dalej wydają się być. Tak więc w przypadku mapy głębi obszar pomiędzy dwiema sąsiednimi liniami znikającymi można aproksymować za pomocą płaszczyzny gradientu.


Artefakty konwersji

  • Efekt kartonu to zjawisko polegające na tym, że obiekty 3D znajdujące się na różnych głębokościach wydają się widzom płaskie, jakby były wykonane z kartonu, przy zachowaniu względnej głębokości między obiektami
  • Niedopasowanie ostrości krawędzi — ten artefakt może pojawić się z powodu rozmytej mapy głębi na granicach obiektów. Granica w jednym ujęciu staje się precyzyjna, w innym rozmyta. Artefakt niezgodności ostrości krawędzi jest zwykle spowodowany przez:
    • Zastosowanie techniki „gumowego arkusza”, definiowanej jako wypaczanie pikseli otaczających regiony okluzji w celu uniknięcia wyraźnego wypełnienia okluzji. W takich przypadkach krawędzie mapy przemieszczeń są rozmyte, a przejście między obszarami pierwszego planu i tła jest wygładzone. Obszar zajmowany przez rozmycie krawędzi/ruchu jest „rozciągnięty” lub „schowany”, w zależności od kierunku przemieszczenia obiektu. Oczywiście takie podejście prowadzi do niedopasowania ostrości krawędzi między widokami.
    • Brak odpowiedniego potraktowania półprzezroczystych krawędzi, potencjalnie powodujący podwojenie krawędzi lub efekt zjawy.
    • Proste techniki wypełniania okluzji prowadzące do rozciągania artefaktów w pobliżu krawędzi obiektów.
  • Przyklejony do obiektów tła - ten błąd "przyklejania" obiektów pierwszego planu do tła

Mierniki jakości 3D

PQM

PQM naśladuje HVS, ponieważ uzyskane wyniki są bardzo zbieżne ze średnią oceną (MOS) uzyskaną z testów subiektywnych. PQM określa ilościowo zniekształcenie luminancji i zniekształcenie kontrastu za pomocą przybliżenia (wariancji) ważonych średnią każdego bloku pikseli w celu uzyskania zniekształcenia obrazu. To zniekształcenie jest odejmowane od 1, aby uzyskać obiektywny wynik jakości.

HV3D

Miernik jakości HV3D został zaprojektowany z myślą o ludzkiej wizualnej percepcji 3D. Bierze pod uwagę jakość poszczególnych widoków prawego i lewego, jakość widoku cyklopowego (połączenie widoku prawego i lewego, co postrzega widz), a także jakość informacji o głębi.

VQMT3D

Projekt VQMT3D zawiera kilka opracowanych metryk do oceny jakości konwersji 2D do 3D

Metryczny Klasa Rodzaj Stosuje się do
Efekt kartonu Zaawansowany Jakościowy Konwersja 2D do 3D
Niedopasowanie ostrości krawędzi Jedyny w swoim rodzaju Jakościowy Konwersja 2D do 3D
Obiekty przyklejone do tła Jedyny w swoim rodzaju Jakościowy Konwersja 2D do 3D
Porównanie z wersją 2D Jedyny w swoim rodzaju Jakościowy Konwersja 2D do 3D


Zobacz też

Bibliografia

  • Mansi Sharma; Santanu Chaudhury; Brejesha Lalla (2014). Kinect-Variety Fusion: nowatorskie podejście hybrydowe do generowania treści 3DTV bez artefaktów . Na 22. Międzynarodowej Konferencji Rozpoznawania Wzorców (ICPR), Sztokholm, 2014. doi : 10.1109/ICPR.2014.395 .