Śledzenie palców — Finger tracking

Śledzenie palców dwóch pianistów grających ten sam utwór (zwolniony ruch, brak dźwięku).

W dziedzinie rozpoznawania gestów i przetwarzania obrazu , śledzenie palców jest techniką o wysokiej rozdzielczości opracowaną w 1969 roku, która służy do poznawania kolejnych pozycji palców użytkownika, a tym samym przedstawiania obiektów w 3D . Oprócz tego technika śledzenia palca jest wykorzystywana jako narzędzie komputera, pełniąc rolę urządzenia zewnętrznego w naszym komputerze, podobnie jak klawiatura i mysz .

Wstęp

System śledzenia palców koncentruje się na interakcji użytkownika z danymi, gdzie użytkownik wchodzi w interakcję z danymi wirtualnymi, obsługując za pomocą palców wolumetrię obiektu 3D, który chcemy przedstawić. Ten system powstał w oparciu o problem interakcji człowiek-komputer . Celem jest, aby komunikacja między nimi oraz korzystanie z gestów i ruchów rąk było bardziej intuicyjne, stworzono systemy śledzenia palców. Systemy te śledzą w czasie rzeczywistym pozycję w 3D i 2D orientacji palców każdego markera i wykorzystują intuicyjne ruchy dłoni i gesty do interakcji.

Rodzaje śledzenia

Istnieje wiele opcji implementacji śledzenia palca, głównie tych używanych z interfejsem lub bez .

Śledzenie z interfejsem

System ten wykorzystuje głównie inercyjne i optyczne systemy przechwytywania ruchu .

Rękawiczki do przechwytywania ruchu bezwładnościowego

Systemy przechwytywania ruchu bezwładnościowego są w stanie uchwycić ruch palca, odczytując obrót każdego segmentu palca w przestrzeni 3D. Stosując te obroty do łańcucha kinematycznego , cała ludzka ręka może być śledzona w czasie rzeczywistym, bez okluzji i bezprzewodowo.

Ręczne systemy inercyjne motion capture, jak na przykład rękawice Synertial mocap, wykorzystują malutkie czujniki oparte na IMU , umieszczone na każdym segmencie palca. Precyzyjne przechwytywanie wymaga użycia co najmniej 16 czujników. Istnieją również modele rękawic mocap z mniejszą liczbą czujników (13/7 czujników), dla których reszta segmentów palców jest interpolowana (segmenty proksymalne) lub ekstrapolowana (segmenty dystalne). Czujniki są zazwyczaj umieszczane w rękawicach tekstylnych, co sprawia, że ​​korzystanie z czujników jest wygodniejsze.

Czujniki bezwładnościowe mogą rejestrować ruch we wszystkich 3 kierunkach, co oznacza, że ​​można wykryć zgięcie, wyprost i odwodzenie palców i kciuka.

Szkielet dłoni

Ponieważ czujniki bezwładności śledzą tylko obroty, obroty muszą być zastosowane do jakiegoś szkieletu dłoni, aby uzyskać odpowiednią moc wyjściową. Aby uzyskać dokładny wynik (na przykład, aby móc dotknąć opuszków palców), szkielet dłoni musi być odpowiednio wyskalowany, aby pasował do prawdziwej ręki. W tym celu można zastosować ręczny pomiar ręki lub automatyczne wyciągnięcie pomiaru.

Śledzenie pozycji dłoni

Oprócz śledzenia palca, wielu użytkowników wymaga śledzenia pozycji całej dłoni w przestrzeni. W tym celu można zastosować wiele metod:

  • Uchwycenie całego ciała za pomocą inercyjnego systemu mocap (szkielet dłoni zamocowany na końcu łańcucha kinematycznego szkieletu ciała). Pozycja dłoni jest określana z ciała.
  • Uchwycenie pozycji dłoni (przedramienia) za pomocą optycznego systemu mocap.
  • Przechwytywanie pozycji dłoni (przedramienia) przy użyciu innej metody śledzenia pozycji, szeroko stosowanej w zestawach VR (np. HTC Vive Lighthouse).
Wady bezwładnościowych systemów przechwytywania ruchu

Czujniki bezwładnościowe mają dwie główne wady związane ze śledzeniem palca:

  • Problemy z uchwyceniem bezwzględnej pozycji ręki w przestrzeni.
  • Zakłócenia magnetyczne
  • Materiały metalowe służą do zakłócania czujników. Problem ten może być zauważalny głównie dlatego, że dłonie często stykają się z różnymi przedmiotami, często wykonanymi z metalu. Obecne generacje rękawic do przechwytywania ruchu są w stanie wytrzymać zakłócenia magnetyczne. Stopień odporności na zakłócenia magnetyczne zależy od producenta, przedziału cenowego oraz ilości czujników zastosowanych w rękawicy mocap. Warto zauważyć, że czujniki rozciągania to kondensatory na bazie silikonu, które są całkowicie odporne na zakłócenia magnetyczne.

Optyczne systemy przechwytywania ruchu

wykonywane jest śledzenie położenia znaczników i wzorów w 3D, system identyfikuje je i oznacza każdy znacznik zgodnie z położeniem palców użytkownika. Te współrzędne w 3D etykietach tych markerów produkowane są w czasie rzeczywistym z innymi aplikacjami.

Markery

Niektóre systemy optyczne , takie jak Vicon lub ART, są w stanie uchwycić ruch ręki za pomocą markerów. W każdej ręce mamy znacznik na każdy „działający” palec. Za rejestrowanie każdego znacznika i pomiar jego pozycji odpowiadają trzy kamery o wysokiej rozdzielczości. Zostanie to wytworzone tylko wtedy, gdy kamera będzie w stanie je zobaczyć. Wizualne znaczniki, zwykle nazywane pierścionkami lub bransoletkami, służą do rozpoznawania gestów użytkownika w 3D . Ponadto, jak wskazuje klasyfikacja, pierścienie te pełnią funkcję interfejsu w 2D .

Okluzja jako metoda interakcji

Okluzja wizualna to bardzo intuicyjna metoda zapewniająca bardziej realistyczny punkt widzenia wirtualnych informacji w trzech wymiarach. Interfejsy zapewniają bardziej naturalne techniki interakcji 3D niż baza 6.

Funkcjonalność markera

Markery działają poprzez punkty interakcji , które zazwyczaj są już ustawione i mamy wiedzę o regionach. Dzięki temu nie trzeba cały czas podążać za każdym znacznikiem; multiwskaźniki mogą być traktowane w ten sam sposób, gdy istnieje tylko jeden wskaźnik operacyjny. Aby wykryć takie wskaźniki poprzez interakcję, włączamy ultradźwiękowe czujniki podczerwieni . Fakt, że wiele wskaźników można traktować jako jeden, problemy zostałyby rozwiązane. W przypadku, gdy jesteśmy narażeni na działanie w trudnych warunkach, takich jak złe oświetlenie , rozmycie ruchu , zniekształcenie znacznika czy okluzja. System umożliwia śledzenie obiektu, nawet jeśli niektóre znaczniki nie są widoczne. Ze względu na znane relacje przestrzenne wszystkich markerów, pozycje markerów, które nie są widoczne, można obliczyć przy użyciu znanych markerów. Istnieje kilka metod wykrywania markerów, takich jak markery graniczne i metody szacowanego markera.

  • Technika Homera obejmuje wybór promienia z bezpośrednią obsługą: obiekt jest wybierany, a następnie jego pozycja i orientacja są obsługiwane tak, jakby był połączony bezpośrednio z dłonią.
  • Technika Connera przedstawia zestaw widżetów 3D, które umożliwiają pośrednią interakcję z wirtualnymi obiektami za pośrednictwem wirtualnego widżetu, który działa jako pośrednik.
Łączenie danych z optycznymi systemami przechwytywania ruchu

Ze względu na okluzję znacznika podczas przechwytywania, palce śledzące są najtrudniejszą częścią dla optycznych systemów przechwytywania ruchu (takich jak Vicon, Optitrack, ART, ...). Użytkownicy systemów mocap optycznych twierdzą, że większość pracy w postprocesie jest zwykle spowodowana uchwyceniem palca. Ponieważ inercyjne systemy mocap (jeśli są odpowiednio skalibrowane) w większości nie wymagają post-procesu, typowym zastosowaniem dla zaawansowanych użytkowników mocap jest łączenie danych z inercyjnych systemów mocap (palce) z optycznymi systemami mocap (ciało + pozycja w przestrzeni). .
Proces łączenia danych mocap opiera się na dopasowaniu kodów czasowych każdej ramki do inercyjnego i optycznego źródła danych systemu mocap. W ten sposób dowolne oprogramowanie innych firm (na przykład MotionBuilder, Blender) może stosować ruchy z dwóch źródeł, niezależnie od użytej metody mocap.

Śledzenie palca czujnika rozciągania

Systemy przechwytywania ruchu z czujnikiem rozciągania wykorzystują elastyczne równoległe kondensatory płytowe do wykrywania różnic w pojemności, gdy czujniki rozciągają się, zginają, ścinają lub są poddawane naciskowi. Czujniki rozciągania są zwykle oparte na silikonie, co oznacza, że ​​są odporne na zakłócenia magnetyczne, okluzję lub dryf pozycyjny (powszechne w systemach inercyjnych). Solidne i elastyczne właściwości tych czujników prowadzą do wysokiej wierności śledzenia palców i funkcji w rękawicach mocap produkowanych przez StretchSense.

Przegubowe śledzenie dłoni

Przegubowe śledzenie dłoni jest prostsze i tańsze niż wiele metod, ponieważ wymaga tylko jednej kamery . Ta prostota skutkuje mniejszą precyzją. Zapewnia nową bazę dla nowych interakcji w modelowaniu, kontroli animacji i dodanego realizmu. Używa rękawicy złożonej z zestawu kolorów, które są przypisane do ułożenia palców. Ten test koloru jest ograniczony do systemu wizyjnego komputerów i na podstawie funkcji przechwytywania i położenia koloru, położenie ręki jest znane.

Śledzenie bez interfejsu

Z punktu widzenia percepcji wzrokowej nogi i ręce można modelować jako mechanizmy przegubowe, układ sztywnych ciał, które są połączone między sobą przegubami o jednym lub więcej stopniach swobody. Model ten można zastosować w mniejszej skali, aby opisać ruch ręki i w oparciu o szeroką skalę, aby opisać ruch całego ciała. Na przykład pewien ruch palca można rozpoznać pod zwykłym kątem i nie zależy to od położenia ręki w stosunku do aparatu.

Wiele systemów śledzenia opiera się na modelu skoncentrowanym na problemie estymacji sekwencji, gdzie podana jest sekwencja obrazów i model zmiany, szacujemy konfigurację 3D dla każdego zdjęcia. Wszystkie możliwe konfiguracje ręki są reprezentowane przez wektory na przestrzeni stanów , która koduje położenie ręki i kąty stawu palca. Każda konfiguracja dłoni generuje zestaw obrazów poprzez wykrywanie granic niedrożności stawu palca. Oszacowanie każdego obrazu jest obliczane przez znalezienie wektora stanu, który lepiej pasuje do mierzonych charakterystyk. Stawy palców mają dodatkowe 21 stanów więcej niż sztywny ruch ciała dłoni; oznacza to, że obliczenie kosztów oszacowania jest zwiększone. Technika polega na etykiecie każdego połączenia palcowego modelowanego jako cylinder. Wykonujemy osie na każdym stawie, a dwusieczna tej osi jest rzutem stawu. Dlatego używamy 3 DOF, ponieważ są tylko 3 stopnie ruchu.

W tym przypadku jest tak samo jak w poprzedniej typologii, ponieważ istnieje duża różnorodność tez wdrożeniowych na ten temat. Dlatego kroki i technika zabiegu różnią się w zależności od celu i potrzeb osoby, która będzie korzystać z tej techniki. Zresztą można powiedzieć, że w sposób bardzo ogólny i w większości systemów należy wykonać następujące czynności:

  • Odejmowanie tła: pomysł polega na splataniu wszystkich obrazów uchwyconych za pomocą filtra Gaussa 5x5, a następnie ich skalowaniu w celu zmniejszenia zaszumionych danych pikseli.
  • Segmentacja: aplikacja maski binarnej służy do reprezentowania białym kolorem pikseli należących do ręki i do zastosowania czarnego koloru do obrazu skóry pierwszego planu.
  • Ekstrakcja regionów: wykrywanie lewej i prawej ręki na podstawie porównania między nimi.
  • Ekstrakcja charakterystyczna: lokalizacja opuszków palców i wykrycie, czy jest to szczyt, czy dolina. Aby sklasyfikować punkt, szczyty lub doliny, są one przekształcane do wektorów 3D, zwykle nazywanych pseudowektorami w płaszczyźnie xy, a następnie do obliczania iloczynu poprzecznego. Jeśli znak składowej z iloczynu poprzecznego jest dodatni, uważamy, że punkt jest szczytem, ​​a w przypadku, gdy wynik iloczynu poprzecznego jest ujemny, będzie to dolina.
  • Rozpoznawanie gestów „wskaż i uszczypnij”: biorąc pod uwagę widoczne punkty odniesienia (czujniki palców), skojarzony jest określony gest.
  • Szacowanie pozycji : procedura polegająca na identyfikacji pozycji rąk za pomocą algorytmów obliczających odległości między pozycjami.

Inne techniki śledzenia

Możliwe jest również aktywne śledzenie palców. Inteligentny skaner laserowy to system śledzenia palców bez znaczników, wykorzystujący zmodyfikowany skaner/projektor laserowy opracowany na Uniwersytecie Tokijskim w latach 2003-2004. Jest w stanie pozyskiwać trójwymiarowe współrzędne w czasie rzeczywistym bez konieczności jakiejkolwiek obróbki obrazu (w zasadzie jest to skaner dalmierzowy, który zamiast ciągłego skanowania w pełnym polu widzenia, ogranicza obszar skanowania do bardzo wąskiego okna dokładnie wielkość celu). W tym systemie zademonstrowano rozpoznawanie gestów. Częstotliwość próbkowania może być bardzo wysoka (500 Hz), umożliwiając uzyskanie gładkich trajektorii bez potrzeby filtrowania (tak jak Kalman).

Podanie

Zdecydowanie systemy śledzenia palców służą do reprezentowania wirtualnej rzeczywistości . Jednak jego zastosowanie przeszło na profesjonalny poziom modelowania 3D , firmy i projekty bezpośrednio w tym przypadku przewróciły się. Tak więc takie systemy rzadko były używane w zastosowaniach konsumenckich ze względu na ich wysoką cenę i złożoność. W każdym razie głównym celem jest ułatwienie zadania wykonywania poleceń komputerowi za pomocą języka naturalnego lub interaktywnego gestu.

Celem jest skoncentrowanie się na następującym pomyśle, że komputery powinny być łatwiejsze w użyciu, jeśli istnieje możliwość operowania za pomocą języka naturalnego lub interakcji gestami. Głównym zastosowaniem tej techniki jest podkreślenie projektowania i animacji 3D, gdzie oprogramowanie takie jak Maya i 3D StudioMax wykorzystuje tego rodzaju narzędzia. Powodem jest umożliwienie dokładniejszej i prostszej kontroli instrukcji, które chcemy wykonać. Technologia ta daje wiele możliwości, gdzie najważniejsza jest rzeźba, budowanie i modelowanie w 3D w czasie rzeczywistym za pomocą komputera.

Zobacz też

Bibliografia


Zewnętrzne linki