Porady

Poznajmy technologię: Jak działa rozpoznawanie obrazów? – zarys procesu

21 grudnia 2015, Aktualizacja 21 grudnia 2020Lenovo

Rozpoznanie znajomej twarzy czy identyfikacja tego, co widzimy na zdjęciu zazwyczaj nie stanowi dla większości z nas – ludzi najmniejszego problemu. Inaczej jest z maszynami. Dla nich to niezwykle trudne zadanie. Zobaczmy jak sobie z tym radzą.

Najważniejszym zmysłem dla człowieka jest wzrok. Przy właśnie jego pomocy odbieramy większość informacji o świecie, w którym żyjemy. To on dostarcza nam informacji, na bazie których podejmujemy decyzje w niemal każdej sekundzie naszego życia. To jedno. Druga sprawa to fakt, że żyjemy w świecie, w którym niemalże na każdym kroku można natknąć się na maszyny, zarówno te tradycyjne – mechaniczne, jak i cyfrowe. Korzystając na co dzień z komputera większość z nas chciałaby się z nim kontaktować w możliwie jak najbardziej naturalny dla nas sposób, a skoro wszyscy jesteśmy wzrokowcami, to chcielibyśmy nauczyć go oglądać świat takim, jakim my go widzimy.

W tym właśnie celu powstały systemy rozpoznawania obrazu. Można je zastosować w ogromnej ilości dziedzin – od kartografii i geologii, poprzez medycynę, archeologię, astronomię aż po fizykę, bioidentyfikację, bezpieczeństwo, przemysł i robotykę. Obecnie jednymi z dziedzin, w których następuje najbardziej dynamiczny rozwój tej technologii są różnego typu systemy monitorowania, kontrola jakości, medycyna i wojskowość.

Jak działa rozpoznawanie obrazów?

Ogrom zastosowania tych technik w zasadzie uniemożliwia dokładną analizę technologii rozpoznawania obrazu. W zależności od zastosowania proces ten będzie przebiegał nieco inaczej, skupiając się na celu, w jakim jest wykorzystywany. Ogólne zasady postępowania są jednak na tyle podobne, że można prześledzić go w ogólnym ujęciu. Zawsze też prowadzą one od obrazu do decyzji, którą na jego podstawie musi podjąć komputer.

Pierwszym i bardzo oczywistym etapem jest pozyskanie obrazu, nad którym będziemy pracować. Kolejny etap przetwarzania polega na znalezieniu matematycznego opisu obrazu. Ostatni z nich to już właściwe rozpoznanie i podjęcie decyzji.

Przy dzisiejszym stanie technologii pozyskanie obrazu jest banalnie proste – dobre zdjęcie można wykonać zarówno smartfonem, jak i kamerą zainstalowaną w laptopie. Jeśli do jego wykonania wykorzystamy aparat cyfrowy, a zazwyczaj właśnie z tego typu urządzeń korzystamy, to obrazu nie trzeba będzie przekształcać do postaci cyfrowej – jedynej, którą komputer może zanalizować. Większym wyzwaniem będzie pozyskanie obrazu na potrzeby np. medycyny – tu bardzo często obrazuje się np. wnętrze ciała, ale i z tym współczesna technika sobie radzi.

Na tak uzyskanym obrazie należy następnie odnaleźć zestaw cech, które dobrze definiują identyfikowane obiekty. Dobrze oznacza tu fakt, że na ich podstawie będzie można je rozpoznać. Wybór tych cech silnie wpływa na rozpoznanie – wybiera się je więc dokładnie pod kątem konkretnego zastosowania. Bardzo często korzysta się z cech o charakterzeJak działa rozpoznawanie obrazów? ilościowym, które wygodnie można zarówno wyrazić jak i odłożyć na osiach współrzędnych. Dla ludzkiej twarzy może to być np. jej szerokość, odległość między kącikami ust czy źrenicami. Tak „zmierzoną” twarz można określić w przestrzeni, co wyznaczy nam punkt określający konkretny obiekt i odróżniający go od innych – nawet bardzo podobnych. I tu wkraczamy w obszar identyfikacji. Pozostając przy rozpoznawaniu ludzkiej twarzy, odpowiedni dobór cech pozwala na stworzenie przestrzeni, w której poszczególne z nich będą rozpoznawane i, co ważniejsze, już wstępnie identyfikowane – zdjęcia tej samej twarzy, nawet jeśli będą się od siebie różnić, znajdą się w tej przestrzeni bardzo blisko siebie. Punkty określające dwie różne twarze znajdować się będą daleko od siebie. Jak widać, bardzo łatwo takie zależności wykorzystać w identyfikacji – wystarczy „zmierzyć” twarz sfotografowanej osoby i porównać ją z wcześniej zapisanym wzorcem. Kluczowy jest tu oczywiście dobór cech, budujących ich przestrzeń. Będzie ona budowana inaczej w przypadku systemu rozpoznającego twarze i zupełnie inaczej w przypadku rozpoznawania liter. Zasada postępowania jest jednak identyczna.

To prowadzi nas do pojęcia klasy czyli zbioru obrazów z istotnymi cechami wspólnymi, prowadzącymi do tej samej decyzji końcowej. Jeśli rozpoznajemy twarze, cechy powinny być tak dobrane, aby obrazy tej samej osoby znalazły się w tej samej klasie. Odrębność klasyfikacji bardzo dobrze będzie widać także w przestrzeni cech. Tak jak pisaliśmy wcześniej, podobne obiekty będą się w niej znajdować blisko siebie, różniące się – daleko, co prowadzi nas do skupienia czyli dobrze odseparowanej grupy punktów, reprezentujących obiekty danej klasy. Jak łatwo się domyślić obiekty różnych klas będą znajdować się w znacznej odległości od innych klas. Grupowanie takie to niezbędny warunek, aby móc skutecznie rozpoznawać obiekty. Jeśli różne klasy, z powodu niewłaściwego wstępnego doboru cech, zostaną wymieszane, niemożliwym będzie ich poprawne pogrupowanie.

Przeczytaj także o wpływie technologii na powstawanie szczepionek.

Kolejny etap skupia się na właściwym opisie obrazu, którego formą jest formuła matematyczna. W tym przypadku możliwości jest bardzo wiele – długi rozwój tej problematyki poskutkował sporą liczbą różnych form, postulowanych przez wielu badaczy tej dziedziny. Odwołują się one do pojęcia funkcji przynależności, które tworzone są automatycznie przez algorytm rozpoznający obrazy, wykorzystujący proces uczenia się. Kluczowym jest, by jego „inteligencja” doprowadziła do tego, aby w każdym punkcie, wspomnianej wcześniej przestrzeni klas można było stwierdzić, w jakim stopniu badany obiekt spełnia przesłanki do zaliczenia go do odpowiedniej klasy. Nie jest to zadanie zbyt proste. W rzeczywistych zastosowaniach rozpoznawania obrazów badanych jest nawet kilkadziesiąt klas jednocześnie, a więc i przestrzeń, w jakich są one osadzone jest wielowymiarowa i daleko wykracza poza nasze zdolności do wyobrażenia sobie takiej przestrzeni.

Na szczęście w toku badań nad tą dziedziną wypracowano skuteczne metody – czasami zamiast budowania funkcji przynależności stosuje się np. granice pomiędzy skupieniami danych klas. Upraszcza to zadanie, ale nie zawsze jest możliwe, zwłaszcza przy dużej liczbie wymiarów.

Poprawnie zbudowany dobór funkcji przynależności dla wszystkich opisanych klas lub prawidłowo wyznaczone granice między nimi prowadzą bezpośrednio do ostatniego etapu całego procesu – rozpoznania i podjęcia decyzji. Rozpoznanie polega na tym, że dany obiekt przyporządkowywany jest do klasy, dla której funkcja przynależności ma największą wartość lub po której stronie wyznaczonej granicy się on znajduje. Oczywiście w bardzo prostych zadaniach zastosować można wyłącznie etap klasyfikacji cech, co bardzo często jest wystarczająco skuteczne i dużo prostsze niż przeprowadzanie procesu uczenia się.



Jak przydatny był ten post?

Kliknij gwiazdkę, aby go ocenić!

Średnia ocena 5 / 5. Liczba głosów: 1

Dotychczas brak głosów! Oceń ten post jako pierwszy.


Powiązane Artykuły

Na luzie o IT – nowa seria tips & tricks od Lenovo

Lenovo

Aplikacje dla kierowców - IT na Luzie #28

Lenovo

Jak postawić WordPressa? [wideo]

Lenovo

Komentarze do artykułu


widget instagram lenovo
widget twitter lenovo
widget facebook lenovo
widget youtube lenovo
Read previous post:
Lenovo PHAB Plus – recenzja

  W szesnastym odcinku Hardware na Luzie przedstawiamy Wam unikalne połączenie smartfona i tabletu! Mamy przyjemność zaprezentować wam Lenovo PHAB...

Close