Perceptron wielowarstowy

2 lipiec 2008 | Wojciech Wilusz | Artykuł
Istnieje cały szereg typów i rodzajów sieci, które potrafią różnić się od siebie zarówno strukturą, jak i zasadą działania. Dla uzupełnienia tematu sztucznych sieci neuropodobnych, spróbuję przybliżyć kilka ich rodzajów. Tematem dzisiejszej notki jest sieć "powszechnie znana" - perceptron wielowarstwowy.

Perceptron wielowarstwowy zalicza sią do nieliniowych sieci neuropodobnych. Sama nazwa wskazuje na to, że bardzo ważną cechą tego typu sieci jest posiadanie przez nie wielu warstw, dlatego też często oznacza się je symbolem MLP (z ang. Multi Layer Perceptron). W tego rodzaju sieci każdy neuron wprowadza do struktury element, który może być określony ze względu na kształt funkcji aktywacji jako "urwisko sigmoidalne". Zgodnie bowiem z zasadą funkcjonowania neuronów w sieciach neuropodobnych typu MLP, poziom pobudzenia pojedynczego neuronu jest pewną liniową funkcją wartości wejściowych, a wyznaczona wartość łącznego pobudzenia przepuszczana jest właśnie przez funkcje sigmoidalną w celu wyznaczenia sygnału odpowiedzi neuronu. Można przywołać tutaj analogię (w przypadku zadań związanych z rozpoznawaniem) do liniowej funkcji dyskryminującej: punkty położone po jednej stronie urwiska zostają zaklasyfikowane jako należące do jednej klasy, a punkty położone po drugiej stronie jako nienależące do tejże klasy. Przewagą sieci nieliniowych posiadających warstwy ukryte jest znaczne poszerzenie spektrum zadań, do których rozwiązywania można je zastosować. Nie występuje tu bardzo mocne ograniczenie do tzw. problemów liniowo-separowalnych, czyli takich, w których istnieje linia prosta, a dokładniej - hiperpłaszczyzna, która może być przeprowadzona w taki sposób, że oddziela wzajemnie od siebie obiekty rozróżnianych klas. W sieciach typu MLP o dwóch warstwach ukrytych, mając od dyspozycji odpowiednią ilość "urwisk sigmoidalnych", możliwe jest modelowanie wszystkich rodzajów zależnosci danych wyjściowych od danych wejściowych. Powodem jest fakt, że dla tego typu sieci obszar wyróżniony, powstający po etapie treningu, może posiadać formę szeregu połączonych (dowolnie) ze sobą różnokształtnych obszarów, co pozwala bez ograniczeń modelować zarówno wypukłe, jak i wklęsłe obszary decyzyjne.

Niekiedy opłacalne jest wykorzystanie prostszej sieci, będącej odpowiednikiem modelu liniowego. Sieć taka nie posiada warstw ukrytych, a neurony znajdujące się w jej warstwie wyjściowej są w pełni liniowe — tzn. są to neurony, w których łączne pobudzenie wyznaczane jest jako liniowa kombinacja wartości wejściowych i które posiadają liniową funkcję aktywacji. Sytuacja, która może skłonić do zastosowania właśnie modeli liniowych to w szczególności niewielki zbiór uczący. W takiej sytuacji ilość posiadanych danych może okazać się niewystarczająca dla skutecznego wytrenowania innego rodzaju sieci neuropodobnej, co w praktyce uniemożliwia ich skuteczne stosowanie. Wówczas wykorzystanie modelu liniowego jest najwłaściwszą metodą próby rozwiązania problemu. Należy jednak mieć na uwadze, że ubogi pod wzgledem zróżnicowania zbiór wejściowy, który nie charakteryzuje dostatecznie rozwiązywanego zadania może uniemożliwić także wykorzystanie sieci liniowej. Do nauczania sieci MLP wykorzystywany jest najczęściej algorytm wstecznej propagacji błedów, którego omówienie znajduje się niemal w każdej książce, poruszającej temat sieci neuronowych (vide: bibliografia).

 

Bibliografia:

  1. Encyklopedia fizyki współczesnej. http://aneksy.pwn.pl/encyklopedia_fizyki.
  2. R. Tadeusiewicz. Wprowadzenie do praktyki stosowania sieci neuronowych.
    StatSoft, 2004.
  3. S. Haykin. Neural Networks - A Comprehensive Foundation. Maxmillan College
    Publishing Company, 1994.
  4. P. Piction. Neural Networks. Second Edition. Palgrave, 2000.




Komentarze




Nowy komentarz


 

 E-mail nie będzie publikowany

 Kompletny link z http://

 To robimy aby utrudnic spamowanie botami.