Sztuczne sieci neuronowe
Sztuczne sieci neuronowe (z ang. Artificial Neural Networks) są jedną z wielu technik eksploracji danych (z ang. data mining). Sztuczne sieci neuronowe należą do podzbioru sztucznej inteligencji (z ang. Artificial Intelligence) (Tadeusiewicz 2001). Modele sieci neuronowych są dużo bardziej prymitywne niż ich pierwowzór – czyli biologiczny układ nerwowy, pomimo to pozwalają na modelowanie zjawisk oraz procesów słabo ustrukturyzowanych i zalgorytmizowanych. Dają one możliwość zbudowania efektywnie działającego modelu bez określania natury związków między zmiennymi, np. modelowania procesów typu czarna skrzynka, tj. o nieokreślonej naturze fizycznej. Posiadają również umiejętność adaptacji i samorealizacji nabytą w procesie uczenia sieci, co zostało przedstawione w licznych publikacjach z tej dziedziny (Knosala 2002, Kozłowski i Perzyk 2007, Parol i Piotrowski 2008, Tadeusiewicz 1993 oraz 2001).
Pierwszy model sztucznej sieci neuronowej powstał w 1943 roku, kiedy to neurofizjolog Warren McCulloch i młody matematyk Walter Pitts opracowali formalnie pierwszy model elementarny neuronu (Siddique i Adeli 2013). Opracowany przez nich model zdefiniowano poniższym wzorem:
(1)
gdzie: i = 1, 2 ..., n
T – wartość progowa
W kolejnych latach sztuczne sieci neuronowe były poddawane modyfikacjom przez kolejnych wybitnych specjalistów. Warto wspomnieć, iż nazwę perceptron jako pierwszy wprowadził neurobiolog uniwersytetu Cornell – Frank Rosenblatt (Siddique i Adeli 2013). Wprowadził on do modelu sieci neuronowej wartość nazywaną biasem:
(2)
gdzie: i = 1, 2 ..., n
b – bias
Sieci neuronowe mogą być sklasyfikowane na podstawie kilku wyróżniających je cech, do których należą: typ sygnału wejściowego, budowa sieci i sposób ich uczenia. Sygnał wejściowy może być sygnałem binarnym lub ciągłym (Kozłowski i Perzyk
2007). Do pierwszego typu należą takie typy sieci jak: sieć Hopfielda, sieć Hamminga czy też sieć ART1. Perceptron i sieć Kohonena są przedstawicielami drugiego typu sieci (Knosala 2002, Kozłowski i Perzyk 2007).
Analizując struktury sieci neuronowych, można wyróżnić trzy główne rodzaje: sieci jednokierunkowe, rekurencyjne i komórkowe (Parol i Piotrowski 2008, Tadeusiewicz 1993). Cechą charakterystyczną sieci jednokierunkowych jest to, że sygnał przebiega od neuronu warstwy niższej do neuronu warstwy wyższej. Ponadto w sieciach takich nie występują połączenia między neuronami w tej samej warstwie ani też połączenia od neuronów warstwy wyższej do niższej (Tadeusiewicz 1993). Przykładem takiej sieci neuronowej jest perceptron. Rysunek 1. przedstawia sieć typu MLP, czyli perceptron wielowarstwowy (z ang. Multi Layer Perceptron). Jest to najczęściej używany typ sieci (Tadeusiewicz 1993 oraz 2001). Sztuczna sieć neuronowa typu MLP składa się z trzech głównych warstw: wejściowej, ukrytej i wyjściowej. Neurony warstwy wejściowej przetwarzają pierwotne sygnały na wejściu do sieci. W warstwie ukrytej może być dowolna ilość neuronów, jak również samych warstw ukrytych, aczkolwiek badania wykazały, iż zbyt duża liczba neuronów w warstwie ukrytej może niekorzystnie wpływać na zdolności sieci do generalizacji. Ilość neuronów w warstwie wyjściowej odpowiada ilości zmiennych zależnych, czyli wynikowych badanego problemu (Tadeusiewicz 1993 oraz 2001).
Opisując budowę modelu sztucznej sieci neuronowej należy wspomnieć o budowie pojedynczego neuronu. Na wejściu do
neuronu docierają sygnały – wartości wejściowe, które pochodzą od neuronów warstwy poprzedniej, albo też są to wartości pierwotne – w przypadku, gdy są to neurony warstwy wejściowej. Sygnały wejściowe posiadają swoje wagi, czyli wartości odpowiadające efektywności danej synapsy w neuronie. Każdy neuron posiada również tzw. wartość progową (bias), która musi zostać przekroczona w celu zadziałania neuronu. Sam neuron składa się z dwóch bloków: sumowania i aktywacji. Blok sumowania oblicza ważoną sumę wejść, tj. sumę wartości sygnałów wejściowych przemnożoną przez współczynniki wagowe, co można określić poniższym wzorem (Tadeusiewicz 1993):
(3)
Blok aktywacji oblicza wartość wyjściową neuronu i w najprostszej postaci jest nią funkcja liniowa y = f (s). Poza funkcją liniową wyróżniamy następujące funkcje aktywacji:
n sigmoidalną,
n tangensoidalną,
n gaussowską.
Wymienione funkcje aktywacji neuronu określane są niekiedy jako s-kształtne, gdyż są to funkcje aktywacji dostarczające sygnały o wartościach zmieniających się w sposób ciągły. Progowa funkcja aktywacji jest stosowana bardzo rzadko (Tadeusiewicz 1993).
Problematyka jakości nawoju
Tematyka jakości nawoju jest mało znana, brakuje rozwiązań utylitarnych oraz implementacji wiedzy teoretycznej w obszarach problematyki przemysłowej dotyczącej podejmowanych zagadnień. Więcej uwagi niniejszym kwestiom poświęcono w publikacjach (Krystosiak 2015, Krystosiak i Werpachowski 2014, Walker 2009). Niemniej warte wspomnienia jest to, iż w angielskojęzycznych pozycjach literaturowych oraz zasobach elektronicznych z tej dziedziny przewija się termin web handling, co oznacza w wolnym tłumaczeniu radzenie sobie z nawijaniem wstęgi lub inaczej nawijanie wstęgi z maksymalną wydajnością i z minimalną stratą (Paper, Film & Foil Converter, Web Processing & Finishing Technologies, International Conference on Web Handling). Pytanie, jakie należy zadać mówiąc o jakości nawoju konfekcjonowanego wyrobu, brzmi: jakie parametry początkowe nawijania są odpowiednie, żeby proces przebiegał bezproblemowo? Jest to zagadnienie stanowiące obiekt badań naukowych i są różne metody określania parametrów początkowych nawijania takich jak naciągi utrzymujące właściwe naprężenie w trakcie nawijania (Walker 2009), niemniej jest to wiedza bazująca na stałym eksperymentowaniu, gdyż wiele jest zmiennych mających wpływ na jakość nawoju, poza tym jakość zmiennych również może ulec zmianie w funkcji czasu.
Jak ogólnie wiadomo, w praktyce produkcyjnej w wielu dużych przedsiębiorstwach – również poligraficznych – gromadzone są dane, zapisy dotyczące parametrów procesu. Wydobycie z nich informacji w postaci opracowanych modeli reguł i zasad postępowania jest przedmiotem interdyscyplinarnej dziedziny nauki, jaką jest eksploracja danych (data mining), która wykorzystuje metody statystyczne, czy sztucznej inteligencji, jak np. sztuczne sieci neuronowe, drzewa decyzyjne, systemy ekspertowe i inne. Efektem tych działań może być np. poprawa jakości wyrobu i procesu oraz obniżenie kosztów wytwarzania. Wstępne badania nad zastosowaniem sztucznych sieci neuronowych w celu predykcji początkowych parametrów nawijania etykiet termokurczliwych w przedsiębiorstwie opakowaniowym przyniosły pozytywny efekt, co zostało przedstawione m.in. w publikacji (Krystosiak 2015) udowadniając, iż ta metoda może być użyteczna w sterowaniu jakością procesu nawijania.
Predykcja początkowych parametrów nawijania z użyciem sztucznej sieci neuronowej
W wyniku przeprowadzonych badań problematyki jakości nawoju postawiono tezę, iż zastosowanie metod eksploracji danych i uczenia maszynowego w procesie konfekcjonowania etykiet termokurczliwych pozwoli na ograniczenie strat produkcyjnych oraz umożliwi uzyskanie wymiernych efektów technicznych, ekonomicznych i organizacyjnych. W celu zweryfikowania powyższej tezy sformułowano hipotezy badawcze (Krystosiak 2015):
n poprzez zastosowanie narzędzi eksploracji danych i uczenia maszynowego możliwe jest pozyskanie wiedzy, umiejętności i doświadczenia, pozwalającego na optymalne wykorzystanie procesu konfekcjonowania etykiet termokurczliwych;
n opracowane modele predykcyjne mogą być pomocne w ustaleniu początkowych parametrów naciągów oraz prędkości nawijania maszyn konfekcjonujących etykiety termokurczliwe;
n istnieją zależności w procesie konfekcjonowania etykiet termokurczliwych, które można wyko
rzystać do budowy modeli predykcyjnych w celu ich zastosowania do właściwego sterowania jakością nawoju.
Zastosowanie sztucznej sieci neuronowej w celu predykcji początkowych parametrów nawijania etykiet termokurczliwych przyniosło pozytywny efekt, toteż postawione w pracy (Krystosiak 2015) hipotezy zostały zweryfikowane i potwierdzone. Kolejnym krokiem będą próby optymalizacji efektów predykcji sieci neuronowych poprzez ingerencję w topologię sieci.
Badanie różnych topologii sztucznych sieci neuronowych
W pierwszym przypadku postanowiono przetestować efekt możliwości automatycznych sieci neuronowych programu Statistica ANN (z ang. Automated Neural Networks). Do opracowania wstępnego modelu użyto następujących zmiennych wejściowych:
x1 – szerokość rękawa [mm]
x2 – grubość materiału [µm]
x3 – rodzaj materiału [M1, M2, M3, …]
x4 – producent materiału [P1, P2, P3, …]
x5 – maszyna konfekcjonująca [S-1, S-2, S-3, …]
oraz trzech zmiennych wyjściowych, będących początkowymi parametrami nawijania:
y1 – naciąg odwijak [N]
y2 – naciąg nawijak [N]
y3 – prędkość nawijania [m/min]
Zastosowano standardową metodę próbkowania, czyli liczność prób losowych: ucząca – 70%, testowa i walidacyjna po
15%. Wybrano również proponowane ustawienia odnośnie do
ilości neuronów ukrytych pomiędzy 3 – 11, a typ sieci – sieć MLP, czyli perceptron wielowarstwowy. Zastosowano wszystkie możliwe funkcje aktywacji zarówno dla neuronów ukrytych, jak i wyjściowych. W poniższej tabeli zestawiono otrzymane wyniki dla automatycznie wygenerowanych przez program Statistica pięciu sztucznych sieci neuronowych.
Do dalszych porównań wybrano sieć nr 3 – MLP 17-10-3 wyróżnioną niebieskim tekstem w poniższej tabeli (tab. 1). Przypomnijmy: MLP 17-10-3 oznacza, iż jest to perceptron wielowarstwowy, który posiada 17 neuronów w warstwie wejściowej, 10 neuronów w warstwie ukrytej oraz 3 w warstwie wyjściowej. Algorytm uczenia BFGS odnalazł daną sieć w 190. cyklu procesu uczenia. Funkcję błędów policzono wg metody SOS, czyli sumy kwadratów (z ang. Sum Of Squares), do aktywacji neuronów ukrytych została użyta funkcja logistyczna, natomiast do aktywacji neuronów wyjściowych program zastosował funkcję liniową. Poniżej przedstawiono korelacje na danych walidacyjnych pomiędzy zmienną zależną a wyjściem sieci, jako miernik skuteczności predykcji wygenerowanej sieci neuronowej (rys. 2).
Sieć 3. MLP 17-10-3 opracowana wg projektu automatycznego sieci osiągnęła współczynniki korelacji (rys. 2) do zmiennych zależnych dla danych walidacyjnych na poziomie: prędkość nawijania = 0,84, naciąg odwijak = 0,73 oraz naciąg nawijak = 0,86.
Kolejnym krokiem będzie weryfikacja, jaki efekt osiągnie sieć wg projektu użytkownika. Należy zauważyć, iż liczba neuronów w warstwie ukrytej ma zasadnicze znaczenie dla jakości uczenia danej sieci, co zostało udowodnione w pracach (Tadeusiewicz 1993 oraz 2001), gdzie stwierdzono, iż liczba neuronów warstwy ukrytej znacznie przekraczająca 10 może prowadzić do utraty przez sieć zdolności do generalizacji, co oznacza gorszą predykcję dla takich samych wielkości wejściowych, dlatego też postanowiono sprawdzić, jak zachowa się sieć podczas zwiększania liczby neuronów w warstwie ukrytej. Należy wskazać, iż jedynie liczba neuronów w warstwie ukrytej może być dowolnie konfigurowana, natomiast neurony warstw wejściowej i wyjściowej pozostają niezmienne, gdyż są ściśle zależne od liczby zmiennych –
wejściowych i wyjściowych sieci. W toku prac ustalono, że będą to sieci typu MLP z logistyczną funkcją aktywacji dla neuronów ukrytych oraz liniową funkcją aktywacji dla neuronów wyjściowych. Jako algorytm uczący wybrano BFGS, natomiast liczba neuronów ukrytych będzie zmieniana – w kolejnych topologiach sieci będzie to: 5, 7, 11, 17 i 25 neuronów warstwy ukrytej.
Wyniki z przeprowadzonych prób przedstawiono na poniższych wykresach. Warte zaznaczenia jest to, iż w przypadku współczynników korelacji (rys. 3) w żadnym przypadku efekt zmiany topologii sieci nie wpłynął na znaczącą poprawę wyniku uzyskanego poprzez automatyczną sieć wygenerowaną za pomocą programu Statistica (sieć a. MLP 17-10-3).
Analizując uśredniony wykres jakości oraz błędu predykcji sztucznej sieci neuronowej (rys. 4) zauważono, iż nie udało się osiągnąć znacznie lepszego wyniku, aniżeli automatycznie wygenerowany projekt sieci. Jednocześnie stwierdzono, iż zwiększenie liczby neuronów w warstwie ukrytej powyżej 10 pogorszyło jakość predykcji, a tym samym wzrósł współczynnik błędu sieci. Najlepsze właściwości prezentuje sieć 6. MLP 17-7-3 oraz a. MLP 17-10-3, która jest automatycznym projektem sieci, wygenerowanym przez program Statistica.
Podsumowanie
W niniejszym artykule została podjęta próba weryfikacji wpływu różnych topologii sztucznej sieci neuronowej na jakość predykcji, która w tym przypadku była mierzona za pomocą współczynników korelacji zmiennych zależnych, a wyjściem sieci oraz współczynnika błędu predykcji danej sieci. Są to jedne z wielu mierników jakościowych sztucznych sieci neuronowych (Kozłowski i Perzyk 2007). Zmiany w topologii sieci dotyczyły badania wpływu zwiększenia liczby neuronów w warstwie ukrytej. O ile zwiększanie liczby neuronów warstwy ukrytej nie wpłynęło znacząco na współczynniki korelacji predykcji początkowych parametrów nawijania, o tyle jakość predykcji wyrażona współczynnikiem błędu sieci nieznacznie pogorszyła się – tym samym dowodząc teorii mówiącej, że liczba neuronów warstwy ukrytej znacznie przekraczająca 10 może prowadzić do utraty przez sieć zdolności do generalizacji, co oznacza gorszą jakość predykcji (Tadeusiewicz 1993 oraz 2001).
Opisana powyżej próba weryfikacji jakości predykcji za pomocą ingerencji w topologię sieci przedstawia jedynie wąski margines możliwości, jakie dają rozbudowane narzędzia sztucznych sieci neuronowych. W celu wykorzystania pełni możliwości analizy różnych topologii sieci należałoby zastosować np. metodę planowania doświadczeń DOE (z ang. Design Of Experiments), która pozwoliłaby na przeanalizowanie wpływu znacznej liczby czynników topologii sieci za pomocą opracowanego planu badań wg tej metodyki.
Bibliografia
1. Jacek Kozłowski i Marcin Perzyk. Zastosowanie rozszerzonej analizy wyników sztucznych sieci neuronowych w zagadnieniach odlewniczych. XXXII Sympozjum Naukowo-Techniczne Zakładu Odlewnictwa ITMat. Warszawa, 2007. 32-40
2. Krzysztof Krystosiak i Wojciech Werpachowski. Zaawansowane metody eksploracji danych kluczem do doskonalenia procesu produkcji etykiet termokurczliwych. Produkt i Opakowanie Współczesne Wyzwania
– P&P. Łódź, 2014
3. Krzysztof Krystosiak. Metoda predykcji parametrów nawijania etykiet termokurczliwych. Opakowanie, Czerwiec 2015: 81-84
4. Mirosław Parol i Paweł Piotrowski. Sztuczna inteligencja w praktyce. Laboratorium. Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2008
5. Nazmul Siddique i Hojjat Adeli. Computational Intelligence: Synergies of Fuzzy Logic, Neural Networks Intelligent Systems and Applications. John Wiley & Sons, Inc., 2013
6. Paper, Film & Foil Converter. 2015. http://www.pffc-online.com/ (data uzyskania dostępu: grudzień 2015)
7. Ryszard Tadeusiewicz. Sieci Neuronowe. Warszawa: Akademicka Oficyna Wydawnicza, 1993
8. Ryszard Tadeusiewicz. Wprowadzenie do sieci neuronowych. Kraków: StatSoft Polska, 2001
9. StatSoft Polska. 2015. http://www.statsoft.pl/ (data uzyskania dostępu: styczeń 2016)
10. Timothy Walker. What Is The Right Tension? Paper, Film & Foil Converter, 12 2009
11. Web Processing & Finishing Technologies. 2015. http://www.convertingquarterly.com/ (data uzyskania dostępu: grudzień 2015)