Osztályozás II. - Képfeldolgozás

Valószínűségi eloszlás

Ha a modell nem kettő, hanem több osztály közül választ, akkor egyetlen 0 és 1 közötti érték helyett minden osztályhoz egy valószínűséget rendel, amelyek valószínűségi eloszlást alkotnak. A modell végső döntése a legnagyobb valószínűségi osztály, de lehet, hogy egy küszöbérték alatt a program nem hoz döntést.

Data augmentation

Az augmentáció célja a tanító adathalmaz mesterséges bővítése különböző átalakítások segítségével, amely képfeldolgozásnál például forgatást, tükrözést, nagyítást, eltolást vagy zaj hozzáadását jelenti. A módosított képek továbbra is ugyanahhoz az osztályhoz tartoznak, de segítenek abban, hogy a modell ne csak a tanító adatok pontos mintázatait tanulja meg. Csökkenti a túltanulás kockázatát kis adathalmazok esetén.

Batch normalization

A rétegek hatásának (aktivációinak) batch szintű standardizálásával (0 átlag, 1 szórás) a tanítás gyorsabbá és stabilabbá válik, különösen mélyebb hálózatok alkalmazásakor. A Batch Normalization először az éppen tanult batch átlagát és varianciát számolja ki, majd azok segítségével standardizál. Alapból az instabilitást az eltérő nagyságú és eltolású bemeneti adatok adják, ezt korrigálja a módszer. Továbbá a BN az aktivációk után bevezet két tanulható paramétert, ezek lehetővé teszik, hogy a hálózat szükség esetén visszaállítsa, esetleg módosítsa az aktivációk optimális eloszlását.

Batch átlaga és varianciája:

$ \bar{x}_b = \dfrac{1}{n_b} ⋅ \displaystyle\sum_{i=1}^{n_b} x_i $

$ \sigma_b^2 = \dfrac{1}{n_b} ⋅ \displaystyle\sum_{i=1}^{n_b} (x_i - \bar{x}_b)^2 $

Standardizálás:

$ x_i' = \dfrac{x_i - \bar{x}_b}{\sqrt{\sigma_b^2 + \epsilon}} $

Új tanulható paraméterek:

$ y_i = \alpha ⋅ x_i' + \beta $

Kiértékelés

Accuracy:

Egy modell pontossága a helyesen prediktált értékek és az predikciók számának arányával mérhető. Bináris osztályozás esetén a helyesen igaznak (TP) és a helyesen hamisnak (TN) osztályozott minták, és az összes vizsgált minta aránya a pontosság, de több osztály esetén is értelmezhető hasonló számítással.

$ \dfrac{TP + TN}{TP + FP + TN + FN} $

Precision:

A pontosság sokszor nem mutatja meg önmagában, hogy mennyire működik egy modell megfelelően, emiatt fontos azt is mérni, hogy a pozitívnak jelölt minták milyen arányban voltak valóban pozitívak. Ha több osztály van, akkor minden osztályra számolható pontosság a helyesen és helytelenül oda sorolt minták arányával.

$ \dfrac{TP}{TP + FP} $

Recall:

A precizitáshoz hasonló mutató a recall, amely azt mutatja meg, hogy a valóban pozitív minták közü hányat talált meg a modell, több osztály esetén pedig azt, hogy egy adott osztály mintáit milyen arányban sorolta a modell a helyes osztályba. A két mérőszám együtt segít megérteni a modell viselkedését, mivel előfordulhat, hogy egy modell pontos, de közben sok valódi pozitív példát kihagy, vagy sok hamis pozitív találatot ad.

$ \dfrac{TP}{TP + FN} $

További metrikák:

F1-score, Top-5 Accuracy, Average Precision, mAP, IoU