ReLU
ReLU este acronimul pentru Unitate liniară rectificată
o funcție de activare populară utilizată în rețelele neuronale artificiale, în special în modelele de învățare profundă, cum ar fi rețelele neuronale convoluționale (CNN) și rețele complet conectate. Funcțiile de activare sunt componente esențiale ale rețelelor neuronale, deoarece introduc neliniaritatea în model, permițând rețelei să învețe modele și relații complexe în date.
Funcția ReLU este definită ca:
Se încarcă formula...Cu alte cuvinte, dacă valoarea de intrare (x) este pozitivă, funcția returnează însăși valoarea de intrare, în timp ce dacă valoarea de intrare este negativă sau zero, funcția returnează 0.
ReLU are câteva avantaje care au contribuit la popularitatea sa în deep learning:
- Simplitate de calcul: ReLU este eficient din punct de vedere computațional în comparație cu alte funcții de activare, cum ar fi tangenta sigmoidă sau hiperbolică (cu gust de peşte), deoarece necesită doar o operație simplă de prag.
- Neliniaritate: ReLU introduce neliniaritatea în rețeaua neuronală, permițându-i să învețe funcții și relații complexe.
- Atenuează problema gradientului de dispariție: ReLU ajută la atenuarea problemei gradientului de dispariție, o problemă comună în modelele de învățare profundă, unde gradienții funcției de pierdere devin extrem de mici în timpul propagării inverse, ceea ce duce la o învățare lentă sau ineficientă. Deoarece gradientul funcției ReLU este fie 0, fie 1, împiedică gradienții să devină prea mici pentru valorile de intrare pozitive.
Cu toate acestea, ReLU are și unele limitări:
- Neuroni morți: ReLU poate provoca neuroni morți, unde unii neuroni din rețea devin inactivi și nu contribuie la învățare deoarece valorile lor de intrare sunt în mod constant negative, ducând la un gradient zero. Această problemă poate fi atenuată utilizând variante ale funcției ReLU, cum ar fi Leaky ReLU sau Parametric ReLU (PRELU), care permit gradienți mici, diferit de zero pentru valorile negative de intrare.
În ciuda acestor limitări, ReLU rămâne o alegere populară pentru funcțiile de activare în modelele de învățare profundă datorită simplității și eficacității sale în învățarea modelelor și relațiilor complexe din date.