Влияние выбора функции активации в CNN

Как мы видели в прошлой статье, функции активации являются фундаментальной концепцией нейронных сетей, поскольку они привносят в сеть нелинейность, позволяя модели изучать более сложные отношения и фиксировать сложные закономерности в данных.

В этом блоге мы узнаем об общих, но важных свойствах функций активации и о том, как они влияют на производительность модели. Знание того, как эти свойства влияют на производительность и сходимость модели, поможет исследователю принимать более правильные решения, когда придет время выбирать функцию активации.

Дифференцируемость и градиенты

Свойство дифференцируемости относится к способности функции иметь производную, которая четко определена в каждой точке своей области определения. Градиенты используются для оптимизации во время обратного распространения и предоставляют информацию о направлении и величине крутого спуска, позволяя модели корректировать веса, сводя к минимуму потери. Способ получения градиента — дифференцирование. Без градиента наши модели перестают улучшаться.

Не все функции активации имеют четко определенные градиенты повсюду в своей области. Функции активации, такие как ReLU, Sigmoid или Tanh, имеют четко определенные градиенты, но, например, функция Step не является дифференцируемой. Это делает ступенчатую функцию непригодной для алгоритмов оптимизации на основе градиента.

Монотонность и насыщенность

Монотонность функции активации определяется как увеличение входа, которое приводит к увеличению выхода (или наоборот). Монотонные функции активации желательны в нейронных сетях, поскольку они способствуют последовательным и предсказуемым изменениям выходных данных на основе изменений входных данных. Функции активации, такие как ReLU, Sigmoid и Softmax, являются монотонными, гарантируя, что более высокие входные значения приводят к более высоким выходным значениям, и сохраняя порядок данных.