Введение в глубокое машинное обучение

Что такое глубокое машинное обучение?

Почему именно глубокое машинное обучение?

Ручное извлечение признаков требует много времени, ненадежно и плохо масштабируется на практике. Глубокое машинное обучение позволяет извлекать важные признаки напрямую из данных.

Перцептрон (один нейрон)

Фундаментальный строительный блок нейросети.

$$ \overbrace{\hat{y}}^{\text{Выход}} = \overbrace{g\left(\underbrace{w_0}_{\text{Смещение}} + \sum_{i=1}^m \underbrace{x_i}_{\text{Вход}} \underbrace{w_i}_{\text{Вес}}\right)}^{\text{Нелинейная функция активации}} $$

$$ \hat{y}=g\left(w_0+\boldsymbol{X}^T \boldsymbol{W}\right) $$ $$ \text{где:} \quad \boldsymbol{X}=\left[\begin{array}{c}x_1 \\ \vdots \\ x_m\end{array}\right] \quad \text{и} \quad \boldsymbol{W}=\left[\begin{array}{c}w_1 \\ \vdots \\ w_m\end{array}\right] $$

Функции активации

Контроль активации и передачи сигнала между нейронами для нелинейности и адаптации к выявлению сложных шаблонов в данных.

\[\hat{y}=\textcolor{DarkGoldenrod}{g}\left(w_0+\boldsymbol{X}^T \boldsymbol{W}\right)\]

Разновидности функции активации

Построение нейросетей с перцептроном

Упрощенная версия перцептрона

$$ z=w_0+\sum_{j=1}^m x_j w_j $$

Упрощенная версия многовыходного перцептрона

Все входы соединены со всеми выходами, эти слои называются полносвязными (Dense).

$$ z_\textcolor{DarkGoldenrod}{i}=w_{0, \textcolor{DarkGoldenrod}{i}}+\sum_{j=1}^m x_j w_{j, \textcolor{DarkGoldenrod}{i}} $$

Однослойная нейросеть

Глубокая нейросеть

Функции потерь

Стоимость ошибок предсказаний.

$$ \mathcal{L}\left(\underbrace{f\left(x^{(i)} ; \boldsymbol{W}\right)}_{\text{Предсказание}}, \underbrace{y^{(i)}}_{\text{Факт}}\right) $$

Разновидности функции потерь

Алгоритмы оптимизации

Оптимизация параметров нейросетевой модели для минимизации функции потерь.

Разновидности алгоритмов оптимизации

Вот еще несколько заметок, которые, возможно, захотите прочитать дальше: