Введение в глубокое машинное обучение
Что такое глубокое машинное обучение?
Почему именно глубокое машинное обучение?
Ручное извлечение признаков требует много времени, ненадежно и плохо масштабируется на практике. Глубокое машинное обучение позволяет извлекать важные признаки напрямую из данных.
Перцептрон (один нейрон)
Фундаментальный строительный блок нейросети.
$$ \overbrace{\hat{y}}^{\text{Выход}} = \overbrace{g\left(\underbrace{w_0}_{\text{Смещение}} + \sum_{i=1}^m \underbrace{x_i}_{\text{Вход}} \underbrace{w_i}_{\text{Вес}}\right)}^{\text{Нелинейная функция активации}} $$
$$ \hat{y}=g\left(w_0+\boldsymbol{X}^T \boldsymbol{W}\right) $$ $$ \text{где:} \quad \boldsymbol{X}=\left[\begin{array}{c}x_1 \\ \vdots \\ x_m\end{array}\right] \quad \text{и} \quad \boldsymbol{W}=\left[\begin{array}{c}w_1 \\ \vdots \\ w_m\end{array}\right] $$
$$ \hat{y}=g\left(w_0+\boldsymbol{X}^T \boldsymbol{W}\right) $$ $$ \text{где:} \quad \boldsymbol{X}=\left[\begin{array}{c}x_1 \\ \vdots \\ x_m\end{array}\right] \quad \text{и} \quad \boldsymbol{W}=\left[\begin{array}{c}w_1 \\ \vdots \\ w_m\end{array}\right] $$
Функции активации
\[\hat{y}=\textcolor{DarkGoldenrod}{g}\left(w_0+\boldsymbol{X}^T \boldsymbol{W}\right)\]Контроль активации и передачи сигнала между нейронами для нелинейности и адаптации к выявлению сложных шаблонов в данных.
Разновидности функции активации
Построение нейросетей с перцептроном
Упрощенная версия перцептрона
$$ z=w_0+\sum_{j=1}^m x_j w_j $$
Упрощенная версия многовыходного перцептрона
Все входы соединены со всеми выходами, эти слои называются полносвязными (Dense).
$$ z_\textcolor{DarkGoldenrod}{i}=w_{0, \textcolor{DarkGoldenrod}{i}}+\sum_{j=1}^m x_j w_{j, \textcolor{DarkGoldenrod}{i}} $$
Однослойная нейросеть
Глубокая нейросеть
Функции потерь
Стоимость ошибок предсказаний.
$$ \mathcal{L}\left(\underbrace{f\left(x^{(i)} ; \boldsymbol{W}\right)}_{\text{Предсказание}}, \underbrace{y^{(i)}}_{\text{Факт}}\right) $$
Разновидности функции потерь
Алгоритмы оптимизации
Оптимизация параметров нейросетевой модели для минимизации функции потерь.
Разновидности алгоритмов оптимизации
Понравилась заметка?
Вот еще несколько заметок, которые, возможно, захотите прочитать дальше: