ニューラルネットワーク図

信号伝達の行列式

$\large{ \textbf{A}^{(1)} = \textbf{XW}^{(1)} + \textbf{B}^{(1)} }$

ただし、A、X、W、Bは以下の通り

$\large{ \textbf{A}^{(1)} = \begin{pmatrix} a^{(1)}_1 & a^{(1)}_2 & a^{(1)}_3 \end{pmatrix} }$ 、 $\large{ \textbf{X}^{(1)} = \begin{pmatrix} x_1 & x_2 \end{pmatrix} }$

$\large{ \textbf{B}^{(1)} = \begin{pmatrix} b^{(1)}_1 & b^{(1)}_2 & b^{(1)}_3 \end{pmatrix} }$ 、 $\large{ \textbf{W}^{(1)} = \begin{pmatrix} w^{(1)}_{11} & w^{(1)}_{21} & w^{(1)}_{31} \\\ w^{(1)}_{12} & w^{(1)}_{22} & w^{(1)}_{32} \end{pmatrix} }$

活性化関数

活性化関数( $\large{ h() }$ )には、様々ありますが、 sigmoid関数とReLU関数の式とグラフは、以下の通り

sigmoid関数

$\Large{ h() = \frac{1}{ 1 + e^{-x}} }$

ReLU関数 (ランプ関数)

$\large{ h() = \begin{Bmatrix} x & (x ＞ 0) \\ 0 & (x ≦ 0) \end{Bmatrix} }$

ソフトマックス関数

再度に、出力層に使用する softmac関数である $\large{ σ() }$ は、以下の通り

ソフトマックス関数の特徴

出力値である各 $\large{y_i}$ は、0～1をとり、その合計が、1となることから、確率に利用できます。

基本形

$\Large{ y_k = \frac { exp(a_k) }{ \sum^n_{i=1} exp(a_i)} }$

オーバーフロー対応型

基本形では、桁あふれの問題があるようですのが、これを対策すると、以下のようになります。

$\large{ C' }$ は任意定数ですが、一般的には最大値を指定するようです。

$\Large{ y_k = \frac { exp(a_k) }{ \sum^n_{i=1} exp(a_i)} = \frac { C exp(a_k) }{ C \sum^n_{i=1} exp(a_i)} \\\ = \frac { C exp(a_k + log C) }{ C \sum^n_{i=1} exp(a_i + logC )} = \frac { C exp(a_k + C') }{ C \sum^n_{i=1} exp(a_i + C' )} }$