BinaryConnet: Training Deep Neural Networks with binary weights during propagations

arxiv.org
2015
BinaryConnectの筆者らの実装 github.com

ベロンベロンで書いているので日本語になってないかも

一言でいうと

学習の順伝搬及び逆伝搬で重みを２値化(-1, 1)して、精度を維持しながらDNNの容量及び計算を少なくする。このBinaryConnectは正則化として振る舞い、（2015年当時の）SOTAレベルの結果を維持することができる。

２値化でも機能する理由：

ノイジーな重みでも互換性SGDに互換性がある。ランダムまたは確率的な丸めが偏りのない離散化をするのに使われる。
ノイジーな重みは正則化として汎化性能を高める。

結果

2/3の演算が除去できた
学習時間が3倍短くなった。
16倍以上の必要メモリ量を削減（16bitの浮動少数から単ビット精度）

精度も維持

f:id:taku-buntu:20190117032019p:plain — エラー率

手法

+1 or -1

重みは-1か+1にする。こうすることで、行列演算は単なる加算か減算になる。固定ポイントアダーとして固定ポイント積算アキュムレータよりもエネルギーと面積が少ない。

決定論的２値化 vs 確率的２値化

決定論的： $w _ { b } = \left{ \begin{array} { l l } { + 1 } & { \text { if } w \geq 0 } \ { - 1 } & { \text { otherwise } } \end{array} \right.$

確率的： $w _ { b } = \left{ \begin{array} { l l } { + 1 } & { \text { with probability } p = \sigma ( w ) } \ { - 1 } & { \text { with probability } 1 - p } \end{array} \right.$
$\sigma$ はハードシグモイド関数。
$\sigma ( x ) = \operatorname { clip } \left( \frac { x + 1 } { 2 } , 0,1 \right) = \max \left( 0 , \min \left( 1 , \frac { x + 1 } { 2 } \right) \right)$