バッチサイズと学習率の関係とは?

Adabatch論文によると,バッチサイズを大きくすることは学習率を小さくすることとイコールらしい.
一方で,Batch Normalizationまわりの知見では,「バッチサイズを大きくした場合は学習率を大きくすることができる」というのが一般的である.
これらの言説は矛盾しているようにも見えるが,よくよく考えてみると整合性のある説明が可能である.
バッチサイズを大きくする=学習率を小さくする=ミニバッチ間の勾配のばらつきが小さくなる
⇛学習率を大きくしてもよくなる.
バッチサイズを所与として学習率を大きくしてしまうと,極小値にたどり着きづらくなってしまう.