Gaussian Error Linear Unit (GELU)

ref:

  • 是高斯分布的累积分布函数:

完整形式:

近似值:

核心思想:它根据输入值的大小,概率性地对其进行保留或归零,而不是像 ReLU 那样根据正负进行硬性截断。

这里所谓的“保留或归零”,意思是一种对保留、归零的模拟,输出的是一个概率的期望值。

出发点

设计一个随机的“门”,该门根据当前输入 x 决定是否打开还是关闭。对于随机门控机制的状态,服从一个伯努利分布

得到期望