Gaussian Error Linear Unit (GELU)

ref:
- 是高斯分布的累积分布函数:
完整形式:
近似值:
核心思想:它根据输入值的大小,概率性地对其进行保留或归零,而不是像 ReLU 那样根据正负进行硬性截断。
这里所谓的“保留或归零”,意思是一种对保留、归零的模拟,输出的是一个概率的期望值。
出发点
设计一个随机的“门”,该门根据当前输入 x 决定是否打开还是关闭。对于随机门控机制的状态,服从一个伯努利分布。
得到期望
Gaussian Error Linear Unit (GELU)

ref:
完整形式:
近似值:
核心思想:它根据输入值的大小,概率性地对其进行保留或归零,而不是像 ReLU 那样根据正负进行硬性截断。
这里所谓的“保留或归零”,意思是一种对保留、归零的模拟,输出的是一个概率的期望值。
设计一个随机的“门”,该门根据当前输入 x 决定是否打开还是关闭。对于随机门控机制的状态,服从一个伯努利分布。
得到期望