blog | Julian Hatzky

Tanh Function as Drop-In Replacement for Layernorm

Why LayerNorm is not without alternatives

13 min read · March 25, 2025

2025
Towards Group Equivariant Self-Attention

9 min read · January 10, 2024 · medium.com

2024
Group Equivariant Self-Attention

Injecting geometric priors into the Transformer model

Continue reading on TDS Archive »

1 min read · January 09, 2024 · medium.com

2024
Stand-Alone Self-Attention in Vision From Scratch

17 min read · April 28, 2023 · medium.com

2023
Towards Stand-Alone Self-Attention in Vision

A deep dive into the application of the transformer architecture and its self-attention operation for vision

Continue reading on TDS Archive »

1 min read · April 28, 2023 · medium.com

2023