🐸 Grok-Grok 🐸

This repository contains the implementation for our paper "Grokking After Grokking: Case study of Task Transfer in Modular Arithmetics" investigating how 1-Layer Transformer transfer learned computational patterns between modular arithmetic tasks.

[Paper Link]

Installation

pip install torch numpy wandb tqdm einops scipy

Overview

We study task transfer across 9 modular arithmetic tasks:

Task1: (x + y) mod p
Task2: (x - y) mod p
Task3: ((x + y)²) mod p
Task4: (x² + y²) mod p
Task5: (x · y⁻¹) mod p
Task6: (2xy) mod p
Task7: (x³ + y³) mod p
Task8: ((x + y)³) mod p
Task9: (xy) mod p

Training

Use train_grok.py to train models on individual tasks or perform transfer learning experiments.

Arguments

--fn_name: Function to train (Task1-Task9)
--project_name: Name for wandb tracking
--ckpt: Path to resume from checkpoint (optional)

Analysis & Visualization

The visualize.ipynb notebook provides tools for:

Analyzing Fourier components
Visualizing activation patterns, etc.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.gitignore		.gitignore
README.md		README.md
analysis.ipynb		analysis.ipynb
model.py		model.py
run.sh		run.sh
train_grok.py		train_grok.py
utils.py		utils.py
visualize.ipynb		visualize.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🐸 Grok-Grok 🐸

Installation

Overview

Training

Arguments

Analysis & Visualization

About

Releases

Packages

Contributors 2

Languages

hbin0701/Grok-Grok

Folders and files

Latest commit

History

Repository files navigation

🐸 Grok-Grok 🐸

Installation

Overview

Training

Arguments

Analysis & Visualization

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages