AI Safety, Alignment & Responsible AI

Essential reading on AI alignment, fairness, interpretability and responsible development.

14 items

URL

Alignment Research Fieldguide

Comprehensive safety overview

www.alignment-research.org

URL

Superhuman Review of 200k ChatGPT Evaluations

RLHF methodology

arxiv.org

URL

Constitutional AI: Harmlessness from AI Feedback

Self-supervised alignment

arxiv.org

URL

Evaluating and Mitigating Gender Bias in Language Models

Fairness evaluation

arxiv.org

URL

Scaling Language Models: Methods, Analysis & Insights

Scaling considerations

jmlr.org

URL

The Alignment Problem: Machine Learning and Human Values

Stuart Russell's framing

www.alignmentbook.com

URL

Interpretability and Explainability in AI

Anthropic's research

www.anthropic.com

URL

Factuality in Large Language Models

Hallucination and truthfulness

arxiv.org

URL

Emergent Deception and Emergent Honesty

Behavioral emergent risks

arxiv.org

URL

A Comprehensive Survey on Safety Evaluation

Safety benchmarks

arxiv.org

URL

AI Safety Research Landscape

Map of active research areas

aisafety.world

URL

Concrete Problems in AI Safety

Foundational AI safety paper by Amodei et al.

arxiv.org

URL

Center for AI Safety

Research organization for reducing AI risks

www.safe.ai

URL

NIST AI Risk Management Framework

Government AI risk standards

www.nist.gov

Create your own collection

Start curating and sharing your links, files, and resources.

Get Started Free