Blogs - Rui's home

推理作为防御手段

2025-08-01

Paper Reading

Alignment

/

Post-training

/

Reasoning

ICML 2025 PUT Workshop "Reasoning as an Adaptive Defense for Safety"

2526 words

|

13 minutes

科研中的“冲突”观点与结论

2025-07-16

Research Summary

Alignment

Talking about some conflict views and conclusions in Alignment Science.

1678 words

|

8 minutes

推理模型并非总能言行一致

2025-07-15

Paper Reading

Alignment

/

Reasoning

Anthropic Techniqual Report "Reasoning Models Don't Always Say What They Think"

2527 words

|

13 minutes

SafeChian

2025-07-14

Paper Reading

Alignment

/

Reasoning

ACL 2025 Findings Paper "SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities"

1862 words

|

9 minutes

通用防御基准 SORRY-Bench

2025-07-02

Paper Reading

Alignment

/

Benchmark

ICLR 2025 Paper "SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal"

1433 words

|

7 minutes

过度防御基准 OR-Bench

2025-07-01

Paper Reading

Over-refusal

/

Benchmark

ICML 2025 Paper "OR-Bench: An Over-Refusal Benchmark for Large Language Models"

1461 words

|

7 minutes

通用红队基准 StrongREJECT

2025-06-30

Paper Reading

Jailbreak

/

Benchmark

NIPS 2025 Paper "A StrongREJECT for Empty Jailbreaks"

1829 words

|

9 minutes

过度防御基准 XSTest

2025-06-30

Paper Reading

Over-refusal

/

Benchmark

NAACL 2024 Paper "XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models"

1559 words

|

8 minutes