Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2402.14809

Papers - Benchmarks - Reasoning

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

Paper • 2402.14809 • Published Feb 22 • 2
Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs

Paper • 2312.17080 • Published Dec 28, 2023 • 1
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools

Paper • 2406.03618 • Published Jun 5 • 2

Papers - Reasoning - Critic Pattern

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

Paper • 2305.11738 • Published May 19, 2023 • 5
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

Paper • 2402.14809 • Published Feb 22 • 2
DRLC: Reinforcement Learning with Dense Rewards from LLM Critic

Paper • 2401.07382 • Published Jan 14 • 2

Papers - Training - Critic Model

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

Paper • 2305.11738 • Published May 19, 2023 • 5
Shepherd: A Critic for Language Model Generation

Paper • 2308.04592 • Published Aug 8, 2023 • 29
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

Paper • 2402.14809 • Published Feb 22 • 2
DRLC: Reinforcement Learning with Dense Rewards from LLM Critic

Paper • 2401.07382 • Published Jan 14 • 2

Papers - Critic Models

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

Paper • 2305.11738 • Published May 19, 2023 • 5
Shepherd: A Critic for Language Model Generation

Paper • 2308.04592 • Published Aug 8, 2023 • 29
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

Paper • 2402.14809 • Published Feb 22 • 2

Papers - Benchmarks - Reward Models

RewardBench: Evaluating Reward Models for Language Modeling

Paper • 2403.13787 • Published Mar 20 • 21
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning

Paper • 2402.14809 • Published Feb 22 • 2

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs