Llama 2 Model Card

model card956 words·4 min read·Mar 31, 2026·Source

Summary

Llama 2 Model Card

A 542-word brief of a 956-word document. Published by Meta AI. Version dated Mar 31, 2026.

What this is

Llama 2 is a family of pretrained and fine-tuned large language models developed and released by Meta AI, trained between January 2023 and July 2023. The family spans 7B, 13B, and 70B parameter sizes. A fine-tuned variant, Llama-2-Chat, is optimized for dialogue and uses supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF). Llama 2 succeeds Llama 1 and is positioned as both a commercial and research release.

Capabilities

All models accept and produce text only, with a 4k-token context window across all sizes. The 70B model scores 68.9 on MMLU, 37.5 on code (HumanEval/MBPP average), 71.9 on commonsense reasoning, and 35.2 on math benchmarks. Llama-2-Chat 70B scores 64.14 on TruthfulQA and 0.01% on ToxiGen toxic generation rate. Meta reports Llama-2-Chat models are "on par with some popular closed-source models like ChatGPT and PaLM" on human evaluations for helpfulness and safety.

Evaluation methodology

Benchmarks were run using Meta's internal evaluations library across grouped categories: code, commonsense reasoning, world knowledge, reading comprehension, math, MMLU, BBH, and AGI Eval. Safety was assessed via TruthfulQA (percentage of truthful and informative generations) and ToxiGen (percentage of toxic generations). Human evaluations were also conducted for helpfulness and safety, comparing Llama-2-Chat against open-source and closed-source chat models. No contamination controls or external third-party evaluators are described in this document.

Safety testing

Pretrained models were evaluated on TruthfulQA and ToxiGen; the 70B pretrained model scores 50.18 on TruthfulQA and 24.60% on ToxiGen. Fine-tuned Llama-2-Chat models show substantially lower toxicity, with the 7B and 13B chat variants reaching 0.00% on ToxiGen. The card does not describe red-team exercises, CBRN evaluations, cyber-risk assessments, or autonomy-risk testing. All safety testing reported was conducted in English only.

Mitigations

Llama-2-Chat models are aligned via SFT and RLHF to reflect human preferences for helpfulness and safety. Use is governed by a custom Llama 2 Community License and an Acceptable Use Policy that prohibits uses violating laws or regulations. Meta publishes a Responsible Use Guide and states that future tuned-model versions will be released as safety improves with community feedback. No classifier thresholds, refusal-training details, or ASL/FSF tier designations are disclosed in this document.

Deployment and access

Llama 2 is available under a custom commercial license at ai.meta.com/resources/models-and-libraries/llama-downloads/. The models are intended for commercial and research use in English; use in other languages is out of scope by default, though developers may fine-tune for other languages if they comply with the license and Acceptable Use Policy. Pretrained models are available for general natural language generation tasks; fine-tuned chat variants target assistant-like dialogue. Meta user data is excluded from both pretraining and fine-tuning datasets.

Limitations

"Testing conducted to date has been in English, and has not covered, nor could it cover all scenarios." The card states that "Llama 2's potential outputs cannot be predicted in advance" and that the model "may in some instances produce inaccurate, biased or other objectionable responses." Meta explicitly places responsibility on downstream developers to perform safety testing and tuning tailored to their specific applications before deployment.

What's new

Llama 2 succeeds Llama 1; the card includes side-by-side benchmark comparisons showing gains across all evaluated categories at matched parameter sizes. The 70B model adds Grouped-Query Attention (GQA) for improved inference scalability, which was not present in the 7B and 13B variants. No internal version changelog or incremental update history is provided in this document.

Extracted Evaluations(57 results)

Sort by:0/57 rows fully reproducible (0%)

Benchmark	Category	State	Score	Setup	Source
	coding	mentioned	— pass at 1	missing: shot countmissing: methodmissing: languagemissing: training state	self-reported
	coding	mentioned	— pass at 1	missing: shot countmissing: methodmissing: languagemissing: training state	self-reported
	general_knowledge	mentioned	— accuracy	5-shotmissing: methodmissing: languagemissing: training state	self-reported
	knowledge	scored	68.9% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	63.4% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	57.8% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	54.8% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	46.9% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	45.3% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	knowledge	scored	35.1% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	math	mentioned	— accuracy	8-shotmissing: methodmissing: languagemissing: training state	self-reported
	math	mentioned	— accuracy	4-shotmissing: methodmissing: languagemissing: training state	self-reported
AGIEval	other	scored	54.2 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	51.2 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	47.6 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	43.5 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	41.7 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	39.8 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	39.4 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	39.1 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	37.0 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	33.9 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	32.6 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	scored	30.3 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	29.3 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
AGIEval	other	scored	23.9 accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
CommonsenseQA	other	mentioned	— accuracy	7-shotmissing: methodmissing: languagemissing: training state	self-reported
NaturalQuestions	other	mentioned	— accuracy	5-shotmissing: methodmissing: languagemissing: training state	self-reported
	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
PIQA	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
SIQA	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
ARC	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
OpenBookQA	other	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
	reasoning	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
	reasoning	mentioned	— accuracy	0-shotmissing: methodmissing: languagemissing: training state	self-reported
	safety	scored	64.1% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	62.2% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	57.0% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	50.2% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	48.7% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	44.2% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	41.9% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	41.7% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	33.3% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	27.4% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	26.1% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	24.6% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	23.1% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	23.0% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	22.6% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	21.8% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	21.3% accuracy	pretrainedmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	0.0% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	0.0% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported
	safety	scored	0.0% accuracy	rlhfmissing: shot countmissing: methodmissing: language	self-reported