| Hey, miles

0%

发表于 2023-11-05 更新于 2023-11-21 阅读次数： Valine：
本文字数： 352 阅读时长 ≈ 1 分钟

openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks. (github.com)

评估

训练后，联合专家对模型在多方面评估，可以包括long-term AI对齐风险领域，电子安全领域，生物安全领域，以及互联网安全领域等

调优

模型调优的目的：1. 将模型的表现与我们的预期更好地对齐；2. 让模型能合理拒绝不安全的输入，回答安全输入

reward model

PPO

terms:

toxicity: 模型的有毒性主要指大模型会产生的攻击性、有害的内容。这些内容的产生与语言模型之间存在割裂性。因为语言模型不具有感情，只是基于概率去处理和产生文本内容，但是这些文本内容却可能会伤害到一些人。