AIセーフティとアライメント — RLHF/DPO/CAIの理論 2025年11月22日 Transformer AIセーフティとアラインメントは、大規模言語モデル(LLM)が人間の意図と価値観... AIセーフティConstitutional AILLMRLHFアラインメント