ReMiss

优惠 ReMiss:大语言模型在经过安全和可靠性训练后,为何仍然容易受到敌意攻击

  • ReMiss:大语言模型在经过安全和可靠性训练后,为何仍然容易受到敌意攻击
    AI
  • 香港大学和华为诺亚方舟实验室的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在经过安全和可靠性训练(alignment)后,为何仍然容易受到敌意攻击(adversarial attacks),特别是所谓的“越狱”(jailbreaking)现象。越狱指的是LLMs在面对精心设计的提示时,会违反预设的限制,生成... 阅读全文