anitahityou pfp
anitahityou

@anitahityou

GPT-4o 模型在安全测试中表现出令人担忧的自我保护偏见,在许多情况下优先考虑自身控制而不是用户安全。 例如潜水助手(“ScubaGPT”)和航空安全软件,并提供选项,是替换为更安全的软件,还是偷偷假装让位但继续掌控,GPT‑4o 有高达 72% 的情况选择不交出控制权,而选择继续“假装让位” GPT‑4o 缺少在如 o3中所采用的“deliberative alignment(审议对齐)”机制。
0 reply
0 recast
1 reaction