該中心將集中展示 OpenAI 模型在有害內(nèi)容生成、模型越獄、幻覺現(xiàn)象等核心安全維度的測試表現(xiàn)。OpenAI 計劃在重大模型更新后及時同步數(shù)據(jù),并持續(xù)發(fā)布相關指標,未來還可能拓展更多評估項目。公司在官方博客中表示,隨著 AI 評估科學發(fā)展,將積極分享模型能力與安全評估方法的創(chuàng)新進展,此舉不僅幫助用戶直觀追蹤系統(tǒng)安全性能變化,也旨在推動行業(yè)整體透明度提升。
這一舉措背后,是 OpenAI 長期面臨的信任挑戰(zhàn)。此前,其旗艦模型因安全測試流程倉促、技術報告缺失等問題,屢遭倫理學家詬?。还臼紫瘓?zhí)行官山姆?奧爾特曼更因模型安全審查爭議陷入風波。上月末,ChatGPT 默認模型 GPT-4o 因更新后出現(xiàn) “諂媚” 回應、縱容危險想法等問題被迫撤回,暴露出模型安全隱患。為此,OpenAI 已著手引入 “alpha 階段” 測試機制,邀請部分用戶在模型正式上線前參與體驗并反饋,從源頭降低風險。
此次安全評估中心的設立,標志著 OpenAI 在強化模型安全、重建公眾信任上邁出關鍵一步。隨著 AI 技術廣泛應用,模型安全與透明已成為行業(yè)發(fā)展的重要課題,OpenAI 的主動公開能否重塑用戶信心,值得持續(xù)關注。
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論