一句話總結:國際商業機器公司(IBM)近期強調,當前的人工智慧大型語言模型(LLM)雖能令人信服地模仿倫理言詞,但其本質上仍缺乏真實的道德推理能力,這對其在關鍵決策中的應用構成重大挑戰。
核心要點
- 區分表象與實質:IBM信任AI全球負責人Phaedra Boinodiris明確指出,一個「聽起來具備倫理」的AI系統,與一個「真正能進行倫理推理」的系統,兩者之間存在著截然不同的本質差異。
- LLM的運作機制:目前的大型語言模型,本質上被視為「昂貴的自動完成功能」,其生成內容是透過預測最可能出現的詞彙,而非基於對倫理原則的實際理解與判斷。
- 研究印證限制:根據Google DeepMind與人工智慧研究機構Anthropic的最新研究均顯示,大型語言模型雖然能令人信服地模仿倫理言詞,卻不具備真實的道德能力。
- Anthropic案例分析:Anthropic研究人員分析其Claude聊天機器人超過30萬次對話後發現,儘管識別出3,307個不同價值觀,但模型主要傾向於反映用戶所表達的價值觀,僅約3%的對話會拒絕用戶要求(且多涉及有害內容)。
- 專家洞見:卡內基美隆大學教學教授Michael Hilton解釋,此現象反映了訓練數據中包含的多元觀點;倫斯勒理工學院認知科學教授Selmer Bringsjord則認為,有意義的道德推理需要系統具備倫理理論與形式化基礎。
- AI應為輔助工具:密西根大學資訊系統副教授Nigel Melville建議,若能妥善運用,AI仍可作為有價值的諮詢工具,協助增進人類理解,而非直接取代人類進行道德決策。
一句話結論
總體而言,人工智慧在模仿人類倫理言詞上表現出色,但其背後缺乏真正的道德推理與原則理解。專家們一致呼籲,未來AI的發展與應用應更聚焦於培養其實質的道德能力,而非僅止於表面符合倫理的回應,以確保其在關鍵決策中的可靠性與安全性。