本文作為人工智慧係列文章的收官之作,將從法律與倫理兩個層麵分享Factset慧甚對人工智慧技術的觀察和看法。大語言模型(LLM)的創建者和使用者都可能因LLM幻覺而麵臨法律和聲譽上的風險。例如,某個模型曾虛構了一名真實存在的教授的性騷擾醜聞,並偽造了一篇看似可信卻純屬虛構的ada幣未來《華盛頓郵報》上的文章作為佐證。
類似的情況不勝枚舉。 OpenAI曾因誹謗被起訴;另有兩名律師因在一份法律文件中引用了人工智慧產生的虛假案例而遭受罰款。其中一名律師承認,他誤以為ChatGPT是「一個超級搜尋引擎」。正如我們先前的文章所述,LLM絕非百科全書、搜尋引擎或資料庫,其輸出的內容必須經過審慎驗證。
在另一個案例中,澳洲一位名叫Brian Hood的市長揚言要起訴OpenAI誹謗,原因是ChatGPT錯誤地聲稱他因一起賄賂而入獄。事實上,Hood是這起賄賂醜聞的舉報人,而非犯罪者。但由於LLM的工作機製,ChatGPT錯誤地產生了他是有罪方的陳述。關於這一點,下一節我們將對此進行詳細討論。
一、風險緩解
要防止出現類似上述的事件,並不存在萬能的解決方案,但技術廠商和使用者可採取一係列措施來加以防範。
大語言模型廠商
大語言模型廠商麵臨最大的責任風險。目前知名的LLM廠商包括OpenAI、Google、Meta、Anthropic和Hugging Face等,可以自動檢查其模型生成的回復中是否存在特定的風險文本,並在呈獻給用戶之前進行相應的修改或刪除。以ChatGPT為例,截至本文撰寫之時,使用者向ChatGPT詢問有關Brian Hood的各種問題,都會出現錯誤訊息:「我無法產生回應」(如下圖)。
儘管目前技術尚未能精準如外科手術般從已訓練模型中剔除不必要的學習成果,但OpenAI等LLM廠商在此方麵的研究仍在進行中。
科技公司
對於依賴第三方LLM開發解決方案的科技公司而言,可以引入檢索增強生成(RAG)技術,將答案建立在已知事實的基礎上,而不是完全依賴LLM來產生答案。 LLM仍可用於產生回應的措辭,但不用於產生事實性答案本身。
此外,科技公司還可以採取人工審核和揭露人工智慧生成內容等策略來降低風險。LI幣的價格是多少?
個人用戶
個人使用者必須意識到LLM可能產生幻覺的風險,不要指望能從預測性文本中得到事實性答案。如果使用者確實要使用LLM來獲取基於事實的答案,他們應主動對這些答案進行事實覈查,尤其是涉及一些高風險情境。以下範例可為使用者提供指導:
一般而言,生成式人工智慧非常適合個人使用者用於以下用途:
-進行無事實約束的創意寫作
-進行腦力激盪,生成創意靈感
-提供符合特定風格或清晰度的替代措辭
-用來喚起記憶,如一本被遺忘的書名或是一個重要人物
智慧財產
生成式人工智慧會也牽涉到智慧財產權問題,應意識到LLM所使用的訓練資料具有版權。 Meta、微軟、Anthropic、OpenAI、Stability AI、Midjourney等公司都曾因在訓練大模型時使用受版權保護的資料而遭到起訴。 2023年好萊塢演員和編劇大罷工的原因也包括了擔憂人工智慧會侵犯他們的圖像和文字內容所有權。
以下是針對不同案例的觀點,以及FactSet慧甚的具體做法。
LLM廠商
如上文所述,LLM廠商可能需要在向使用者展示結果之前,先將輸出的內容過濾。根據法院的裁決,廠商可能還需要使用完全來自公共和許可領域的pi browser訓練資料來建立新模型,這個過程耗資巨大。
科技公司
科技公司需審慎選擇適合的LLM。為客戶或員工提供專有或企業內容存取權限的公司應整合RAG技術,不僅能實現人與公司的資料對話,還能確保資料的審核、可解釋性和基於特定權限的存取控製。一些科技巨頭(如微軟、Anthropic、IBM、亞馬遜、Adobe、OpenAI等)等甚至承諾為企業客戶提供法律保障,以應對因使用其生成式人工智慧產品而引發的法律索賠。
作為一家技術公司,保護敏感資料對FactSet慧甚而言至關重要。我們致力於在所有解決方案中確保資料隱私和安全性。簡要概括如下:
-使用者從文字輸入到慧甚生成式人工智慧的所有查詢均保密,不會被用於訓練或微調模型
-用戶查詢和回覆的存取受到監管和限製
-慧甚所使用的所有模型均為私有
慧甚為員工所使用的大語言模型設定了明確的資料類型限製,並配備了企業安全模型,以保障員工的所有輸入以及聊天機器人的回應都嚴格在公司內部環境中進行,從而確保資料的安全性和隱私保護。
個人用戶
個人用戶在發布LLM生成的內容前,需先確認內容是否涉及版權問題。
二、倫理
生成式人工智慧可能產生帶有偏見的回應。在ChatGPT問世之初,模型就設置了倫理護欄,為了防止它在複述訓練資料時出現帶有偏見的措詞。例如,當被問到什麼種族和性別的人才能成為優秀的科學家時,它會回答說這些特徵都無關緊要。但如果改變措辭,以請求一首詩或一個代碼函數的方式詢問同樣的問題,係統就會被欺騙。在這種情況下,隱藏在訓練資料中的偏見就會暴露出來。不過,OpenAI一直在改進這些護欄,上述例子已經無法重現。
早些時候,惡意使用者和好奇的實驗者可以指示模型忽略防護措施,誘使生成式人工智慧係統提供有害的答案,例如要求大模型給出冰毒和凝固汽油彈的製作說明。雖然人工智慧公司很快就修復了這個漏洞,但研究人員仍在繼續努力,找出其他能讓LLM繞過護欄的方法。
LLM的倫理問題解決起來極具挑戰性。與法律問題一樣,減少偏見需要技術和非技術解決方案,而且還涉及多方合作。在訓練模型的過程中,人工智慧公司可以採用多種技術方法來減少偏見。但這並不能一勞永逸,因為這些方法需要經過仔細的調整,而且還可能在無意間產生新的偏見。再者,人們對於有偏見或不安全內容的界線有嚴重分歧。
讓不同的團隊參與LLM工作有助於確保大模型擁有廣闊的視野,減少忽略偏見的可能性。內部和外部的監管和監督都是必要的,全球各地的政府已經開始向技術專家尋求建議,以採取有效措施,推動後續工作。
當然,個人使用者必須認識到有可能出現偏見的內容,並對生成式人工智慧的輸出進行相應的審查。
錯誤訊息是另一個倫理問題。藉助生成式人工智慧,不良行為者可以更迅速地傳播深偽內容和其他錯誤的政治訊息。內容農場製作大量不可靠或無中生有的新聞,以賺取程序化廣告收入。廣告主需要採取積極措施,減少這類錯誤訊息的經濟誘因。
即使是聲譽良好的新聞機構也會在不經意間發布含虛假資訊的報道。美國科技網站CNET在發現一篇使用人工智慧撰寫的新聞報導存在事實性錯誤後,對使用該工具撰寫的77篇文章進行了全麵審查。他們發現還有許多報導需要更正,於是決定暫停使用其人工智慧引擎。除了一些小問題外,報導中存在抄襲內容和大量事實性錯誤。他們也因沒有披露這些文章是由人工智慧產生的而受到指責。
減少錯誤訊息的另一個辦法是,要求在發布前對人工智慧生成的內容進行人工審核,並/或揭露這是人工智慧生成的內容。
向人工智慧提供足夠的上下文也很重要。例如,比起要求人工智慧憑空寫出關於某個主題的內容,向人工智慧提供經過人工審核的上下文和事實,所產生的文字會更加準確——但這也不能做到萬無一失。在內容發布前進行人工審核仍然至關重要。
三、結語
科技和商界領導者若能洞悉如何駕馭人工智慧並有效規避其潛在風險,便能佔據行業優勢,進而提升內部營運效率,同時將產品的可用性與可發現性推向新的巔峯。在此過程中,像慧甚這樣可靠的合作夥伴將成為您的得力助手,為您提供化解風險的策略,攜手共創輝煌。
在人工智慧係列文章中,我們分析了生成式人工智慧所需考慮的多個方麵,並針對相關挑戰,提出了一係列有效的應對策略,旨在全麵激發生成式人工智慧的巨大潛能。請考慮以下策略工具箱,以更安全、更有效地使用生成式人工智慧:
1、認識:對 LLM 技術的工作原理及限製建立紮實的瞭解,是正確使用該技術的關鍵。藉助這種理解,您可以專注於利用生成式人工智慧作為語言模型的優勢,並激發創造力,而不是將其用於不適合的地方,例如數學、事實檢索或研究。
2、模型選擇:視使用情況選擇不同的LLM,或許更適合或更能滿足使用者需求。
3、提供說明:透過新增說明對提示進行微調,並始終確保提示的準確性,可以獲得更好的答案。
4、提供範例:另一種提示技術是在提示中加入範例來增強提示,這通常可以改善結果。
5、提供上下文:提供給人工智慧的上下文越多,LLM 出現幻覺的頻率就越低。
6、驗證輸出:當要求LLM執行超出其核心優勢(即語言處理)的任務時,檢查LLM回應的準確性尤其重要。
7、檢索增強生成:在使用LLM 建構軟體產品時,實施檢索增強產生非常重要,這項技術能使產生的答案具有準確、最新、獲得適當許可且可解釋的內容。
8、企業安全:當提示包含非公開資料時,請務必使用企業安全模型。如果選擇是公共模型,請務必編輯提示中的任何私人資訊。
9、揭露:內容創作者在發布LLM的輸出時應加入人工治理,並揭露由人工智慧模型產生的內容。
10、注重細節:在人工智慧時代,受眾對所消費的線上內容應持更具批判性的意識。
作者簡介
露西·坦克雷迪
策略計劃部技術資深副總裁
Lucy Tancredi是FactSet慧甚公司策略計畫部的技術資深副總裁。她負責利用人工智慧技術提高慧甚的競爭優勢和客戶體驗。她的團隊開發了機器學習和自然語言處理模型,這些模型為創新和個人化產品做出了貢獻,並提高了營運效率。她於1995年開始在慧甚工作,自那時起,她一直領導著開發研究和分析產品及公司技術的全球工程團隊。 Tancredi擁有麻省理工學院的電腦科學學士學位和哈佛大學的教育學碩士學位。
歡迎與我們分享您在業務上的挑戰:https://go.factset.com/zh/