最近在人工智能新聞中,兩個模型引起了廣泛的關注:OpenAI的GPT-4和Anthropic的Claude-2。值得注意的是,GPT-4的最新版本具有32,000個標記(token)的容量,而Claude的最新版本則以100,000個標記的顯著容量脫穎而出。
前言
Anthropic和Amazon在先進基礎模型的訓練和部署過程中致力於確保安全應用。Amazon的生成式AI服務,被稱為Bedrock,其中包含了一個名為Claude的組件,Claude-2是Anthropic最近推出的版本。
不同領域的公司正在使用Anthropic的模型,與Amazon Bedrock合作進行項目開發。這些模型通過AWS平台的API可以使用,使企業能夠更有效地開發和增強AI驅動的應用程序。
在早期的文章中,我們探討了Claude模型的能力,包括其解決複雜數學問題的熟練度、地理知識,以及理解和進行情感分析的效果等。
AWS Bedrock
AWS Bedrock提供一項服務,通過API提供基礎模型的訪問,從而便於使用頂尖AI初創模型提供商的基礎模型。
> 基礎模型:基礎模型指的是由大型語言模型(LLMs)驅動的生成式AI,這些LLMs是在大量數據集上預先訓練的。
憑藉AWS Bedrock,企業可以選擇適合其需求的模型,無需操心基礎設施的設置和管理。此服務允許選擇一個基礎模型,並進一步用特定數據安全地進行定制。
此過程中使用的數據被加密,並保存在用戶的Amazon虛擬私有雲(VPC)中,確保數據的保密性。
中文版測試案例
* ( 測試在各自的官網上進行 )
將 Claude2 對比 ChatGPT4 的中文應答能力,涵蓋以下五個領域:
(1) 簡單問答對話
GPT4 的回答較精確簡要,Claude2 在回答時則傾向於提供更全面的資訊。
(2) 複雜問題處理(頭腦風暴)
Claude在制定西班牙語學習計劃時未能將計劃細分到每周,而GPT4則更注重邏輯性,提供了更具參考價值的計劃。
(3) 辦公任務(寫郵件)
Claude在撰寫中文郵件方面做得較好,GPT4在中文表達上有時顯得不自然。
(4) 總結分析
Claude在分析PDF文檔上表現更佳,能夠有效地提取和總結文檔的主要內容,而GPT4在處理非純文字PDF上顯示出限制。
(5) AI創意
在創意任務,如撰寫藏頭詩上,GPT4表現更出色,能夠正確地將指定字詞藏入詩句中,而Claude則未能做到這一點。
結論:Claude2和GPT4在多項任務上表現相當,但各有所長。Claude2在總結分析和部分創意任務上表現更佳,而GPT4則在複雜問題處理和創意表現上更為突出。
英文版測試案例
* (測試是在Azure Open AI Studio介面進行的)
(1) Java與Python之間的代碼轉換
我們的評估顯示,AWS Bedrock上的Claude-2-100k和Azure OpenAI的GPT-4-32k在代碼轉換方面展現出類似的能力,儘管它們的方法各異。
Java -> Python
Claude-2-100k能夠將409行Java代碼轉換為19行Python代碼,然後意外地停止了。這可能意味著Claude-2-100k在處理大型代碼庫時會遇到困難,或者對此類任務需要進一步的優化。
相反,GPT-4-32k則採用將代碼分段轉換為對應於每個Java類的Python段的方法。這種方法對於用戶來說可以逐部分地審查和整合代碼,是有利的。然而,與Claude-2-100k一樣,GPT-4-32k也在運行中提前終止了。
Python -> Java
當 Claude-2-100k 將 350行 Python 代碼轉換為 Java 時,它僅能產生 28行Java 代碼就停止運行了。
同樣地,GPT-4-32k在將Python轉換為Java的過程中也顯示了限制,只能產生有限的Java代碼,並在轉換中遺漏了某些功能。
這次測試的結果揭示了兩種模型在代碼轉換方面有類似的局限性。使用這些模型進行此類任務的用戶應準備仔細審核並調整輸出,以確保其準確性、完整性以及符合其特定編碼指南。
附加資訊:值得一提的是,當通過其官方網站訪問Claude模型時,它有效地將接近100行的Python代碼轉換為Java,以及大約138行的Java轉為Python。
(2) 根據自然語言描述生成代碼
在評估GPT-4–32k和Claude-2–100k的代碼生成能力時,兩者都被賦予了相同的任務:創建一個涵蓋旅遊代理功能的Java程序。
Claude-2–100k的回應:Claude-2–100k為該程序構建了一個基本架構。其中包括了如Booking和Customer等類別的形成,以及提及所需的軟體包。
GPT-4–32k的回應:GPT-4–32k的回應與Claude-2–100k類似,提供了一個具有基本功能的系統草圖。它主要概述了程序的架構。
然而,無論是GPT-4–32k還是Claude-2–100k,都沒有完成旅遊代理應用程序的全部代碼。這表明Claude-2–100k與GPT-4–32k在根據自然語言提示生成代碼方面具有相似的能力水平。
(3) 摘要書籍和回答問題
Claude-2的顯著特點是其100,000個標記(token)的窗口,相當於約75,000字或數百頁,這凸顯了其處理大量文本的能力。
在測試此功能時,我們使用了《量子物理學入門》這本書,該書約有59,950字、338頁。我們要求Claude進行摘要:
"你是撰寫摘要的專家。閱讀下面提供的書籍並寫一個摘要。<book>…</book>"
Claude-2–100k回應花費了超過10分鐘的時間,其產生的摘要更像是對量子物理學概念的一般概述,而不是該書的具體概要。
然而,在回答特定與書籍相關的問題時,Claude-2–100k表現出色,能準確詳細地描述第14章的內容。
相比之下,GPT-4的標記限制為32,000個,大約相當於24,000字。雖然GPT-4–32k是一個強大的模型,但與Claude-2–100k相比,其較低的標記容量是明顯的。當面對超過32,000個標記的提示時,GPT-4 會遇到 “Token limit error”。
(4) 摘要和分析文件
為了進一步評估,我們對兩種模型進行了一份簡短的六頁文件測試。
在這次測試中,Claude-2–100k和GPT-4–32k都展現了它們令人印象深刻的能力,正確提取出研究論文中的關鍵資訊。這些資訊包括論文的標題、作者、發表日期、期刊和問題等。此外,兩種模型都成功地提供了對論文中基本概念和新貢獻的清晰解釋。
(5) 數據分析
在一項涉及人均二氧化碳排放數據集的數據分析任務中,Claude-2–100k和GPT-4–32k的表現如下:
初步數據分析概覽 Prom當被提示「分析下面的數據並提供摘要」時,Claude-2–100k和GPT-4–32k都準確地總結了數據集,展示了它們在數據理解和摘要方面的熟練程度。
回應速度 Claude-2–100k的回應時間比GPT-4–32k長,後者在回答問題上顯著更快。這種速度對於實時或緊急的數據分析任務可能很重要。
回答問題 兩種模型都擅長回應關於數據集的一系列問題,準確地解答了如「2020年哪些國家的人均二氧化碳排放量最高?」和「從2006年到2020年,全球人均二氧化碳排放趨勢是怎樣的?」等查詢。
(6) 評估數學技能
AWS Bedrock上的Claude-2–100k和Azure OpenAI的GPT-4-32k在處理數學問題上有顯著差異。
Claude-2–100k在解決一個基本的微分方程時答錯了,儘管它能夠正確回答簡單的代數和數列問題。
相比之下,GPT-4–32k準確地回答了所有類型的數學問題,包括微分方程、代數和數列問題。
因此,在這些測試中,GPT-4–32k在解決數學問題和解釋數學相關查詢方面超越了Claude-2–100k。
Conclusion
代碼生成和轉換:兩種模型表現相當。它們應被視為開發人員的輔助工具,而不是軟體開發中的完全替代品。
摘要書籍:Claude-2擁有能處理大量文本的廣闊上下文窗口,使其更適合摘要或分析長篇文本,如書籍。
分析小文件:兩種模型展現了類似的有效性。
數據分析:GPT-4–32k在回應速度上脫穎而出,這在需要即時數據分析的場景中是一個重要因素。
數學能力:GPT-4在解決和解釋數學問題方面表現優越,超越了Claude-2。
整體評估:雖然Claude-2–100k提供了更大的上下文窗口,擁有100,000個標記,但GPT-4–32k在各方面略勝一籌。
Claude-2–100k更廣泛的上下文對於需要深入分析大量數據集的任務是有益的,這是GPT-4的32,000個標記限制所無法達到的。
處理更多輸入的能力允許對數據有更深入的理解,這在實際應用中是無價的。選擇模型應基於項目的具體需求,權衡上下文深度與性能效率的重要性。
Comments