top of page

AWS Bedrock Claude-2-100k v.s. Azure OpenAI GPT-4-32k 中文能力與優劣分析



最近在人工智能新聞中,兩個模型引起了廣泛的關注:OpenAI的GPT-4和Anthropic的Claude-2。值得注意的是,GPT-4的最新版本具有32,000個標記(token)的容量,而Claude的最新版本則以100,000個標記的顯著容量脫穎而出。



前言

Anthropic和Amazon在先進基礎模型的訓練和部署過程中致力於確保安全應用。Amazon的生成式AI服務,被稱為Bedrock,其中包含了一個名為Claude的組件,Claude-2是Anthropic最近推出的版本。


不同領域的公司正在使用Anthropic的模型,與Amazon Bedrock合作進行項目開發。這些模型通過AWS平台的API可以使用,使企業能夠更有效地開發和增強AI驅動的應用程序。


在早期的文章中,我們探討了Claude模型的能力,包括其解決複雜數學問題的熟練度、地理知識,以及理解和進行情感分析的效果等。


AWS Bedrock

AWS Bedrock提供一項服務,通過API提供基礎模型的訪問,從而便於使用頂尖AI初創模型提供商的基礎模型。


> 基礎模型:基礎模型指的是由大型語言模型(LLMs)驅動的生成式AI,這些LLMs是在大量數據集上預先訓練的。


憑藉AWS Bedrock,企業可以選擇適合其需求的模型,無需操心基礎設施的設置和管理。此服務允許選擇一個基礎模型,並進一步用特定數據安全地進行定制。


此過程中使用的數據被加密,並保存在用戶的Amazon虛擬私有雲(VPC)中,確保數據的保密性。



中文版測試案例

* ( 測試在各自的官網上進行 )


將 Claude2 對比 ChatGPT4 的中文應答能力,涵蓋以下五個領域:


(1) 簡單問答對話

GPT4 的回答較精確簡要,Claude2 在回答時則傾向於提供更全面的資訊。

Claude2

GPT-4

(2) 複雜問題處理(頭腦風暴)

Claude在制定西班牙語學習計劃時未能將計劃細分到每周,而GPT4則更注重邏輯性,提供了更具參考價值的計劃。


Claude2

GPT-4


(3) 辦公任務(寫郵件)

Claude在撰寫中文郵件方面做得較好,GPT4在中文表達上有時顯得不自然。

Claude2

GPT4


(4) 總結分析

Claude在分析PDF文檔上表現更佳,能夠有效地提取和總結文檔的主要內容,而GPT4在處理非純文字PDF上顯示出限制

Claude2

GPT4

(5) AI創意

在創意任務,如撰寫藏頭詩上,GPT4表現更出色,能夠正確地將指定字詞藏入詩句中,而Claude則未能做到這一點。


Claude2

GPT4

結論:Claude2和GPT4在多項任務上表現相當,但各有所長。Claude2在總結分析和部分創意任務上表現更佳,而GPT4則在複雜問題處理和創意表現上更為突出。


英文版測試案例

* (測試是在Azure Open AI Studio介面進行的)

(1) Java與Python之間的代碼轉換

我們的評估顯示,AWS Bedrock上的Claude-2-100k和Azure OpenAI的GPT-4-32k在代碼轉換方面展現出類似的能力,儘管它們的方法各異。

Java -> Python
  • Claude-2-100k能夠將409行Java代碼轉換為19行Python代碼,然後意外地停止了。這可能意味著Claude-2-100k在處理大型代碼庫時會遇到困難,或者對此類任務需要進一步的優化。


  • 相反,GPT-4-32k則採用將代碼分段轉換為對應於每個Java類的Python段的方法。這種方法對於用戶來說可以逐部分地審查和整合代碼,是有利的。然而,與Claude-2-100k一樣,GPT-4-32k也在運行中提前終止了。


AWS Bedrock Claude-2–100k

Azure OpenAI GPT-4–32k
Python -> Java
  • 當 Claude-2-100k 將 350行 Python 代碼轉換為 Java 時,它僅能產生 28行Java 代碼就停止運行了。


  • 同樣地,GPT-4-32k在將Python轉換為Java的過程中也顯示了限制,只能產生有限的Java代碼,並在轉換中遺漏了某些功能。


這次測試的結果揭示了兩種模型在代碼轉換方面有類似的局限性。使用這些模型進行此類任務的用戶應準備仔細審核並調整輸出,以確保其準確性、完整性以及符合其特定編碼指南。


附加資訊:值得一提的是,當通過其官方網站訪問Claude模型時,它有效地將接近100行的Python代碼轉換為Java,以及大約138行的Java轉為Python。


(2) 根據自然語言描述生成代碼

在評估GPT-4–32k和Claude-2–100k的代碼生成能力時,兩者都被賦予了相同的任務:創建一個涵蓋旅遊代理功能的Java程序。


  • Claude-2–100k的回應:Claude-2–100k為該程序構建了一個基本架構。其中包括了如Booking和Customer等類別的形成,以及提及所需的軟體包。


  • GPT-4–32k的回應:GPT-4–32k的回應與Claude-2–100k類似,提供了一個具有基本功能的系統草圖。它主要概述了程序的架構。


然而,無論是GPT-4–32k還是Claude-2–100k,都沒有完成旅遊代理應用程序的全部代碼。這表明Claude-2–100k與GPT-4–32k在根據自然語言提示生成代碼方面具有相似的能力水平。


(3) 摘要書籍和回答問題

Claude-2的顯著特點是其100,000個標記(token)的窗口,相當於約75,000字或數百頁,這凸顯了其處理大量文本的能力。


在測試此功能時,我們使用了《量子物理學入門》這本書,該書約有59,950字、338頁。我們要求Claude進行摘要:

"你是撰寫摘要的專家。閱讀下面提供的書籍並寫一個摘要。<book>…</book>"

Claude-2–100k回應花費了超過10分鐘的時間,其產生的摘要更像是對量子物理學概念的一般概述,而不是該書的具體概要。


然而,在回答特定與書籍相關的問題時,Claude-2–100k表現出色,能準確詳細地描述第14章的內容。


相比之下,GPT-4的標記限制為32,000個,大約相當於24,000字。雖然GPT-4–32k是一個強大的模型,但與Claude-2–100k相比,其較低的標記容量是明顯的。當面對超過32,000個標記的提示時,GPT-4 會遇到 “Token limit error”。



(4) 摘要和分析文件

為了進一步評估,我們對兩種模型進行了一份簡短的六頁文件測試。

Claude-2–100k

GPT-4–32k

在這次測試中,Claude-2–100k和GPT-4–32k都展現了它們令人印象深刻的能力,正確提取出研究論文中的關鍵資訊。這些資訊包括論文的標題、作者、發表日期、期刊和問題等。此外,兩種模型都成功地提供了對論文中基本概念和新貢獻的清晰解釋。


(5) 數據分析

在一項涉及人均二氧化碳排放數據集的數據分析任務中,Claude-2–100k和GPT-4–32k的表現如下:


  • 初步數據分析概覽 Prom當被提示「分析下面的數據並提供摘要」時,Claude-2–100k和GPT-4–32k都準確地總結了數據集,展示了它們在數據理解和摘要方面的熟練程度。

Claude-2–100k

GPT-4–32k

  • 回應速度 Claude-2–100k的回應時間比GPT-4–32k長,後者在回答問題上顯著更快。這種速度對於實時或緊急的數據分析任務可能很重要。


  • 回答問題 兩種模型都擅長回應關於數據集的一系列問題,準確地解答了如「2020年哪些國家的人均二氧化碳排放量最高?」和「從2006年到2020年,全球人均二氧化碳排放趨勢是怎樣的?」等查詢。

Claude-2–100k

GPT-4–32k


(6) 評估數學技能

AWS Bedrock上的Claude-2–100k和Azure OpenAI的GPT-4-32k在處理數學問題上有顯著差異。

  • Claude-2–100k在解決一個基本的微分方程時答錯了,儘管它能夠正確回答簡單的代數和數列問題。


  • 相比之下,GPT-4–32k準確地回答了所有類型的數學問題,包括微分方程、代數和數列問題。

GPT-4–32k: Differential Equation Question

Algebra Question

Number Series Question

因此,在這些測試中,GPT-4–32k在解決數學問題和解釋數學相關查詢方面超越了Claude-2–100k。


Conclusion

  • 代碼生成和轉換:兩種模型表現相當。它們應被視為開發人員的輔助工具,而不是軟體開發中的完全替代品。

  • 摘要書籍:Claude-2擁有能處理大量文本的廣闊上下文窗口,使其更適合摘要或分析長篇文本,如書籍。

  • 分析小文件:兩種模型展現了類似的有效性。

  • 數據分析:GPT-4–32k在回應速度上脫穎而出,這在需要即時數據分析的場景中是一個重要因素。

  • 數學能力:GPT-4在解決和解釋數學問題方面表現優越,超越了Claude-2。

  • 整體評估:雖然Claude-2–100k提供了更大的上下文窗口,擁有100,000個標記,但GPT-4–32k在各方面略勝一籌。


Claude-2–100k更廣泛的上下文對於需要深入分析大量數據集的任務是有益的,這是GPT-4的32,000個標記限制所無法達到的。


處理更多輸入的能力允許對數據有更深入的理解,這在實際應用中是無價的。選擇模型應基於項目的具體需求,權衡上下文深度與性能效率的重要性。



資料來源


Comments


bottom of page