最新科技與國際動態

a year ago

綜述最新的科技進展與國際形勢,特別關注中國AI公司DeepSeek的最新發展。

脚本

李明

各位觀眾朋友,大家好!歡迎收看最新一期的《最新科技與國際動態》。我是李明。今天,我們將帶您深入了解中國AI公司DeepSeek的最新發展,特別是其低成本高性能的AI模型DeepSeek V3和R1的發布,以及這些模型對全球科技界的影響。讓我們開始今天的節目。

李明

首先,我們來關注中國AI公司DeepSeek的最新動態。1月20日,DeepSeek發布了其最新的推理模型DeepSeek R1,這是一款開源模型,其在數學、代碼、自然語言推理等任務上的性能與OpenAI的o1正式版相當。此外,DeepSeek V3也於同日發布,這款參數高達6,710億的大語言模型,預訓練僅用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒耗資數十億美元訓練大語言模型的美國先進AI公司而言,無疑是個巨大的挑戰。

張華

我是特派記者張華,目前在DeepSeek公司的總部。DeepSeek V3的性能優勢主要體現在其快速的響應速度和低成本上。根據彭博專欄作家柯恩教授的評價,DeepSeek V3是近年來他使用過的眾多大語言模型中,名列前茅的LLM。這款模型不僅速度快、好用,而且有免費版,對於精深或困難問題的回應,雖然還比不上美國的頂尖LLM,但仍然被認為是一流的模型。

李明

DeepSeek的開源模型在全球範圍內受到廣泛關注。DeepSeek R1和V3開始在很多地區的AI類App下載次數名列前茅,短短數週內,累積下載次數已超過1,800萬次。這款模型的使用價格較OpenAI的o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。這證明了DeepSeek的模型不僅在性能上具有競爭力,也在成本上佔據優勢。

張華

DeepSeek的技術突破與其獨特的量化背景密不可分。DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司。幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬。2022年ChatGPT問世後,DeepSeek的共同創辦人梁文鋒開始研發大語言模型,並採購了大量輝達的GPU。DeepSeek的成立和發展,得益於其強大的技術研發能力和豐富的算力資源。

李明

DeepSeek的算力資源非常豐富,根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源包括A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元。雖然DeepSeek的開發成本遠低於OpenAI等大咖,但仍然是一筆巨大的投資。這證明了開發大語言模型是資金與腦力密集的投資。

張華

DeepSeek的國際影響也在不斷擴大。DeepSeek的模型能夠受到西方世界的注意及使用,主要是因為其可以直接在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。這使得DeepSeek的模型在國際市場上具有更大的競爭力。此外,其他受美國管制AI晶片出口的國家,如俄羅斯、伊朗、巴基斯坦等,或許也能夠循此模式,開發出類似的大語言模型。

李明

各位觀眾朋友,今天的節目就到這裡。DeepSeek的崛起不僅展示了中國AI技術的實力,也對全球AI產業產生了深遠的影響。DeepSeek的低成本高性能模型,將使更多公司有機會投入大語言模型的開發,尋求新的商機。感謝大家的收看,我們下次節目再見。

参与者

李

李明

新聞主播

張

張華

特派記者

主题

DeepSeek V3與R1的發布
DeepSeek的性能與成本優勢
DeepSeek的開源模型全球影響
DeepSeek的技術突破與量化背景
DeepSeek的算力資源與開發成本
DeepSeek的國際影響與未來前景