亚洲人成日本片,国产精品偷窥女精品视频,欧美老妇人在线一区二区三区,国产午夜福利不卡在线观看视频

  • <s id="2ymhs"></s>

    <acronym id="2ymhs"></acronym>

    <ol id="2ymhs"></ol>
        <s id="2ymhs"></s>

      • 每日經(jīng)濟(jì)新聞
        要聞

        每經(jīng)網(wǎng)首頁 > 要聞 > 正文

        新版DeepSeek-V3登頂非推理模型榜單!每經(jīng)記者實(shí)測編程能力,R2模型也要來了?

        每日經(jīng)濟(jì)新聞 2025-03-25 21:44:42

        3月24日晚,DeepSeek將參數(shù)為6850億的DeepSeek-V3-0324模型悄然上傳至開源平臺。每經(jīng)記者實(shí)測發(fā)現(xiàn),新版V3性能卓越,在代碼能力等測試中表現(xiàn)出色,但仍存在幻覺問題。外媒推測其將成為新推理模型DeepSeek-R2的基礎(chǔ),后者預(yù)計(jì)未來兩個月內(nèi)推出,或?qū)penAI的GPT-5構(gòu)成挑戰(zhàn)。

        每經(jīng)記者 岳楚鵬    每經(jīng)編輯 蘭素英    

        北京時間3月24日晚間,DeepSeek悄然將DeepSeek-V3模型的最新版本上傳到了開源平臺HuggingFace。

        新模型的版本號為DeepSeek-V3-0324,參數(shù)為6850億,較初代V3版本的6710億有小幅增長。

        盡管DeepSeek十分低調(diào),但還是有不少人在第一時間就注意到了這一更新,并對其進(jìn)行了測試。

        根據(jù)社區(qū)測試反饋,DeepSeek-V3-0324最明顯的變化是編程能力得到了極大的提升。眾多開發(fā)者基于對新模型的綜合體驗(yàn)判斷,新模型的編程能力已經(jīng)接近目前最強(qiáng)編程模型Claude 3.7 Sonnet。

        3月25日,專業(yè)AI模型評測機(jī)構(gòu)Artificial Analysis發(fā)布的最新排名顯示,新版V3在基準(zhǔn)測試中較老版V3躍升了7位,排名所有非推理模型中的第一名。

        《每日經(jīng)濟(jì)新聞》記者實(shí)測后發(fā)現(xiàn),DeepSeek-V3-0324的編程能力確實(shí)強(qiáng)大,但仍會出現(xiàn)幻覺問題。

        有外媒推測:“V3新版本的推出時機(jī)和特點(diǎn)強(qiáng)烈表明,它將成為DeepSeek-R2的基礎(chǔ),后者是一款新的推理模型,預(yù)計(jì)在未來兩個月內(nèi)推出。這遵循了DeepSeek的既定模式,即基礎(chǔ)模型比專門的推理模型早幾周推出。”

        機(jī)構(gòu):新版V3排名非推理模型第一

        當(dāng)?shù)貢r間3月25日,專業(yè)AI模型評測機(jī)構(gòu)Artificial Analysis在評測完新版V3后發(fā)推表示,這對開源來說是一個里程碑,因?yàn)檫@是開放權(quán)重模型首次成為領(lǐng)先的非推理模型。新版V3在他們的基準(zhǔn)測試中躍升了7位,為所有非推理模型中的第一名。



        圖片來源:Artifical Analysis

        雖然它在能力上仍落后于眾多推理模型,但這并不能影響這一成就的重要性。因?yàn)榉峭评砟P拖噍^于推理模型在速度上具有優(yōu)勢,它可以立即回答,而無需花時間“思考”。

        AI編碼工具aider開發(fā)者保羅·高蒂爾對其進(jìn)行了多語言基準(zhǔn)測試,得分為55%,較上一個版本有顯著提升。他認(rèn)為,新版V3是僅次于Claude 3.7 Sonnet的非推理模型了,并且它比R1和o3-mini這樣的推理模型更具競爭力,因?yàn)樗馁M(fèi)用更便宜。

        圖片來源:X

        開源大模型評測項(xiàng)目Kcores大模型競技場的最新測試數(shù)據(jù)顯示,新版V3的代碼能力達(dá)到了328.3分,僅次于Claude 3.7 Sonnet(思考模型)和Claude 3.5(因不同測試之間題目不同,所以測試結(jié)果會有偏差)。

        圖片來源:Kcores大模型競技場

         

        在Kcores大模型中的四個測試中,新版V3都展示了出色的能力,特別是在九大行星模擬測試中,它是測試的25個模型中,唯一一個畫了土星環(huán)的大模型。

         

         

        圖片來源:Kcores大模型競技場

         
         

        記者實(shí)測新版V3編程能力:完成度高,難掩幻覺問題 

        截至目前,DeepSeek并沒有放出DeepSeek-V3-0324的跑分結(jié)果。

        不過,廣大網(wǎng)友對其進(jìn)行了獨(dú)立測試。在眾多用戶的體驗(yàn)中,最常被提到的就是新版V3的代碼能力。

        有網(wǎng)友同時比較了新版V3和R1之間的編程能力,要求:

        “創(chuàng)建一個包含CSS和JavaScript的單個HTML文件,以生成一個動畫天氣卡片??ㄆ瑧?yīng)通過不同的動畫直觀地表示以下天氣條件:

        風(fēng):(例如,移動的云朵、搖曳的樹木或風(fēng)線)

        雨:(例如,落下的雨滴、形成的水坑)

        晴:(例如,閃耀的光線、明亮的背景)

        雪:(例如,落下的雪花、積雪)并排顯示所有天氣卡片。

        卡片應(yīng)具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應(yīng)包含一種在不同天氣條件之間切換的方法(例如,一個函數(shù)或一組按鈕),以演示每種天氣的動畫。”

        從下圖可以發(fā)現(xiàn),兩者生成的效果可謂天差地別。

        左側(cè)為新版V3,右側(cè)為R1 圖片來源:X

        每經(jīng)記者也對新版V3進(jìn)行了測試,請它生成一個可以互動的、介紹世界風(fēng)光的網(wǎng)站前端。

        DeepSeek的響應(yīng)過程十分絲滑,只花了2分鐘就完成了,生成的網(wǎng)站配有日間/夜間模式切換、評論區(qū)、評分系統(tǒng)、收藏系統(tǒng)和社媒分享系統(tǒng)。

        不過需要指出的是,在一些細(xì)節(jié)上DeepSeek還是出現(xiàn)了幻覺問題,比如在介紹馬丘比丘時配上了和其毫無相關(guān)的圖片,在介紹長城時張冠李戴地配上了故宮的圖片。但整體的網(wǎng)站完成度還是值得點(diǎn)贊的。 

        網(wǎng)友熱評:對OpenAI如同噩夢,對DeepSeek-R2寄予厚望

        還有網(wǎng)友綜合體驗(yàn)下來表示,新版V3的提升幅度大約相當(dāng)于Sonnet 3.5到Sonnet 3.6的提升。

        有國外網(wǎng)友直呼,這對OpenAI來說就是一場噩夢。

        圖片來源:X

        有外媒表示:“V3新版本的推出時機(jī)和特點(diǎn)強(qiáng)烈表明,它將成為DeepSeek-R2的基礎(chǔ),后者是一款新的推理模型,預(yù)計(jì)在未來兩個月內(nèi)推出。這遵循了DeepSeek的既定模式,即其基礎(chǔ)模型比專門的推理模型早幾周推出。”

        Artificial Analysis表示,此版本可以說比R1更令人印象深刻,并且可能表明R2將是另一個重大飛躍。

        Kocres聯(lián)合創(chuàng)始人“karminski牙醫(yī)”在測試完新版V3后表示:“DeepSeek-V3新版本的能力十分可怕,甚至這還都不是DeepSeek-V4,更不是DeepSeek-R2!我現(xiàn)在十分期待DeepSeek-R2的發(fā)布了!”

        國外知名AI評論員“chubby”表示,這個小更新比預(yù)期的要大很多,因此我們對DeepSeek-R2寄予厚望。R2會成為有史以來最重要的開源推理模型。

        有Reddit用戶指出:“這與DeepSeek在圣誕節(jié)前后發(fā)布V3并在幾周后發(fā)布R1的方式一致。據(jù)傳R2將于4月發(fā)布。”

        如果DeepSeek-R2遵循R1發(fā)布的軌跡,它可能會對OpenAI的下一個旗艦?zāi)P虶PT-5構(gòu)成直接挑戰(zhàn)。此前,阿爾特曼在訪談中表示,GPT-5很快就會和大家見面。

        如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
        未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

        讀者熱線:4008890008

        特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

        DeepSeek 大模型 Ai

        歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

        每經(jīng)經(jīng)濟(jì)新聞官方APP

        0

        0