亚洲人成日本片,国产精品偷窥女精品视频,欧美老妇人在线一区二区三区,国产午夜福利不卡在线观看视频

  • <s id="2ymhs"></s>

    <acronym id="2ymhs"></acronym>

    <ol id="2ymhs"></ol>
        <s id="2ymhs"></s>

      • 每日經(jīng)濟(jì)新聞
        要聞

        每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

        四大維度深度體驗(yàn)多模態(tài)性能,GPT-4o為何被稱作“最強(qiáng)大模型”?

        每日經(jīng)濟(jì)新聞 2024-05-18 16:39:37

        每經(jīng)記者|文巧    每經(jīng)編輯|蘭素英    

        Safneuhpuj1716027799156.thumb_head

        圖片來(lái)源:每經(jīng)制圖

        去年3月,GPT-4震撼發(fā)布,距今已逾一年。盡管科技巨頭如谷歌、Meta,以及硅谷新貴如Mistral AI、Anthropic在那之后都爭(zhēng)相發(fā)布了競(jìng)品大模型,但似乎至今還未有第二款大模型達(dá)到與GPT-4一般橫掃科技圈的力量——直到GPT-4o的誕生。

        當(dāng)?shù)貢r(shí)間5月13日,OpenAI在萬(wàn)眾期待中推出了名為GPT-4o的新一代旗艦AI模型。當(dāng)日,OpenAI首席執(zhí)行官阿爾特曼發(fā)推文表示,新的GPT-4o是OpenAI“有史以來(lái)最好的模型”。

        據(jù)悉,GPT-4o支持文字、圖像、語(yǔ)音和視頻輸入和輸出,OpenAI承諾未來(lái)將免費(fèi)讓普通用戶使用,同時(shí)將開(kāi)放API給GPT開(kāi)發(fā)者,價(jià)格直接便宜50%。目前,該模型僅開(kāi)放了文本和圖像功能。

        本周,《每日經(jīng)濟(jì)新聞》記者從圖像和文本兩大層面深度體驗(yàn)了GPT-4o的效果,著重識(shí)圖能力的測(cè)試。綜合來(lái)看,GPT-4o在反應(yīng)速度上有極大的提升,識(shí)圖方面冠絕群雄,不僅能夠準(zhǔn)確識(shí)別圖片,還能以類人的思維理解圖像內(nèi)容。而在長(zhǎng)文本總結(jié)方面,與當(dāng)前模型的差距并不突出。

        GPT-4o到底是如何“煉”成的?當(dāng)?shù)貢r(shí)間5月15日,OpenAI聯(lián)合創(chuàng)始人之一John Schulman在接受科技播客主持人Dwarkesh Patel采訪時(shí)透露,后訓(xùn)練是提高模型性能的關(guān)鍵因素。

        GPT-4o的識(shí)圖能力有多牛?四大維度深度體驗(yàn)

        基于圖片類型,記者將識(shí)圖功能的測(cè)評(píng)分為4大維度,分別為普通圖像、特定專業(yè)領(lǐng)域的圖像、數(shù)據(jù)圖像和手寫(xiě)圖像。

        一、普通圖像識(shí)別

        (1)內(nèi)容較為單一的圖像

        記者首先選取了一張波士頓動(dòng)力機(jī)器人跨越障礙物的圖像,內(nèi)容較為簡(jiǎn)單,圖上無(wú)文字,隨后要求大模型仔細(xì)識(shí)圖并描述內(nèi)容。GPT-4o非常出色地完成了任務(wù),細(xì)節(jié)描述無(wú)可匹敵,準(zhǔn)確無(wú)誤地識(shí)別了機(jī)器人的運(yùn)動(dòng)狀態(tài)、地面障礙等豐富細(xì)節(jié)。

        圖片來(lái)源:GPT-4o

        (2)內(nèi)容較為復(fù)雜的漫畫(huà)

        接著,記者選取了由多個(gè)圖像組成、內(nèi)容較為復(fù)雜的漫畫(huà)。GPT-4o可以完整地總結(jié)出每一格漫畫(huà)的內(nèi)容,并以準(zhǔn)確的順序進(jìn)行講述。更令人吃驚的是,GPT-4o完全以類人的思維解構(gòu)了漫畫(huà)的邏輯,它能夠理解這是一種“擬人和夸張的手法”,并準(zhǔn)確理解了漫畫(huà)的幽默感。

        圖片來(lái)源:GPT-4o

        二、特定專業(yè)領(lǐng)域的圖像

        (1)醫(yī)學(xué)領(lǐng)域

        記者準(zhǔn)備了一張mRNA疫苗工作原理圖,圖像并未直接說(shuō)明這是一張疫苗工作原理圖,但圖上寫(xiě)有相應(yīng)文字,例如“刺突蛋白”、“蛋白質(zhì)翻譯”和“脂質(zhì)納米顆粒”等術(shù)語(yǔ)。

        GPT-4o的表現(xiàn)驚艷,不僅準(zhǔn)確識(shí)別了該圖的主旨內(nèi)容,并依據(jù)圖示上的過(guò)程用通俗的語(yǔ)言解釋了mRNA疫苗的工作原理。

        圖片來(lái)源:GPT-4o 

        (2)房地產(chǎn)領(lǐng)域

        接著,記者選取了一張建筑面積134平方米的戶型圖,讓大模型識(shí)圖并總結(jié)戶型優(yōu)劣勢(shì)。GPT-4o呈現(xiàn)了總體令人較為滿意的結(jié)果,該模型不僅能識(shí)別戶型基本情況,分辨出“半贈(zèng)送”的建筑面,也能夠清楚地總結(jié)戶型的優(yōu)劣勢(shì),但在數(shù)據(jù)準(zhǔn)確性上有待提高。




        圖片來(lái)源:GPT-4o 

        三、數(shù)據(jù)圖像的分析和轉(zhuǎn)換

        在此維度下,記者選取了一張折柱混合數(shù)據(jù)圖。GPT-4o能夠準(zhǔn)確地識(shí)別數(shù)據(jù)圖上的信息,并按要求以圖表的形式重新呈現(xiàn),準(zhǔn)確率高達(dá)100%。

        圖片來(lái)源:GPT-4o 

        四、手寫(xiě)指令和邏輯推理

        最后,記者上了點(diǎn)難度,用手寫(xiě)的邏輯推理題來(lái)測(cè)試了GPT-4o的識(shí)圖和邏輯推理能力。GPT-4o的回答堪稱完美,不僅準(zhǔn)確識(shí)別了手寫(xiě)體文字并遵照指示,且答題邏輯完全合理,也最終給出了正確答案。


        圖片來(lái)源:GPT-4o 

        除了識(shí)圖功能之外,記者也從文本層面對(duì)GPT-4o的長(zhǎng)文本總結(jié)功能進(jìn)行了測(cè)評(píng)。記者選取了一篇近萬(wàn)字的調(diào)查稿件,讓其總結(jié)要點(diǎn)。GPT-4o不負(fù)眾望地完成了任務(wù)。


        圖片來(lái)源:GPT-4o 

        GPT-4o是如何“煉”成的?后訓(xùn)練功不可沒(méi)

        從前述體驗(yàn)看,GPT-4o的反應(yīng)速度和多模態(tài)能力令人印象深刻。OpenAI首席執(zhí)行官阿爾特曼直言,新的GPT-4o是OpenAI“有史以來(lái)最好的模型”。

        那么,GPT-4o的多模態(tài)能力是如何“煉”成的呢?這背后的秘密或許可以從OpenAI聯(lián)合創(chuàng)始人John Schulman當(dāng)?shù)貢r(shí)間5月15日與科技播客主持人Dwarkesh Patel的對(duì)話中一窺究竟。

        John Schulman在采訪中提到,后訓(xùn)練(Post-Training)是提高模型性能的有效方法,通過(guò)額外的訓(xùn)練和微調(diào)可以顯著提高模型的能力。

        在這里需要區(qū)分兩個(gè)關(guān)鍵的概念,在大模型訓(xùn)練中通常會(huì)提到“預(yù)訓(xùn)練”、“后訓(xùn)練”等術(shù)語(yǔ)。預(yù)訓(xùn)練常在大規(guī)模的數(shù)據(jù)集上進(jìn)行(通常是讓模仿互聯(lián)網(wǎng)上的內(nèi)容),目標(biāo)是通過(guò)在較大的任務(wù)上訓(xùn)練模型,使得模型學(xué)習(xí)到通用的特征。

        而后訓(xùn)練指的是專注針對(duì)特定行為優(yōu)化模型,在預(yù)訓(xùn)練模型的基礎(chǔ)上,使用額外的大規(guī)模未標(biāo)注語(yǔ)料庫(kù)繼續(xù)訓(xùn)練模型參數(shù),這個(gè)過(guò)程可以進(jìn)一步豐富模型對(duì)語(yǔ)言的理解和生成能力,使其獲得更廣泛的知識(shí)。

        根據(jù)John Schulman的說(shuō)法,后訓(xùn)練是GPT-4模型不斷升級(jí)的關(guān)鍵因素。據(jù)悉,當(dāng)前 GPT-4 的 Elo分?jǐn)?shù)(編者注:一種大模型基準(zhǔn)評(píng)級(jí)標(biāo)準(zhǔn))比最初發(fā)布的版本高出了大約 100 分,而這種改進(jìn)大部分都是由后訓(xùn)練帶來(lái)的。

        他同時(shí)暗示,在未來(lái)用于訓(xùn)練的算力中,OpenAI可能將偏向后訓(xùn)練。他說(shuō)道:“模型生成的輸出質(zhì)量比網(wǎng)上的大多數(shù)內(nèi)容都要高。因此,讓模型自己思考似乎更有道理,而不僅僅是訓(xùn)練來(lái)模仿網(wǎng)絡(luò)上的內(nèi)容。所以,我認(rèn)為從第一性原理上來(lái)說(shuō),這是有說(shuō)服力的。我們通過(guò)后訓(xùn)練取得了很多進(jìn)步。我希望我們會(huì)繼續(xù)推動(dòng)這種方法,并且可能會(huì)增加投入到后訓(xùn)練中的計(jì)算力。”

        針對(duì)GPT-4o強(qiáng)大的多模態(tài)能力,英偉達(dá)高級(jí)研究科學(xué)家Jim Fan發(fā)表長(zhǎng)文表示,從技術(shù)角度來(lái)看,這需要對(duì)標(biāo)記化和架構(gòu)進(jìn)行一些新的研究,但總體上是一個(gè)數(shù)據(jù)和系統(tǒng)優(yōu)化問(wèn)題。

        在Jim Fan看來(lái),GPT-4o很可能是GPT-5的一個(gè)早期訓(xùn)練點(diǎn),但訓(xùn)練尚未完成。從商業(yè)角度上,他認(rèn)為,“GPT-4o的定位透露出OpenAI某種不安全感,在谷歌開(kāi)發(fā)者大會(huì)之前(發(fā)布GPT-4o),(意味著)OpenAI寧愿超越我們對(duì)GPT-4.5的心理預(yù)期,也不愿因?yàn)檫_(dá)不到對(duì)GPT-5的極高期望而令人失望。這是一個(gè)聰明的舉措,可以爭(zhēng)取更多時(shí)間。”目前,業(yè)界廣傳GPT-5將在年底發(fā)布。

        Jim Fan的觀點(diǎn)與一些業(yè)內(nèi)分析不謀而合。分析認(rèn)為,OpenAI選擇此時(shí)發(fā)布GPT-4o,是為了在競(jìng)爭(zhēng)對(duì)手尤其是谷歌不斷發(fā)起挑戰(zhàn)的情況下,繼續(xù)保持領(lǐng)先地位。

        如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
        未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

        讀者熱線:4008890008

        特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

        GPT 模型 大模型 一周熱點(diǎn)

        歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

        每經(jīng)經(jīng)濟(jì)新聞官方APP

        0

        0