每日經(jīng)濟(jì)新聞 2025-03-28 11:47:43
當(dāng)?shù)貢r(shí)間3月25日,美國(guó)OpenAI正式推出GPT-4o圖像生成功能,該功能因“動(dòng)動(dòng)嘴就能P圖”的便利性迅速走紅,但也因圖像生成需求過(guò)高導(dǎo)致GPU過(guò)載。OpenAI首席執(zhí)行官薩姆·奧爾特曼表示將對(duì)ChatGPT的圖像生成功能實(shí)施臨時(shí)限速,優(yōu)先保障文本生成等核心功能穩(wěn)定運(yùn)行。
每經(jīng)編輯 杜宇
隨著OpenAI的圖像生成功能完成重大升級(jí),新的問(wèn)題出現(xiàn)了。
OpenAI首席執(zhí)行官薩姆?奧爾特曼(Sam Altman)表示:ChatGPT的文生圖應(yīng)用需求過(guò)高,我們的GPU“冒煙了”(melting,原為融化之意),在努力提高效率的同時(shí),將暫時(shí)對(duì)ChatGPT生成圖片的功能引入一些速率限制。
圖片來(lái)源:社交平臺(tái)
這意味著,OpenAI將對(duì)ChatGPT的圖像生成功能實(shí)施臨時(shí)限速,降低單位時(shí)間內(nèi)的請(qǐng)求處理量,緩解GPU過(guò)載壓力,并優(yōu)先保障文本生成、對(duì)話(huà)等核心功能的穩(wěn)定性,或許將暫時(shí)放緩圖像生成的技術(shù)優(yōu)化節(jié)奏。
據(jù)OpenAI官網(wǎng),當(dāng)?shù)貢r(shí)間3月25日,美國(guó)開(kāi)放人工智能研究中心(OpenAI)宣布正式推出GPT-4o圖像生成功能。
圖片來(lái)源:OpenAI官網(wǎng)
該功能上線(xiàn)后,以“動(dòng)動(dòng)嘴就能P圖”的便利迅速火爆,互聯(lián)網(wǎng)平臺(tái)上涌入大量由個(gè)人照片、知名梗圖轉(zhuǎn)變而來(lái)的“吉卜力”卡通風(fēng)格圖片。
“動(dòng)動(dòng)嘴就能P圖”是指通過(guò)簡(jiǎn)單的文字描述或語(yǔ)音指令,利用AI技術(shù)直接對(duì)圖片進(jìn)行編輯、修改或生成,而無(wú)需手動(dòng)使用復(fù)雜的圖像編輯工具,如Photoshop等。這種功能的核心在于將自然語(yǔ)言處理與圖像生成技術(shù)相結(jié)合,極大地降低了圖片編輯的門(mén)檻。
GPT-4o是一個(gè)多模態(tài)AI模型,能夠接受文本、音頻和圖像的組合輸入,并生成相應(yīng)的圖像輸出。這意味著用戶(hù)可以通過(guò)語(yǔ)音指令來(lái)要求AI生成或修改圖像,而不僅僅局限于文字描述。
連Altman也感嘆起該功能帶來(lái)的潑天流量:“自己過(guò)去十年埋頭苦干做AI,試圖幫助實(shí)現(xiàn)超級(jí)智能來(lái)治愈癌癥之類(lèi)的事情。前7.5年幾乎無(wú)人問(wèn)津,接下來(lái)的兩年半,做什么都會(huì)引來(lái)所有人的厭惡。然后某天醒來(lái)收到幾百條消息,人們告訴你被畫(huà)成了吉卜力風(fēng)格的美少年。”
Sam Altman在社交平臺(tái)上的新頭像,生成自Images in ChatGPT
據(jù)OpenAI介紹,GPT-4o圖像生成功能具備四大核心優(yōu)勢(shì):精準(zhǔn)文本渲染、嚴(yán)格指令遵循、深度知識(shí)調(diào)用及創(chuàng)意拓展能力。
據(jù)揚(yáng)子晚報(bào)·紫牛新聞,為驗(yàn)證其實(shí)際表現(xiàn),記者進(jìn)行了多組實(shí)測(cè)。在測(cè)試“生成一張帶有‘揚(yáng)子晚報(bào)/紫牛新聞’字樣的照片”時(shí),GPT-4o精準(zhǔn)還原了英文部分內(nèi)容,但對(duì)于中文字符的識(shí)別能力有待提升。整個(gè)過(guò)程耗時(shí)約30秒,生成速度遠(yuǎn)超預(yù)期。
圖片來(lái)源:揚(yáng)子晚報(bào)·紫牛新聞
在另一項(xiàng)測(cè)試中,通過(guò)多輪對(duì)話(huà)優(yōu)化圖像。首先要求生成“一只老虎,戴著黑色墨鏡”,GPT-4o迅速呈現(xiàn)了細(xì)節(jié)豐富的畫(huà)面。老虎的毛發(fā)紋理清晰可見(jiàn),透過(guò)墨鏡能看到老虎的眼睛細(xì)節(jié)。隨后,記者進(jìn)一步輸入指令“給這個(gè)老虎戴上偵探帽,并生成游戲場(chǎng)景”,新生成的圖像不僅完美實(shí)現(xiàn)了場(chǎng)景變化,還保持了主體特征的一致性,展現(xiàn)了強(qiáng)大的上下文連貫性。
圖片來(lái)源:揚(yáng)子晚報(bào)·紫牛新聞
針對(duì)復(fù)雜場(chǎng)景的處理能力,以“設(shè)計(jì)一個(gè)包含12個(gè)不同物體的4x3網(wǎng)格圖,每個(gè)物體需準(zhǔn)確呈現(xiàn)指定特征”進(jìn)行測(cè)試。GPT-4o成功應(yīng)對(duì)了這一挑戰(zhàn),從藍(lán)色星星、紅色三角形到彩虹閃電,細(xì)節(jié)精準(zhǔn)度令人驚嘆。但可能是對(duì)中文理解能力不足,生成圖案中存在指令缺失的情況。
在實(shí)用性測(cè)試中,記者嘗試生成專(zhuān)業(yè)場(chǎng)景圖像。例如,要求“制作一份傳統(tǒng)中式風(fēng)格的餐廳菜單,包含毛血旺和酸菜魚(yú)的菜品描述”。GPT-4o生成的菜單不僅文字排版優(yōu)雅,插畫(huà)風(fēng)格與菜品完美契合,整體視覺(jué)效果令人滿(mǎn)意。此外,生成科學(xué)示意圖的能力同樣出色。記者輸入指令“繪制牛頓棱鏡實(shí)驗(yàn)的示意圖”,模型迅速輸出了結(jié)構(gòu)清晰的教學(xué)圖像。
盡管存在這些不足,GPT-4o 圖像生成功能的革新性依然顯著。其精準(zhǔn)的文本渲染能力、對(duì)復(fù)雜指令的高遵循度,以及多輪對(duì)話(huà)中的一致性表現(xiàn),為創(chuàng)意設(shè)計(jì)、教育教學(xué)、游戲開(kāi)發(fā)等領(lǐng)域提供了強(qiáng)大工具。正如OpenAI首席執(zhí)行官薩姆?奧爾特曼(Sam Altman)所言,這一功能的推出標(biāo)志著 “創(chuàng)作自由的新高點(diǎn)”,用戶(hù)將借此釋放更多視覺(jué)創(chuàng)意潛能。
作為AI領(lǐng)域的頭部玩家,OpenAI背后的GPU儲(chǔ)備自然是業(yè)內(nèi)頂尖水準(zhǔn)。根據(jù)技術(shù)咨詢(xún)公司Omdia的分析,微軟作為OpenAI的主要投資者,在2024年購(gòu)買(mǎi)了約48.5萬(wàn)塊英偉達(dá)的Hopper芯片,是其主要競(jìng)爭(zhēng)對(duì)手Meta的兩倍,這使其成為英偉達(dá)GPU的最大買(mǎi)家。OpenAI的大模型正是用微軟的Azure云基礎(chǔ)設(shè)施進(jìn)行訓(xùn)練。
可以說(shuō),OpenAI因新功能面臨的問(wèn)題,折射了AI多模態(tài)技術(shù)發(fā)展中的資源與需求平衡難題,一方面,AI應(yīng)用對(duì)GPU等算力資源的需求依然龐大,另一方面,行業(yè)繼續(xù)呼喚技術(shù)迭代,以求高效利用現(xiàn)有資源。
圖片來(lái)源:視覺(jué)中國(guó)
據(jù)北京商報(bào),此次更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項(xiàng)技術(shù),包括推理模型o3的技術(shù),GPT-5可能會(huì)在未來(lái)幾個(gè)月內(nèi)推出。
相比于之前一直不明確GPT-5的推出節(jié)點(diǎn),奧爾特曼突然官宣GPT路線(xiàn)圖,或許是因?yàn)镺penAI面臨用戶(hù)流失的壓力。奧爾特曼此前表示,DeepSeek讓OpenAI的領(lǐng)先優(yōu)勢(shì)不會(huì)像前幾年那么大了,并稱(chēng)個(gè)人認(rèn)為在開(kāi)源權(quán)重模型和研究成果的問(wèn)題上,OpenAI已經(jīng)站在了歷史的錯(cuò)誤一邊,需要制定不同的開(kāi)源策略。
此前據(jù)《華爾街日?qǐng)?bào)》報(bào)道,OpenAI內(nèi)部代號(hào)為“獵戶(hù)座”(Orion)的GPT-5項(xiàng)目的開(kāi)發(fā)已持續(xù)近兩年,目前面臨嚴(yán)峻挑戰(zhàn)。按原計(jì)劃,該項(xiàng)目應(yīng)在2024年年中完成,但現(xiàn)在進(jìn)度嚴(yán)重滯后。
OpenAI已經(jīng)進(jìn)行了至少兩次大型訓(xùn)練,每次訓(xùn)練都需要數(shù)月時(shí)間處理大量數(shù)據(jù),目的是讓“獵戶(hù)座”變得更聰明。一位前OpenAI高管表示,如果說(shuō)GPT-4的表現(xiàn)相當(dāng)于一個(gè)優(yōu)秀高中生,那么GPT-5的目標(biāo)是要在某些任務(wù)上達(dá)到博士水平。然而熟悉該項(xiàng)目的人士表示,“獵戶(hù)座”的訓(xùn)練每次都會(huì)出現(xiàn)新問(wèn)題,軟件也達(dá)不到研究人員的預(yù)期。
東吳證券發(fā)布研報(bào)稱(chēng),判斷OpenAI對(duì)大模型的產(chǎn)品線(xiàn)與預(yù)期曾進(jìn)行過(guò)調(diào)整。GPT-5的發(fā)布時(shí)間或提前,或由于DeepSeek近期的重磅更新和亮眼表現(xiàn)對(duì)OpenAI產(chǎn)品版圖構(gòu)成了威脅,進(jìn)而希望加快產(chǎn)品迭代步伐。
研究機(jī)構(gòu)Gartner預(yù)測(cè),到2026年,多模態(tài)生成模型的商業(yè)價(jià)值將占AI市場(chǎng)的45%。隨著谷歌與微軟等巨頭持續(xù)加碼,生成式AI正從通用工具向產(chǎn)業(yè)基礎(chǔ)設(shè)施演變,但其社會(huì)倫理、監(jiān)管框架的完善也有待各方共同探索。
每日經(jīng)濟(jì)新聞綜合北京商報(bào)、揚(yáng)子晚報(bào)·紫牛新聞、OpenAI官網(wǎng)、公開(kāi)資料
封面圖片來(lái)源:每日經(jīng)濟(jì)新聞 資料圖
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線(xiàn):4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP