亚洲人成日本片,国产精品偷窥女精品视频,欧美老妇人在线一区二区三区,国产午夜福利不卡在线观看视频

  • <s id="2ymhs"></s>

    <acronym id="2ymhs"></acronym>

    <ol id="2ymhs"></ol>
        <s id="2ymhs"></s>

      • 每日經(jīng)濟(jì)新聞
        深讀100

        每經(jīng)網(wǎng)首頁(yè) > 深讀100 > 正文

        一張草圖直接生成視頻游戲,谷歌推出生成交互大模型

        AIGC開(kāi)放社區(qū) 2024-03-04 09:44:12

        谷歌DeepMind的研究人員推出了,首個(gè)無(wú)需數(shù)據(jù)標(biāo)記、無(wú)監(jiān)督訓(xùn)練的生成交互模型——Generative Interactive Environments,簡(jiǎn)稱(chēng)“Genie”。

        Genie有110億參數(shù),可以根據(jù)圖像、真實(shí)照片甚至草圖,就能生成各種可控制動(dòng)作的視頻游戲。Genie之所以有如此神奇功能,主要使用了3萬(wàn)小時(shí),6800萬(wàn)段的游戲視頻進(jìn)行了大規(guī)模訓(xùn)練。

        并且在訓(xùn)練過(guò)程中沒(méi)有使用任何真實(shí)動(dòng)作標(biāo)簽或其他特定提示,但Genie可以基于幀級(jí)別的,使用戶(hù)在生成的環(huán)境中進(jìn)行各種動(dòng)作控制非常強(qiáng)!

        值得一提的是,Genie是一個(gè)通用基礎(chǔ)模型,也就是說(shuō)其學(xué)到的潛在動(dòng)作關(guān)系、序列、空間可以應(yīng)用在其他領(lǐng)域中。

        論文地址:https://arxiv.org/abs/2402.15391

        項(xiàng)目地址:https://sites.google.com/view/genie-2024/home

        Genie的核心架構(gòu)用了ST-Transformer(時(shí)空變換器)。這是一種結(jié)合了Transformer模型的自注意力機(jī)制與時(shí)空數(shù)據(jù)的特性,以有效處理視頻、多傳感器時(shí)間序列、交通流量等時(shí)空數(shù)據(jù)。

        ST-Transformer主要通過(guò)捕捉數(shù)據(jù)在時(shí)間和空間上的復(fù)雜依賴(lài)關(guān)系,提高了對(duì)時(shí)空序列的理解和預(yù)測(cè)能力,主要有3大模塊組成。

        圖片將一張草圖,直接生成可控的小游戲

        轉(zhuǎn)化展示

        視頻分詞器

        這是一個(gè)基于VQ-VAE的模塊,可將原始視頻幀壓縮成離散的記號(hào)表示,以降低維度并提高后續(xù)模塊的視頻生成質(zhì)量。

        這個(gè)過(guò)程類(lèi)似自然語(yǔ)言處理中的分詞,將連續(xù)的視頻幀序列分解為離散的視頻片段。

        視頻分詞器使用了ST-transformer來(lái)對(duì)視頻進(jìn)行編碼,并生成對(duì)應(yīng)的視頻標(biāo)記。這些標(biāo)記將作為后續(xù)動(dòng)力學(xué)模型的輸入,用于預(yù)測(cè)下一幀視頻。

        潛在動(dòng)作模型

        這是一個(gè)無(wú)監(jiān)督學(xué)習(xí)模塊,可從原始視頻中推斷出觀察到的狀態(tài)變化對(duì)應(yīng)的潛在動(dòng)作。并根據(jù)這些潛在動(dòng)作實(shí)現(xiàn)對(duì)每一幀的控制。潛在動(dòng)作模型通過(guò)對(duì)視頻標(biāo)記序列進(jìn)行建模,學(xué)習(xí)到了不同幀之間的動(dòng)作關(guān)系。

        具體來(lái)說(shuō),潛在動(dòng)作模型可以將一個(gè)視頻標(biāo)記序列作為輸入,并生成對(duì)應(yīng)的潛在動(dòng)作序列。這些潛在動(dòng)作序列可以用于控制生成環(huán)境中的每一幀,使用戶(hù)能夠在生成的交互環(huán)境中進(jìn)行精確的操作。

        動(dòng)力學(xué)模型

        主要基于潛在動(dòng)作模型學(xué)習(xí)到的動(dòng)作關(guān)系,根據(jù)潛在動(dòng)作和過(guò)去的幀標(biāo)記預(yù)測(cè)下一幀的視頻??梢园言撃K看作是一個(gè)預(yù)測(cè)模型,通過(guò)學(xué)習(xí)視頻序列的動(dòng)態(tài)變化模式,能夠生成逼真的連續(xù)視頻。

        動(dòng)力學(xué)模型的輸入包括前一幀的圖像表示和當(dāng)前幀的動(dòng)作表示。為了將圖像表示和動(dòng)作表示進(jìn)行融合,Genie采用了一個(gè)基于Transformer架構(gòu)的編碼器來(lái)對(duì)它們進(jìn)行編碼。

        在編碼器中,首先對(duì)前一幀的圖像進(jìn)行編碼,并采用了一種視頻標(biāo)記器的方法,將圖像分割成若干個(gè)離散的標(biāo)記,每個(gè)標(biāo)記代表圖像中的一個(gè)局部區(qū)域。這種分割可以幫助模型捕捉到圖像中的空間信息。

        當(dāng)前幀的動(dòng)作表示也通過(guò)編碼器進(jìn)行編碼。動(dòng)作表示可以是離散的動(dòng)作類(lèi)別或連續(xù)的動(dòng)作向量,具體的形式取決于具體的應(yīng)用場(chǎng)景。

        編碼器將動(dòng)作表示轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的向量,以便與圖像表示進(jìn)行融合。在獲得圖像表示和動(dòng)作表示的編碼后,它們被輸入到動(dòng)力學(xué)模型中進(jìn)行預(yù)測(cè)。

        責(zé)編 胡玲

        特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

        視頻 模型 游戲

        歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

        每經(jīng)經(jīng)濟(jì)新聞官方APP

        0

        0