日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受

VARIATIONAL RECURRENT AUTO-ENCODERS 詳解

摘要

在本文中,我們提出了一個(gè)結合了RNN和SGVB優(yōu)勢的模型:變分自動(dòng)編碼器(VRAE)。 這種模型可用于對時(shí)間序列數據進(jìn)行有效的大規模無(wú)監督學(xué)習,將時(shí)間序列數據映射到潛在向量表示。 該模型是生成模型,因此可以從隱藏空間的樣本生成數據。 這項工作的一個(gè)重要貢獻是該模型可以利用未標記的數據,以便通過(guò)初始化權重和網(wǎng)絡(luò )狀態(tài)來(lái)促進(jìn)對RNN的監督訓練。

簡(jiǎn)介

我們提出了一種基于變分貝葉斯的新RNN模型:變分循環(huán)自動(dòng)編碼器(VRAE)。 該模型類(lèi)似于自動(dòng)編碼器,因為它學(xué)習了一個(gè)編碼器,用于學(xué)習從數據到潛在表示的映射,以及從潛在表示到數據的解碼器。然而,變分貝葉斯方法將數據映射到分布上 這種類(lèi)型的網(wǎng)絡(luò )可以使用隨機梯度變分貝葉斯(SGVB)進(jìn)行有效訓練.

VRAE允許將時(shí)間序列映射到潛在表示,并且它允許對時(shí)間序列進(jìn)行有效的,大規模的無(wú)監督變分學(xué)習。 此外,訓練有素的VRAE為標準RNN提供了合理的權重初始化和網(wǎng)絡(luò )狀態(tài)。 通常,網(wǎng)絡(luò )狀態(tài)初始化為零,但Pascanu等人。 已經(jīng)表明網(wǎng)絡(luò )狀態(tài)是解釋爆炸梯度問(wèn)題的一個(gè)重要因素。 使用權重和從VRAE獲得的網(wǎng)絡(luò )狀態(tài)初始化標準RNN可能會(huì )使訓練更有效,并且可能避免爆炸性梯度問(wèn)題并實(shí)現更好的分數.

方法

SGVB

由Kingma&Welling(2013)和Rezende等人獨立開(kāi)發(fā)的隨機梯度變分貝葉斯(SGVB) 是一種訓練模型的方法,其中假設使用一些未觀(guān)察到的連續隨機變量z生成數據。 通常,邊際似然性 \int p(z) p(x | z) dz 對于這些模型是難以處理的,并且即使對于小數據集,基于采樣的方法在計算上也太昂貴。 SGVB通過(guò)用q(z | x)近似真實(shí)的后驗p(z | x)然后優(yōu)化對數似然的下界來(lái)解決這個(gè)問(wèn)題。 類(lèi)似于Kingma論文中的命名法,我們稱(chēng)q(z | x)為編碼器,p(x | z)為解碼器。

數據點(diǎn)i的對數似然可以寫(xiě)為真實(shí)后驗p(z | x)和近似q(z | x) 之間的下界和KL發(fā)散項之和,其中θ是模型的參數:

log(p(X^{(i)})) = D_{KL}(q(z|X^{(i)})||p(z|X^{(i)})) + L(θ; X^{(i)})

由于KL散度是非負的,因此L(θ; X^{(i)})是對數似然的下界。 該下限可表示為:

L(θ; X^{(i)}) = ?D_{KL}(q(z|X^{(i)}) || p(z)) + E_{q(z|X^{(i)})}[log (p_θ(X^{(i)}|z) )]

如果我們想用梯度上升來(lái)優(yōu)化這個(gè)下界,我們需要關(guān)于所有參數的梯度。 獲得編碼器的梯度是相對簡(jiǎn)單的,但是獲得解碼器的梯度不是。 為了解決這個(gè)問(wèn)題,引入了“重新參數化技巧”,其中它們將隨機變量z \sim q(z | X)重新參數化為確定性變量z = g( \epsilon,x)。 在我們的模型中,潛在變量是單變量高斯,所以重新參數化是z =μ+σ,其中 \epsilon \sim N(0,1)。

以這種方式對潛在變量建模允許分析地積分KL散度,從而產(chǎn)生以下估計:

L(θ;X^{(i)}) \simeq \sum_{j = 1}^{J} (1 + log((\sigma^{(i)})^2 - (\mu^{(i)})^2 -(\sigma^{(i)}_j)^2 )) + \frac{1}{L} \sum log(p(x^{(i)} | z^{(i,l)}))

模型

編碼器包含一組循環(huán)連接,使得狀態(tài)h_{t + 1}基于先前狀態(tài)和相應時(shí)間步長(cháng)的數據x_{t + 1}計算。 Z上的分布是從RNN的最后狀態(tài)獲得的,h_{end},這樣:

h_{t+1} = tanh(W^T_{enc} h_t + W^T_{in}x_{t+1} b_{enc})
u_z = W^T_z h_{end} + b_{\mu}
log(\sigma_z) = W^T_{\sigma} h_{end} + b_{\sigma} $$ 其中 $h_0$是初始化的零向量 使用重新參數化技巧,從該編碼中對$z$進(jìn)行采樣,并且利用一組權重來(lái)計算解碼RNN的初始狀態(tài)。 此后,再次更新為傳統的RNN: $$ h_0 = tanh(W^T_Z z + b_z)
h_{t+1} = tanh(W^T_{dec} h_t) + W^T_x x_t b_{dec}
x_t =sigm(W^T_{out} h-t + b_{out}) $$ ![Screenshotat20190818145806.png](https://pan.zeekling.cn/CwS_ae6a98fe1564763735784595935.png) ## 實(shí)驗 ### 數據和預處理 對于我們的實(shí)驗,我們使用8個(gè)MIDI文件(每個(gè)音高一維的二進(jìn)制數據),以20Hz采樣的眾所周知的80和90s視頻游戲歌曲1。 經(jīng)檢查,88個(gè)尺寸中只有49個(gè)含有大量的鈔票,因此其他尺寸被刪除。 歌曲被分成短片,每個(gè)片段成為一個(gè)數據點(diǎn)。 為了從每個(gè)歌曲中獲得相同數量的數據點(diǎn),僅使用來(lái)自每首歌曲的前520個(gè)數據點(diǎn)。 ### 訓練模型 事實(shí)證明,優(yōu)化器的選擇對于使VRAE學(xué)習有用的表示至關(guān)重要,尤其是自適應梯度和動(dòng)量非常重要。 在我們的實(shí)驗中,我們使用了Adam,這是一個(gè)受RMSprop啟發(fā)的優(yōu)化器,包括動(dòng)量和零偏差校正因子,由Kingma&Ba(2014)創(chuàng )建。 我們在最后一節描述的數據集上訓練了一個(gè)VRAE,其中有一個(gè)二維潛在空間和500個(gè)隱藏單元。 歌曲被分成每個(gè)50個(gè)時(shí)間步長(cháng)的非重疊序列。 使用的Adam參數是β1= 0.05和β2= 0.001。 由于不穩定,學(xué)習期間學(xué)習率逐漸降低。 初始學(xué)習率為$1·10^{-3}$,最終學(xué)習率為$5·10^{-6}$。 訓練期間產(chǎn)生的下界如圖所示 ![Screenshotat20190818163149.png](https://pan.zeekling.cn/vm8_70af4538963573166463816540.png) > 左側是訓練期間每個(gè)時(shí)間步數的每個(gè)數據點(diǎn)的對數似然的下限。 由于規模原因,前10個(gè)時(shí)期被切斷。 右邊是潛在空間中所有數據點(diǎn)的組織。 對每個(gè)數據點(diǎn)進(jìn)行編碼,并在所得到的編碼的二維平均值μ的位置處可視化。 “Mario nderworld”(綠色三角形),“Mario”(紅色三角形)和“Mariokart”(藍色riangles)占據最鮮明的區域。 對于僅具有二維潛在空間的模型,可以在潛在空間中顯示每個(gè)數據點(diǎn)的位置。 數據點(diǎn)只有幾秒鐘,因此無(wú)法捕獲歌曲的所有特征。 然而,圖1顯示了一些聚類(lèi),因為某些歌曲在潛在空間中占據不同的區域。 然而,二維潛在空間對于建模數據的基礎分布來(lái)說(shuō)是次優(yōu)的。 因此,我們還訓練了一個(gè)包含20個(gè)潛在變量的模型。 對于該模型,我們使用具有重疊的40個(gè)時(shí)間步長(cháng)的序列,使得每個(gè)數據點(diǎn)的開(kāi)始位于先前數據點(diǎn)的中間。 這樣,模型不僅可以學(xué)習單個(gè)數據點(diǎn),還可以學(xué)習它們之間的過(guò)渡,從而可以生成任意長(cháng)度的音樂(lè )。 在訓練第一個(gè)模型時(shí),使用的Adam參數是β1= 0.05和β2= 0.001。 學(xué)習率為2·10-5,在1.6·104個(gè)時(shí)期后調整為1·10-5。 得到的下限如圖2所示。與1類(lèi)似,使用該模型在潛在空間中的數據組織如圖2所示。為了可視化二維潛在表示,我們使用了t-SNE. ![Screenshotat20190818163529.png](https://pan.zeekling.cn/dW8_49bfda1d8847947061733947285.png) > 左側是訓練期間每個(gè)時(shí)間步數的每個(gè)數據點(diǎn)的對數似然的下限。 由于規模原因,前10個(gè)時(shí)期被切斷。 右側是潛在空間中編碼數據的組織可視化。 我們計算了每個(gè)數據點(diǎn)的20維潛在表示。 使用t-SNE在二維中可視化該表示的平均μ。 每種顏色代表一首歌曲的數據點(diǎn)。 可以看出,對于每首歌曲,該歌曲的部分僅占據空間的一部分,并且一些歌曲的部分(例如,“mariounderworld”,紫色)清楚地組合在一起。 當然,一首歌的部分可以組合在一起多少取決于歌曲相對于不同歌曲之間的相似性的均勻性,以及在t-SNE的維數減少期間丟失了多少空間信息 ### 生成數據 給定隱藏空間矢量,訓練模型的解碼部分可用于生成數據。 本章描述的第一個(gè)模型是在50個(gè)時(shí)間步長(cháng)的非重疊序列上進(jìn)行訓練的。 因此,不能期望生成更長(cháng)的序列將從與訓練數據相同的分布產(chǎn)生數據。 但是,由于我們知道每個(gè)數據點(diǎn)在二維中的潛在表示,我們可以檢查它們的位置(見(jiàn)圖1),我們使用模型在不同歌曲的各部分之間進(jìn)行插值。 由此產(chǎn)生的音樂(lè )只持續幾秒鐘,顯然具有兩個(gè)部分的元素。 在重疊數據點(diǎn)上訓練的模型用于生成具有各種(20維)潛在狀態(tài)向量的1000個(gè)時(shí)間步長(cháng)(~50秒)的音樂(lè )。 可以通過(guò)編碼數據點(diǎn)來(lái)獲得潛在矢量,或者從潛在空間中隨機地采樣。 這樣做會(huì )產(chǎn)生人們可能稱(chēng)之為用于訓練的歌曲的“混合”。 ## 討論 我們已經(jīng)證明,可以用SGVB訓練RNN,用于時(shí)間序列的有效建模。 與早期類(lèi)似方法的一個(gè)重要區別是,我們的模型將時(shí)間序列映射到一個(gè)潛在的向量,而不是潛在的狀態(tài)序列。 對當前模型的第一個(gè)可能的改進(jìn)是將每首歌曲分成盡可能多的數據點(diǎn)用于訓練(即從每個(gè)時(shí)間步開(kāi)始的一個(gè)數據點(diǎn))而不是僅僅數據點(diǎn)有50%的重疊。 另一個(gè)改進(jìn)是顛倒輸入的順序,使得第一時(shí)間步驟與潛在空間的關(guān)系比最后時(shí)間步驟更強。 這可能會(huì )改善可捕獲的時(shí)間依賴(lài)性的長(cháng)度,這與我們當前的方法大約相當于100個(gè)時(shí)間步長(cháng)。 培養較長(cháng)時(shí)間序列的另一種方法是合并LSTM框架 我們方法的直接應用包括識別,去噪和特征提取。 該模型可以與用于順序數據的其他(監督的或無(wú)監督的)模型組合,例如以改進(jìn)當前的音樂(lè )類(lèi)型標記方法,例如, Sigtia et al(2014)。 此外,該方法可以通過(guò)提供初始隱藏狀態(tài)來(lái)補充當前用于監督RNN訓練的方法。 ## 參考文檔 > VARIATIONAL RECURRENT AUTO-ENCODERS > Auto-Encoding Variational Bayes



標 題:《VARIATIONAL RECURRENT AUTO-ENCODERS 詳解
作 者:zeekling
提 示:轉載請注明文章轉載自個(gè)人博客:浪浪山旁那個(gè)村

    評論
    0 評論
avatar

取消
日本乱偷中文字幕,美女脱内衣18禁免费看,亚洲国产精品丝袜在线观看,18女人腿打开无遮挡,廖承宇chinese野战做受