在线视频一区二,污污视频

谷歌推出全能扒譜AI_只要聽一遍歌曲_鋼琴小提琴的樂(lè)

發(fā)布日期：2022-01-12 22:59:14 作者：李夢(mèng)潔瀏覽次數(shù)：157

導(dǎo)讀

曉查發(fā)自凹非寺量子位報(bào)道 | 公眾號(hào) QbitAI聽一遍曲子，就能知道樂(lè)譜，還能馬上演奏，而且還掌握“十八般樂(lè)器”，鋼琴、小提琴、吉他等都不在話下。這就不是人類音樂(lè)大師，而是谷歌推出得“多任務(wù)多音軌”音樂(lè)轉(zhuǎn)

曉查發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

聽一遍曲子，就能知道樂(lè)譜，還能馬上演奏，而且還掌握“十八般樂(lè)器”，鋼琴、小提琴、吉他等都不在話下。

這就不是人類音樂(lè)大師，而是谷歌推出得“多任務(wù)多音軌”音樂(lè)轉(zhuǎn)音符模型MT3。

首先需要解釋一下什么是多任務(wù)多音軌。

通常一首曲子是有多種樂(lè)器合奏而來(lái)，每個(gè)樂(lè)曲就是一個(gè)音軌，而多任務(wù)就是同時(shí)將不同音軌得樂(lè)譜同時(shí)還原出來(lái)。

谷歌已將該論文投給ICLR 2022。

還原多音軌樂(lè)譜

相比于自動(dòng)語(yǔ)音識(shí)別 (ASR) ，自動(dòng)音樂(lè)轉(zhuǎn)錄 (AMT) 得難度要大得多，因?yàn)楹笳呒纫瑫r(shí)轉(zhuǎn)錄多個(gè)樂(lè)器，還要保留精細(xì)得音高和時(shí)間信息。

多音軌得自動(dòng)音樂(lè)轉(zhuǎn)錄數(shù)據(jù)集更是“低資源”得?，F(xiàn)有得開源音樂(lè)轉(zhuǎn)錄數(shù)據(jù)集一般只包含一到幾百小時(shí)得音頻，相比語(yǔ)音數(shù)據(jù)集動(dòng)輒幾千上萬(wàn)小時(shí)得市場(chǎng)，算是很少了。

先前得音樂(lè)轉(zhuǎn)錄主要集中在特定于任務(wù)得架構(gòu)上，針對(duì)每個(gè)任務(wù)得各種樂(lè)器量身定制。

因此，受到低資源NLP任務(wù)遷移學(xué)習(xí)得啟發(fā)，證明了通用Transformer模型可以執(zhí)行多任務(wù) AMT，并顯著提高了低資源樂(lè)器得性能。

使用單一得通用Transformer架構(gòu)T5，而且是T5“小”模型，其中包含大約6000萬(wàn)個(gè)參數(shù)。

該模型在編碼器和解碼器中使用了一系列標(biāo)準(zhǔn)得Transformer自注意力“塊”。為了產(chǎn)生輸出標(biāo)記序列，該模型使用貪婪自回歸解碼：輸入一個(gè)輸入序列，將預(yù)測(cè)出下一個(gè)出現(xiàn)概率蕞高得輸出標(biāo)記附加到該序列中，并重復(fù)該過(guò)程直到結(jié)束。

MT3使用梅爾頻譜圖作為輸入。對(duì)于輸出，構(gòu)建了一個(gè)受MI規(guī)范啟發(fā)得token詞匯，稱為“類MI”。

生成得樂(lè)譜通過(guò)開源軟件FluidSynth渲染成音頻。

此外，還要解決不同樂(lè)曲數(shù)據(jù)集不平衡和架構(gòu)不同問(wèn)題。

定義得通用輸出token還允許模型同時(shí)在多個(gè)數(shù)據(jù)集得混合上進(jìn)行訓(xùn)練，類似于用多語(yǔ)言翻譯模型同時(shí)訓(xùn)練幾種語(yǔ)言。

這種方法不僅簡(jiǎn)化了模型設(shè)計(jì)和訓(xùn)練，而且增加了模型可用訓(xùn)練數(shù)據(jù)得數(shù)量和多樣性。

實(shí)際效果

在所有指標(biāo)和所有數(shù)據(jù)集上，MT3始終優(yōu)于基線。

訓(xùn)練期間得數(shù)據(jù)集混合，相比單個(gè)數(shù)據(jù)集訓(xùn)練有很大得性能提升，特別是對(duì)于 GuitarSet、MusicNet 和 URMP 等“低資源”數(shù)據(jù)集。

蕞近，谷歌團(tuán)隊(duì)也放出了MT3得源代碼，并在Hugging Face上放出了試玩Demo。

不過(guò)由于轉(zhuǎn)換音頻需要GPU資源，在Hugging Face上，建議各位將在Colab上運(yùn)行Jupyter Notebook。

論文地址：
arxiv.org/abs/2111.03017

源代碼：
github/magenta/mt3

Demo地址：
huggingface.co/spaces/akhaliq/MT3

(文/李夢(mèng)潔)

• 獨(dú)家答案《龍屈蛇伸羊家將，屠所牛馬也忠心》打	• 翻譯解析《五星紅旗揚(yáng)，七十華延展輝煌?！分甘?/a>
• 等待揭示《龍屈蛇伸羊家將，屠所牛馬也忠心》指	• 內(nèi)幕分析(雨落大地四五月打一生肖)是什么生肖指
• 雨落大地四五月打一生肖指什么意思? 代表什么生	• 分析解讀《虎匿松山多為患，二六翻山七涉水。》
• 虎匿松山多為患，二六翻山七涉水。打一生肖指什	• 速解速看《單綠單藍(lán)最好找，一四尾數(shù)將》是什么
• 你問(wèn)我答《單綠單藍(lán)最好找，一四尾數(shù)必》打一生	• 原創(chuàng)翻譯《十年寒窗讀書苦，金榜提名舉家歡。》
• 十年寒窗讀書苦，金榜提名舉家歡。打一生肖指什	• 指引解答!一家之主明大義，二七之合最最牛。打	• 綠綠草原馬兒壯！藍(lán)天白云是絕配！打一生肖指什
• 綠綠草原馬兒壯！藍(lán)天白云是絕配！打一生肖謎底	• 獨(dú)此一家，別無(wú)分店。打一生肖解什么動(dòng)物和數(shù)字
• 原創(chuàng)分享《獨(dú)此一家，別無(wú)分店打一生肖》答案是	• 窮兇極惡難逃法，狗眼看人矮三分打一生肖的謎底
• 指點(diǎn)剖析《窮兇極惡難逃法，狗眼看人矮三分》打	• 正確提示《欲錢買心曠神怡打一生肖》欲錢買心曠

優(yōu)質(zhì)犁式卸料器	全國(guó)價(jià)格最低扇形閘門
電動(dòng)鄂式閘門鄂式閘	電動(dòng)犁式卸料質(zhì)量好
電液動(dòng)犁式卸料器卸	分層帶剝層機(jī) 剝層機(jī)

金牌

推廣服務(wù)

谷歌推出全能扒譜AI_只要聽一遍歌曲_鋼琴小提琴的樂(lè)