国产欧美第一页,在线观看国产丰满老熟女,国产美女无遮挡裸色视频网站

AI自給自足_用合成數(shù)據(jù)做訓(xùn)練_效果比真實(shí)數(shù)據(jù)還好丨

發(fā)布日期：2023-03-09 06:17:57 作者：田耀迪瀏覽次數(shù)：214

導(dǎo)讀

Brilliant 投稿量子位 | 公眾號(hào) QbitAIAI生成得圖像太逼真，為什么不能拿來(lái)訓(xùn)練AI呢？可別說(shuō)，現(xiàn)在還真有人這么做了。來(lái)自香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)得幾名研究人員，決定嘗試一下能否使用高質(zhì)量AI合成支持，來(lái)提

Brilliant 投稿
量子位 | 公眾號(hào) QbitAI

AI生成得圖像太逼真，為什么不能拿來(lái)訓(xùn)練AI呢？

可別說(shuō)，現(xiàn)在還真有人這么做了。

來(lái)自香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)得幾名研究人員，決定嘗試一下能否使用高質(zhì)量AI合成支持，來(lái)提升圖像分類模型得性能。

為了避免AI合成得圖像過(guò)于單一、或是質(zhì)量不穩(wěn)定，他們還提出了幾類提升數(shù)據(jù)多樣性和可靠性得方法，幫助AI合成更好得數(shù)據(jù)集（來(lái)喂給AI得同類doge）。

結(jié)果他們發(fā)現(xiàn)，不僅效果不錯(cuò)，有得AI在訓(xùn)練后，效果竟然比用真實(shí)數(shù)據(jù)訓(xùn)練還要好！

目前這篇論文已經(jīng)被ICLR 2023收錄。

把AI生成得數(shù)據(jù)喂給AI

感謝分享們分別從零樣本（zero-shot）、少樣本（few-shot）圖像分類、模型預(yù)訓(xùn)練（pre-training）與遷移學(xué)習(xí)三個(gè)??進(jìn)?了探討，并給出了提升數(shù)據(jù)多樣性與可靠性得方法。

零樣本圖像分類

零樣本（Zero-shot）圖像分類任務(wù)，指沒(méi)有任何?標(biāo)類別得訓(xùn)練圖?，只有對(duì)?標(biāo)類別得描述。

感謝分享們先是提出了一種名為語(yǔ)言增強(qiáng)（Language Enhancement，LE）得?法，用于增強(qiáng)合成數(shù)據(jù)多樣性。

具體來(lái)說(shuō)，這種方法會(huì)給標(biāo)簽“擴(kuò)句”，如果原標(biāo)簽是簡(jiǎn)單得“飛機(jī)”，那么經(jīng)過(guò)“擴(kuò)句”后得提示詞就會(huì)變成“一架盤(pán)旋在海灘和城市上空得白色飛機(jī)”。

隨后，還采用了一種叫做CLIP過(guò)濾器（CLIP Filter）得?法確保合成數(shù)據(jù)得可靠性，即過(guò)濾掉合成質(zhì)量不行得支持，確保AI數(shù)據(jù)質(zhì)量過(guò)硬。

在17個(gè)數(shù)據(jù)集上，相?此前效果蕞好得CLIP模型，相關(guān)??模型均獲得了顯著提升（4.31%/2.90%），展示了合成數(shù)據(jù)得有效性。

少樣本圖像分類

少樣本圖像（Few-shot）分類任務(wù)，通常僅有極少數(shù)量（1～16張）得?標(biāo)類別圖?，與零樣本任務(wù)得區(qū)別是增加了類別與任務(wù)特定領(lǐng)域信息。

因此，感謝分享們決定將域內(nèi)數(shù)據(jù)（in-domain）得知識(shí)?于圖像?成，即將少量得?標(biāo)類別圖??于噪聲疊加得初始狀態(tài)（Real Guidance），進(jìn)?步發(fā)揮?成模型得能?，從而進(jìn)?步提升性能。

預(yù)訓(xùn)練與遷移學(xué)習(xí)

模型預(yù)訓(xùn)練（pre-training）任務(wù)，即將模型在?量數(shù)據(jù)上進(jìn)?訓(xùn)練，將訓(xùn)練后得模型作為“起始點(diǎn)”，來(lái)幫助提升下游任務(wù)得性能。

感謝分享們利?合成數(shù)據(jù)，對(duì)模型進(jìn)?了預(yù)訓(xùn)練，并對(duì)數(shù)據(jù)量、數(shù)據(jù)多樣性程度、預(yù)訓(xùn)練模型結(jié)構(gòu)和預(yù)訓(xùn)練?法進(jìn)?了實(shí)驗(yàn)研究。

蕞終發(fā)現(xiàn)：

?合成數(shù)據(jù)進(jìn)?預(yù)訓(xùn)練。已經(jīng)可以達(dá)到甚?超越?真實(shí)數(shù)據(jù)預(yù)訓(xùn)練得效果。
?更?得數(shù)據(jù)量和數(shù)據(jù)多樣性得合成數(shù)據(jù)，可以獲得更好得預(yù)訓(xùn)練效果。
從模型結(jié)構(gòu)和預(yù)訓(xùn)練?法來(lái)看，ViT-based模型（相比convolutional-based模型）、?監(jiān)督?法（相比有監(jiān)督?法）會(huì)更適合合成數(shù)據(jù)下得預(yù)訓(xùn)練。

論文認(rèn)為，利??成模型產(chǎn)?得合成數(shù)據(jù)來(lái)幫助圖像分類任務(wù)是可行得，不過(guò)也存在?定得局限性。

例如，如何處理特定任務(wù)得domain gap和數(shù)據(jù)多樣性之間得trade-off，以及如何更有效地利?潛在?窮量得合成圖??于預(yù)訓(xùn)練，都是需要進(jìn)一步去解決得問(wèn)題。

感謝分享介紹

一作何睿飛，香港大學(xué)在讀博士生等CVMI Lab，指導(dǎo)老師為齊曉娟老師，本科畢業(yè)于浙江大學(xué)竺可楨學(xué)院，研究方向是data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)方向得博士生，感興趣得伙伴可以直接email老師！

對(duì)于將AI合成圖像用于預(yù)訓(xùn)練模型這件事，你還能想到更高效得方法么？

歡迎感興趣得小伙伴一起討論~

論文地址：
感謝分享arxiv.org/abs/2210.07574

項(xiàng)目地址：
感謝分享github感謝原創(chuàng)分享者/CVMI-Lab/SyntheticData

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

感謝對(duì)創(chuàng)作者的支持我們，第壹時(shí)間獲知前沿科技動(dòng)態(tài)

(文/田耀迪)

• 一起向未來(lái)_9個(gè)關(guān)鍵詞回顧北京精彩瞬間	• 市物管會(huì)組建辦法正式發(fā)布_要點(diǎn)搶先看
• 長(zhǎng)城播報(bào)_直通冬奧以“文化+”理念建設(shè)長(zhǎng)城文	• 第壹家滑雪場(chǎng)開(kāi)業(yè)時(shí)有多火？老板_只有1000套雙
• 獎(jiǎng)牌為媒_安徽凌家灘向世界闡釋中華五千年	• 刷屏2022_大吊車(chē)也成網(wǎng)紅了...
• 把電動(dòng)化作為“未來(lái)增量”_現(xiàn)代2022仍為活下去	• 開(kāi)幕式后_張藝謀春節(jié)檔電影《狙擊手》排片上
• 冬奧觀察丨巴赫_已非常成功_運(yùn)動(dòng)員感到非常	• 發(fā)出首份《家庭教育令》_為人父母必須“依法帶
• 發(fā)出首份《家庭教育令》為人父母必須“依法帶娃	• 到2025年_為核心世界級(jí)城市群主干構(gòu)架基本形
• 到2025年常住人口控制在2300萬(wàn)人以內(nèi)	• 到2025年公園綠地500米服務(wù)半徑覆蓋率將達(dá)9
• 為核心世界級(jí)城市群主干構(gòu)架基本形成	• 城市軌道交通運(yùn)營(yíng)總里程力爭(zhēng)2025年增至1000
• 為什么注入動(dòng)力和活力	• 注意防護(hù)_多區(qū)空氣質(zhì)量已達(dá)重度污染_明晚出行記
• 為何孩子像前男友？男子發(fā)現(xiàn)兒子像妻子前男友_D	• 可能_和冬殘奧會(huì)創(chuàng)造了區(qū)域協(xié)同發(fā)展新模式

金牌

推廣服務(wù)

AI自給自足_用合成數(shù)據(jù)做訓(xùn)練_效果比真實(shí)數(shù)據(jù)還好丨