Авторлары:
(1) Seokil Ham, KAIST; (2) Джунгвук саябағы, KAIST; (3) Донг-Джун Хан, Пурдю университеті; (4) Джекюн Мун, KAIST.
Сілтемелер кестесі
Аннотация және 1. Кіріспе
2. Қатысты жұмыстар
3. Ұсынылған NEO-KD алгоритмі және 3.1 мәселені орнату: көп шығу желілеріндегі қарсыластық жаттығулар
3.2 Алгоритмді сипаттау
4. Тәжірибелер және 4.1 Экспериментті орнату
4.2. Негізгі эксперимент нәтижелері
4.3. Абляциялық зерттеулер мен талқылаулар
5. Қорытынды, растау және пайдаланылған әдебиеттер
A. Эксперимент мәліметтері
B. Таза сынақ дәлдігі және C. Орташа шабуыл арқылы қарсыластық жаттығулары
D. Гиперпараметрлерді баптау
E. Кейінгі шығулардағы өнімділіктің төмендеуі туралы талқылаулар
F. Бір шығатын желілер үшін соңғы қорғаныс әдістерімен салыстыру
G. SKD және ARD және H салыстыру. Күшті шабуылдаушылардың алгоритмдерін енгізу
Аннотация
Көп шығулы нейрондық желілер ерте шығу арқылы тиімді қорытынды жасау үшін перспективалы шешім ретінде қарастырылғанымен, қарсылас шабуылдармен күресу күрделі мәселе болып қала береді. Көп шығу желілерінде әртүрлі ішкі үлгілер арасындағы жоғары тәуелділікке байланысты, белгілі бір шығуға бағытталған қарсылас мысал мақсатты шығудың өнімділігін төмендетіп қана қоймайды, сонымен қатар барлық басқа шығулардың өнімділігін бір уақытта төмендетеді. Бұл көп шығу желілерін қарапайым қарсылас шабуылдарға өте осал етеді. Бұл мақалада біз NEO-KD, екі негізгі үлеске негізделген осы іргелі мәселені шешетін білімге негізделген бәсекелестік оқыту стратегиясын ұсынамыз. NEO-KD алдымен таза деректердің көршілес шығуларының ансамбльдік шығыстарына бейім болу үшін қарсылас мысалдардың шығысын бағыттау үшін көршілес білімнің дистилляциясына жүгінеді. NEO-KD сонымен қатар әртүрлі ішкі үлгілер бойынша қарсыластық тасымалдау мүмкіндігін азайту үшін шығуға арналған ортогоналды білімді айдауды пайдаланады. Нәтиже – қарсылас шабуылдарға қарсы айтарлықтай жақсартылған беріктік. Әртүрлі деректер жиынтықтары/модельдері бойынша эксперимент нәтижелері біздің әдістемеміз көп шығыс желілері үшін қолданыстағы қарсыластық жаттығуларына немесе білімді айдау әдістеріне негізделген базалық көрсеткіштермен салыстырғанда төмендетілген есептеу бюджеттерімен ең жақсы қарсыластық дәлдігіне қол жеткізетінін көрсетеді.
1 Кіріспе
Көп шығымды нейрондық желілер ресурстары шектеулі қолданбаларда динамикалық болжаулар жасау қабілетіне үлкен назар аударады [9, 13, 26, 27, 28, 32]. Толық үлгінің соңғы шығысында болжау жасаудың орнына, ағымдағы уақыт бюджетіне немесе есептеу бюджетіне байланысты ертерек шығуда жылдамырақ болжам жасауға болады. Осы мағынада көп шығу желісін бірнеше ішкі үлгілері бар архитектура ретінде қарастыруға болады, мұнда әрбір ішкі модель үлгінің кірісінен белгілі бір шығудың шығысына дейінгі параметрлерден тұрады. Бұл ішкі модельдер жоғары корреляцияға ие, өйткені олар кейбір модель параметрлерін бөліседі. Сондай-ақ, барлық қосалқы модельдердің өнімділігін басқа шығуларға соңғы шығу туралы білімді тазарту арқылы жақсартуға болатыны белгілі, яғни өзін-өзі дистилляциялау арқылы [15, 20, 24, 27]. Сондай-ақ көп шығу желілері контекстінде қарсыластық шабуыл мәселелерін шешуге күш салынды [3, 12].
Қарсыластық шабуылдарына қарсы сенімділікті қамтамасыз ету, әсіресе, көп шығу желілерінде қиын: әртүрлі ішкі үлгілер ортақ параметрлер арқылы жоғары корреляцияға ие болғандықтан, белгілі бір шығуға бағытталған қарсылас мысал басқа ішкі үлгілердің өнімділігін айтарлықтай төмендетуі мүмкін. Басқаша айтқанда, қарсылас мысал әртүрлі ішкі модельдер бойынша күшті қарсыластық тасымалдау мүмкіндігіне ие болуы мүмкін, бұл модельді қарапайым қарсыластық шабуылдарына (мысалы, бір шығуға бағытталған қарсыластық шабуыл) өте осал етеді.
Мотивация . Тек бірнеше алдыңғы жұмыстарда көп шығу желілері үшін қарсыластық қорғаныс стратегияларына назар аударылды [3, 12]. [12] авторлары көп шығу желілеріне бейімделген қарсылас мысалдарды генерациялауға (мысалы, максимум-орташа шабуыл арқылы үлгілерді генерациялауға) назар аударды және модельді барлық шығулардың таза және қарсыластық шығындарының қосындысын азайтуға үйретті. [12] құрастырылған қарсылас мысалды ескере отырып, [3] авторлары жаттығу кезінде әрбір шығудағы жіктеуіштің салмағын азайту үшін регуляризация терминін ұсынды. Дегенмен, бар қарсыластық қорғаныс стратегиялары [3, 12] әртүрлі ішкі модельдер арасындағы жоғары корреляцияны тікелей реттемейді, бұл көп шығу желілерінде жоғары қарсыластық тасымалдау мүмкіндігі мен шектеулі сенімділікке әкеледі. Бұл қиындықты шешу үшін біз алдыңғы жұмыстарға ортогональды сәнде білімге негізделген әдісті қолданамыз [3, 12]. Кейбір алдыңғы зерттеулер [8, 23, 33, 34] кәдімгі бір шығатын желілерде үлгінің беріктігін арттыру үшін білімді айдауды қолдануға болатындығын көрсетті. Дегенмен, таза деректерді пайдалана отырып, көп шығу желілерін оқыту үшін өзін-өзі дистилляциялау бойынша кең ауқымды жұмыстар бар болғанымен [15, 20, 24, 27], қазіргі уақытта көп шығу желілерін бәсекелестік оқыту үшін айдау әдістерін қалай пайдалану керек екені белгісіз. Сонымен қатар, бар айдауға негізделген схемалар көп шығу желілеріне қолданылғанда, ішкі үлгілер арасындағы тәуелділіктер жоғарырақ болады, өйткені бірдей шығыс (мысалы, соңғы шығу туралы білім) барлық қосалқы үлгілерге тазартылады. Осы шектеулерге негізделген біз келесі сұрақтарды қоямыз: Көп шығу желілерінің қарсыластық беріктігін жақсарту үшін білім-дистилляцияның артықшылығын қалай пайдалана аламыз? Сонымен қатар, көп шығу желілеріндегі әртүрлі ішкі үлгілер бойынша қарсыластық тасымалдау мүмкіндігін қалай азайтуға болады?
Негізгі үлестер. Осы сұрақтарды шешу үшін біз NEO-KD, сенімді көп шығулы нейрондық желілерге бейімделген білімге негізделген бәсекелестік оқыту стратегиясын ұсынамыз. Біздің шешіміміз екі жақты: көршілес білімді айдау және шығуға арналған ортогональды білімді айдау.
• Белгілі бір шығуды ескере отырып, біздің шешімнің бірінші бөлігі, көршілес білімнің дистилляциясы (NKD), 1а суретінде көрсетілгендей, сәйкес шығудағы қарсылас мысалдың болжамына таза деректердің көршілес шығуларының ансамбльдік болжамын дистилляциялайды. Бұл әдіс қарсыластық шабуылдарына қарсы сенімділікті арттыра отырып, таза деректердің нәтижелерін қадағалау үшін қарсылас мысалдардың шығысын бағыттайды. Дистилляциядан бұрын таза деректердің көрші болжамдарын біріктіре отырып, NKD бірдей күйде тек бір шығумен айдау схемасымен салыстырғанда сәйкес шығуларға жоғары сапалы мүмкіндіктер береді.
• Біздің шешіміміздің екінші бағыты, шығуға арналған ортогональды білімді айдау (EOKD), негізінен әртүрлі ішкі үлгілердегі қарсыластық тасымалдау мүмкіндігін азайтуға бағытталған. Бұл бөлім сенімді көп шығу желілеріндегі [3, 12] (жоғары қарсыластық тасымалдау мүмкіндігінен зардап шегеді) немесе өздігінен айдауға негізделген көп шығу желілеріндегі [15, 20, 24, 27] қолданыстағы әдістермен салыстырғанда біздің жұмысымыздың тағы бір бірегей үлесі болып табылады. ] (бұл бәсекелестік тасымалдау мүмкіндігін одан әрі арттырады). Біздің EOKD-де i-ші шығудағы таза деректердің шығысы шығу әдісімен i-ші шығудағы қарсылас үлгінің шығысына дейін тазартылады. Шығуға қатысты айдау процесі кезінде біз 1b-суретте сипатталғандай әрбір шығуға ортогональды жұмсақ белгілерді беру арқылы жеке шығулардың ақиқатқа жатпайтын болжамдарын өзара ортогональды болуға шақырамыз. Әртүрлі шығу шығыстары арасындағы тәуелділікті әлсірету арқылы EOKD желідегі барлық ішкі үлгілер бойынша қарсыластық тасымалдау мүмкіндігін азайтады, бұл қарсылас шабуылдарға қарсы жақсартылған сенімділікке әкеледі.
Архитектуралық шешіміміздің NKD және EOKD құрамдас бөліктері желідегі әртүрлі ішкі үлгілер бойынша қарсыластық тасымалдау мүмкіндігін азайту үшін бірге жұмыс істейді, сонымен бірге әр шығудағы қарсылас мысалдардың болжамдарын дұрыс басқарады. Әртүрлі деректер жинақтары бойынша эксперименттік нәтижелер ұсынылған стратегияның көп шығу желілері үшін қолданыстағы бәсекелестік оқыту әдістерімен салыстырғанда қысқартылған есептеу бюджеттерімен ең жақсы қарсыластық дәлдігіне қол жеткізетінін көрсетеді. Біздің шешіміміз көп шығу желілеріне бейімделген бар оқыту стратегияларымен бірге пайдаланылуы мүмкін қосылатын және ойнату әдісі болып табылады.
Бұл қағаз .