440 لوستل

بنچمارک کول د لوی آډیو - ژبې ماډلونه د تولیدي پوهاوي له لارې

لخوا Benchmarking in Business Technology and Software5m2024/10/16

ډېر اوږد؛ لوستل

AIR-Bench یو نوی معیار دی چې د بنسټیز او چیټ بنچمارکونو په کارولو سره د آډیو سیګنال تفاهم او تعامل په اړه LALMs ارزوي ، د راتلونکي پرمختګ لپاره بصیرت وړاندیز کوي.

featured image - بنچمارک کول د لوی آډیو - ژبې ماډلونه د تولیدي پوهاوي له لارې

لیکوالان:

(1) Qian Yang، Zhejiang پوهنتون، مساوي ونډه. دا کار د علی بابا ګروپ کې د کیان یانګ د انټرنشپ پرمهال ترسره شو؛ (2) جین سو، علی بابا ګروپ، مساوي ونډه؛ (3) وینروی لیو، د جیانګ پوهنتون؛ (4) یونفی چو، علی بابا ګروپ؛ (5) Xiaohuan Zhou، علی بابا ګروپ؛ (6) ییچونګ لینګ، علی بابا ګروپ؛ (7) Yuanjun Lv، علی بابا ګروپ؛

(8) ژو ژاؤ، علی بابا ګروپ او د ژو ژاؤ سره ورته والی ([email protected])؛

(9) Yichong Leng، Zhejiang پوهنتون

(10) چانګ ژو، د علی بابا ګروپ او د چانګ ژو سره ورته والی ([email protected])؛

(11) Jingren Zhou، Alibaba ګروپ.

د لینکونو جدول

لنډیز او 1. پیژندنه

2 اړونده کار

3 AIR-Bench او 3.1 عمومي کتنه

3.2 د بنسټ بنچمارک

3.3 د چیټ بنچمارک

3.4 د ارزونې ستراتیژي

4 تجربې

4.1 ماډلونه

4.2 اصلي پایلې

4.3 د انسان ارزونه او 4.4 د موقعیتي تعصب د خلاصون مطالعه

5 پایله او حوالې

د فاؤنڈیشن بنچمارک تفصيلي پایلې

خلاصون

په دې وروستیو کې، لارښوونې لاندې د آډیو ژبې ماډلونو د انسان - آډیو تعامل لپاره پراخه پاملرنه ترلاسه کړې. په هرصورت، د آډیو متمرکز تعامل ظرفیتونو ارزولو وړ معیارونو نشتوالي پدې برخه کې پرمختګونه خنډ کړي دي. مخکیني ماډلونه په عمده ډول د بیلابیلو بنسټیزو دندو په ارزولو تمرکز کوي، لکه د اتوماتیک وینا پیژندنه (ASR)، او د آډیو په شاوخوا کې د پرانیستې پای تولیدي وړتیاوو ارزونې نشتوالی. په دې توګه، دا ننګونه ده چې د لوی آډیو - ژبې ماډلونو (LALMs) ډومین کې پرمختګ تعقیب کړئ او د راتلونکي پرمختګ لپاره لارښود چمتو کړئ. په دې مقاله کې، موږ د AIR-Bench (د آډیو انسټاګرام بنچمارک) معرفي کوو، لومړنی بنچمارک چې د LALMs وړتیا ارزولو لپاره ډیزاین شوی ترڅو د مختلف ډوله آډیو سیګنالونو (د انسان وینا، طبیعي غږونو او موسیقۍ په شمول) پوه شي، او سربیره پردې، د انسانانو سره د اړیکو لپاره. په متني بڼه. AIR-Bench دوه اړخونه لري: بنسټ او د چیٹ بنچمارکونه. پخوانی د نږدې 19k واحد انتخاب پوښتنو سره 19 دندې لري، چې د LALMs د لومړني واحد کاري وړتیا معاینه کولو اراده لري. وروستی یو د خلاصې پای پوښتنې او ځواب ډیټا 2k مثالونه لري ، په مستقیم ډول په پیچلي آډیو کې د ماډل درک او د لارښوونو تعقیبولو ظرفیت ارزوي. دواړه بنچمارکونه ماډل ته اړتیا لري ترڅو مستقیم فرضیه تولید کړي. موږ یو متحد چوکاټ ډیزاین کوو چې د پرمختللي ژبې ماډلونو څخه ګټه پورته کوي، لکه GPT-4، د آډیو میټا معلوماتو په پام کې نیولو سره د تولید شوي فرضیې نمرو ارزونه وکړي. تجربې پایلې د GPT-4 پر بنسټ ارزونې او د انسان ارزونې ترمنځ د لوړې کچې ثبات څرګندوي. د ارزونې پایلو له لارې د موجوده LALMs محدودیتونو په څرګندولو سره، AIR-Bench کولی شي د راتلونکي څیړنې لارښود په اړه بصیرت چمتو کړي.

۱. پېژندنه

په مصنوعي عمومي استخباراتو کې وروستي پرمختګونه د پام وړ د لوی ژبې ماډلونو (LLMs) رامینځته کیدو لخوا پرمخ وړل شوي (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron. al., 2023a,b; Bai et al., 2023a). دا ماډلونه د پوهې ساتلو، پیچلي استدلال کې ښکیلتیا، او د انساني ارادې په تعقیب د ستونزو حل کولو کې د پام وړ وړتیاوې څرګندوي. د لوی ژبې ماډلونو (LLMs) کې د پام وړ پرمختګ لخوا هڅول شوي ، د لوی آډیو - ژبې ماډلونو ډومین (LALMs) یو انقلابي بدلون رامینځته کړی. د بډایه آډیو سیګنالونو درک کولو او پوهیدو او د انساني لارښوونو په تعقیب متني ځوابونه رامینځته کولو لپاره ، ډیری کارونه وړاندیز شوي ، لکه سالمون (تانګ ایټ ال. ، 2023a) ، BLSP (وانګ ایټ ال. al., 2023a)، او Qwen-Audio (Chu et al., 2023)، د آډیو-مرکزي ډیالوګونو لپاره د ژمنو وړتیاو ښودنه کوي.

په هرصورت، پخوانی LALMs (Tang et al.، 2023a؛ Wang et al.، 2023a؛ Wu et al.، 2023a؛ Chu et al.، 2023؛ Huang et al.، 2023b؛ Shen et al.، 2023؛ Gong et al. .، 2023؛ وانګ et al.، 2023b) په عمده توګه په ځانګړو بنسټیزو دندو کې په ارزونه تمرکز کوي. د دې ماډلونو تعقیبي وړتیاو د تولیدي لارښوونو ارزولو لپاره د معیاري معیار نشتوالی د دوی د خبرو اترو مهارتونو ښودلو لپاره د عامه تجربې لپاره د مثالونو ښودلو یا د چیٹ ماډلونو خوشې کولو باندې تکیه کوي. دا طریقه د مختلفو څیړنو هڅو کې د عادلانه او هدفي پرتله کولو لپاره د پام وړ ننګونې رامینځته کوي. سربیره پردې، دا د ماډلونو موجود محدودیتونه پټوي، د LALMs په ډومین کې د پرمختګونو نظارت کولو وړتیا خنډوي.

په آډیو ډومینونو کې د ارزونې لپاره، د څیړنې ډیری هڅې د انفرادي دندو لکه LibriSpeech (Panayotov et al., 2015) او د ASR لپاره د عام غږ بنچمارک (اردیلا او ال.، 2019) لپاره د معیارونو په جوړولو متمرکزې دي. د کاري مشخصو څخه هاخوا، بنچمارکونه لکه SUPERB (Yang et al., 2021a) او HEAR (Turian et al., 2021) ډیزاین شوي ترڅو په پراخه کچه دندو کې د ځان څارل شوي زده کړې ماډلونو استقامت ازموي. د لارښوونو تعقیبولو لپاره د LALMs وړتیا ارزونې په اړه ، زموږ د غوره پوهې لپاره ، متحرک - سوپرب (Huang et al., 2023a) یوازینی معیار دی چې دې اړخ ته وقف شوی. په هرصورت، Dynamic-SUPERB یوازې د انسان د وینا پروسس کولو تمرکز کوي، او د پرانیستې نسلونو لکه ډیالوګونو په تولید کې د ماډلونو وړتیاوو ارزونې ته پراختیا نه ورکوي.

په دې مقاله کې، موږ د AIR-Bench (د آډیو انسټاګرام بنچمارک) وړاندې کوو، یو نوی بنچمارک د LALMs وړتیا ارزولو لپاره ډیزاین شوی ترڅو د مختلف آډیو سیګنالونو درک کولو او لاندې لارښوونو سره تعامل وکړي. AIR-Bench د دریو لومړنیو ځانګړتیاو لخوا مشخص شوی: 1) جامع آډیو سیګنال پوښښ. AIR-Bench د آډیو سیګنالونو پراخه پوښښ وړاندې کوي ، پشمول د انسان وینا ، طبیعي غږونه ، او میوزیک ، د LALMs ظرفیتونو پراخه ارزونه یقیني کوي. 2) درجه بندي بنچمارک جوړښت. بنچمارک د بنسټ او چیٹ بنچمارکونو څخه جوړ دی. د فاؤنڈیشن بنچمارک 19 مختلف آډیو دندې لري چې له 19,000 څخه ډیر واحد انتخاب پوښتنې لري، هره پوښتنه یوازې په یو ځانګړي بنسټیز وړتیا تمرکز کوي. GPT-4 (OpenAI، 2023) د وقف شوي ډیزاین شوي اشارو په کارولو سره پوښتنې او د کاندید انتخابونه پراخوي. د چیٹ برخه له 2,000 څخه ډیر آډیو هڅول شوي خلاصې پوښتنې لري. د آډیو پیچلتیا ته وده ورکولو او د ریښتیني ژوند شرایطو کې د پیچلي آډیو سره نږدې ورته والی ترلاسه کولو لپاره ، موږ د نوي آډیو مخلوط کولو ستراتیژي وړاندیز کوو چې د لوړ غږ کنټرول او لنډمهاله بې ځایه کول پکې شامل دي. په ځانګړې توګه، موږ لوړ غږ تنظیم کوو او د دوه آډیو کلپونو مخلوط پروسې په جریان کې مختلف لنډمهاله آفسیټونه معرفي کوو. په نسبي غږ او لنډمهاله موقعیت کې پایله لرونکي تغیرات بیا د اضافي میټا معلوماتو په توګه ثبت شوي ، د آډیو خورا پراخه متني نمایش کې مرسته کوي. د معلوماتو کیفیت د GPT-4 لخوا د اتوماتیک فلټر کولو له لارې ساتل کیږي، وروسته د لاسي تصدیق. 3) متحد، هدف او د بیا تولید وړ ارزونې چوکاټ. ماډلونه اړین دي چې د فرضیې ترتیبونه په مستقیم ډول د دواړو معیارونو په اوږدو کې رامینځته کړي ترڅو د عملي سناریوګانو سره ډیر دقیق تنظیم کړي. بیا، موږ GPT-4 کاروو ترڅو د حوالې ځوابونه رامینځته کړو چې د میټا معلوماتو سره په احتیاط سره جوړ شوي اشارو له لارې ورکړل شوي. د حوالې او فرضیې په پام کې نیولو سره، د لیو او ال. (۲۰۲۳ب) Bai et al. (2023b)، موږ د GPT-4 (OpenAI، 2023) څخه کار اخلو ترڅو قضاوت وکړو چې آیا انتخاب د بنسټ بنچمارک لپاره سم دی یا د چیٹ بنچمارک لپاره د نمرې فرضیه. موږ د موقعیت تعصب له مینځه وړو لپاره د دوی پوستونو بدلولو سره دوهم نمرې ترسره کوو. د 9 LALMs په اړه د هراړخیز تجربو پراساس، موږ ګورو چې موجوده LALMs یا د آډیو پوهه یا لارښوونې تعقیب وړتیاوې لري چې پدې برخه کې د پرمختګ لپاره د پام وړ ځای پریږدي.

زموږ ونډه په لاندې ډول خلاصه شوې ده:

• AIR-Bench د لوی آډیو ژبې ماډلونو لپاره د ارزونې لومړی تولیدي معیار دی چې د آډیو پراخه لړۍ لکه وینا، طبیعي غږونه او میوزیک پکې شامل دي. AIR-Bench یو لوی او درجه بندي بنچمارک دی چې د 19 آډیو کارونو او د 19k څخه ډیر واحد انتخاب پوښتنو سره د بنسټ بنچمارک لري، د هراړخیز ارزونې لپاره د 2k څخه ډیر په دقت سره د خلاصې پای آډیو پوښتنو سره د چیٹ بنچمارک سره.

• موږ د آډیو پیچلتیا ته وده ورکولو لپاره د غږ کنټرول او لنډمهاله بې ځایه کیدو سره د نوي آډیو مخلوط کولو ستراتیژي وړاندیز کوو.

• د تولیدي فرضیې کیفیت ارزولو لپاره یو متحد، هدف، او د بیا تولید وړ ارزونې چوکاټ رامینځته شوی.

• موږ د بنچمارک کولو هدف لپاره د 9 ماډلونو بشپړه ارزونه ترسره کړه. د ارزونې کوډ، ډیټاسیټونه، او یو خلاص لیډربورډ به ډیر ژر په عامه توګه چمتو شي.

دا پاڼه د CC BY 4.0 DEED جواز لاندې .