فراتر از متن: مدل هوش مصنوعی یا یادگیری از 80 ساعت ویدئو ، در حال یادگیری زبان اشاره است
به گزارش وبلاگ بهروز، برای افراد ناشنوا و کم شنوا، فناوری تشخیص صدا مانند الکسا و سیری کاربردی نیست. پس محققان از هوش مصنوعی برای توسعه ابزاری استفاده نموده اند که زبان اشاره را به متن تبدیل می نماید و به طور بالقوه باعث افزایش دسترسی پذیری ابزارهای اینترنتی هوشمند برای جامعه ناشنوایان می گردد.
ترجمه زبان اشاره مستلزم درک دقیق ژست ها برای ایجاد یک رونویسی متنی دقیق است. محققان در مرکز ابررایانه ای بارسلونا (BSC) و دانشگاه سیاسی کاتالونیا (UPC) از هوش مصنوعی برای توسعه ابزاری برای بهبود ترجمه زبان اشاره استفاده نموده اند که گامی مهم در جهت اجازه دادن به افراد ناشنوا و کم شنوا برای تعامل با فناوری و دسترسی به خدمات دیجیتال طراحی شده برای استفاده با زبان های گفتاری است.
محققان از یک مدل یادگیری ماشینی شبیه به مدل های ابزار های هوش مصنوعی دیگر مانند ChatGPT موسوم به ترانسفورماتور ها استفاده کردند.
ترانسفورماتور ها به علت مکانیسم توجه درونی کارا و متنی کردن متغیرها با استفاده از سایر متغیرها و امکان استفاده از داده های آموزشی بیشتر مفید هستند.
مجموعه داده آموزشی از How2Sign، یک مجموعه داده با مقیاس بزرگ، چندوجهی و چند نمایشی در دسترس عموم است که شامل 80 ساعت فیلم آموزشی به زبان اشاره آمریکایی با رونوشت های انگلیسی مربوطه است.
عمل اسلیو معده
رزرو هتل
خرید ساک پارچه ای
ابزار نو پیشرفته، توسعه ای از انتشار قبلی به نام How2Sign است که به وسیله BSC و UPC پیشرفته بود.
چالشی که محققان با آن روبرو بودند، تنوع و پیچیدگی زبان های اشاره بود که می تواند تحت تأثیر مواردی مانند پیشینه، زمینه و ظاهر ایما و اشاره کننده باشد. برای یاری به این موضوع، آن ها داده ها را با استفاده از شبکه های سه بعدی متورم (I3D) پیش پردازش کردند، روشی برای استخراج ویدیو که یک فیلتر سه بعدی را روی فیلم ها اعمال می نماید و اجازه می دهد اطلاعات مکانی - زمانی مستقیماً از آن ها گرفته گردد.
محققان دریافتند که پیش پردازش متن نیز به طور قابل توجهی ترجمه علامت به متن را بهبود می بخشد. برای پیش پردازش متن خام، همه آن را به حروف کوچک تبدیل کردند که پیچیدگی واژگان را کاهش داد.
به طور کلی، آن ها دریافتند که مدل آن ها می تواند ترجمه های معناداری را فراوری کند، اما کامل نیست. محققان می گویند: در حالی که کار ما نتایج امیدوارکننده ای را نشان داده است، هنوز جا برای بهبود وجود دارد.
با توجه به اینکه این مدل هنوز در مرحله آزمایشی واقع شده است، محققان به کار بر روی ایجاد ابزاری ادامه خواهند داد که به افراد ناشنوا و کم شنوا امکان دسترسی به فناوری های مشابه افراد بدون مشکل شنوایی را می دهد.
این تحقیق بدر arXiv منتشر شده.
منبع: مرکز ابرکامپیوتر بارسلونا