میرنیوز
به گزارش خبرنگار مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره متنی بزرگ» یکی از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبانهای با منابع کمتر مانند فارسی بیشتر احساس میشود.
وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانشبنیان برای این مساله راهحل پیکره ناب را معرفی کردند. این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.
حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
وی افزود: مرکز نوآوری این شرکت دانشبنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره میتوان برای روان کردن مدلهای زبانی، که در اصل برای زبان انگلیسی تهیه شدهاند نیز استفاده کرد. از جمله این مدلهای زبانی میتوان به BERT, BART, T۵ و ... اشاره کرد.
منبع : خبرگزاری مهر
اعضای شورای راهبری هوش مصنوعی معرفی شدند/ایجاد زیر ساخت هوش مصنوعی در دستور کار ۱۰ نهاد
آتشسوزی جنگلی موجب رشد حیات دریایی میشود!
استرس کاری ریسک بیماری قلبی را در مردان افزایش می دهد
۲.۵ میلیون ایرانی در اهدای خون مشارکت دارند
چین در شرق تهران بیمارستان هوشمند احداث می کند
راه اندازی ۶۰ هزار تخت بیمارستانی در کشور
وزارت بهداشت برای اولین بار سرایدار استخدام میکند
زمان اخذ رأی در انتخابات نظام پرستاری افزایش یافت
هوای آلوده و افزایش ریسک سرطان سینه/ درمان سوءهاضمه با زردچوبه
بیماری هزارچهره را جدی بگیریم/ عوارض بیماری سلیاک
اهمیت تولید محصولات غذایی فاقد گلوتن برای بیماران سلیاک
نشست چالشهای زنجیره تأمین دارو در ایران برگزار میشود
چگونه از ابتلا به سرماخوردگی جلوگیری کنیم
خرید اعتباری محصولات پتروشیمی به نفع صنعت دارو است
چه کسانی پرونده الکترونیک سلامت دارند
بررسی راهکارهای ورود ایران به بازار دارویی اوراسیا
جامعه پزشکی باید تخصص را همراه تعهد حرفهای داشته باشد
هفته دفاع مقدس فرصتی برای انتقال مفاهیم بهداری رزمی
نشست چالش های قیمت گذاری دارو برگزار میشود
دانش آموز بدون صبحانه مدرسه نرود/ میان وعدههای سالم
وزیر بهداشت زنگ دبیرستان شهید آوینی را نواخت
۱۰ هزار نیروی پرستاری در بخش درمان استخدام می شوند
بازدید سرزده عین اللهی از بیمارستان شفا یحیاییان
۲۲ بیمار کرونایی در یک هفته گذشته فوت شدند
داروی ایرانی از طریق صادرات به دنیا معرفی میشود
ایران دارای قویترین نظام سلامت در منطقه است
ادعای دخالت وزارت بهداشت در انتخابات نظام پرستاری رد شد
اورژانس تهران در هفته گذشته ۲۰ هزار مأموریت انجام داد
جهان امروز با کمبود آب و غذای سالم مواجه است
تایید موفقیت نخستین واکسن ایرانی کرونا