میرنیوز
به گزارش خبرنگار مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره متنی بزرگ» یکی از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبانهای با منابع کمتر مانند فارسی بیشتر احساس میشود.
وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانشبنیان برای این مساله راهحل پیکره ناب را معرفی کردند. این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.
حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
وی افزود: مرکز نوآوری این شرکت دانشبنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره میتوان برای روان کردن مدلهای زبانی، که در اصل برای زبان انگلیسی تهیه شدهاند نیز استفاده کرد. از جمله این مدلهای زبانی میتوان به BERT, BART, T۵ و ... اشاره کرد.
منبع : خبرگزاری مهر
پیشگویی چت جی پی تی از آینده پژوهش و استنادات علمی
رفع نیاز آزمایشگاههای آنالیز مواد شیمیایی با دستگاه ایران ساخت
انتصابات جدید در شرکت ارتباطات زیرساخت
سمپوزیوم بینالمللی تازههای نقشهبرداری مغز ایران برگزار میشود
نتایج جذب استعدادهای برتر در دستگاهها بزودی اعلام میشود
ابقای رئیس دانشکده توانبخشی دانشگاه علوم پزشکی تهران
ایلان ماسک: هوش مصنوعی از پزشکان و وکلا جلو می زند
روبات مغناطیسی پیچ و مهره باز می کند
تبدیل پسماندهای زغالسنگ به گرافن با بازده بالا
هوش مصنوعی از انرژی اتمی قدرتمندتر است
قدردانی نماینده حزب الله لبنان از جراحان ایرانی
ظرفیت بیهوشی و اطفال خالی مانده است
اسلحه خودکار برای پهپادهای سبک از راه رسید
نشست کمیته تغذیه دانشگاه علوم پزشکی تهران برگزار شد
سردار جلالی: تکرار کرونا را باید جدی بگیریم
جلالی: تکرار کرونا را باید جدی بگیریم
راه حل محققان برای کاهش مصرف داروی شیمیدرمانی در درمان سرطان
بیش از هزار سایت خبر جعلی از جستجوی گوگل حذف شدند
نمی توان با دستمزدهای اندک دانشمندان برجسته را در کشور نگه داشت
اتحادیهها بازوی تصمیمسازی قوی در دانشگاه آزاد هستند
بازنگری ۲۰۰ برنامه درسی دانشگاه جامع علمی کاربردی در ۱۲ استان
تدوین سند ذخایر راهبردی داروهای اساسی و واکسن
راکت لب ۵ ماهواره اینترنت اشیا به مدار زمین برد
انعقاد توافقنامه میان دانشگاه خواجه نصیر و یک شرکت فولادی
برنامه تحول دانشکده اقتصاد دانشگاه علامهطباطبائی رونمایی شد
ارزشیابی اساتید دانشگاه پیامنور تا ۱۹ آذرماه ادامه دارد
هند تهیه گزارش آنتی تراست درباره اپل را متوقف نمی کند
معاون بورس و امور دانشجویان خارج سازمان امور دانشجویان منصوب شد
لایحه حمایت قضایی از کادر درمان تدوین میشود
سازمان ملی هوش مصنوعی با نظام صنفی رایانهای تفاهمنامه امضا کرد