دانلودها

آزمایشگاه پردازش زبان طبیعی مجموعه داده‌های زیر را برای اهداف پژوهشی تهیه نموده است:

  • مونا:‌ دادگان برچسب خورده موجودیت‌های نامدار فارسی:
    این دادگان شامل ۳۰۰۰ چکیده (حدود ۱۰۰ هزار توکن) از ویکی‌پدیای فارسی است که با ۱۵ موجودیت مختلف برچسب‌زنی شده است.

 

این دادگان شامل ۴ مدل مختلف از بازنمایی واژگان فارسی هست که از ۴ پیکره مختلف با ویژگی‌های متمایز استخراج شده است. پیکره‌هایی با ساختار محاوره‌ای مانند آی‌آربلاگ و توییتر و پیکره‌های رسمی مانند ویکی‌پدیا و همشهری. همچنین بازنمایی واژگان با استفاده از تمام ۴ پیکره نیز در این ساختار تهیه گردیده‌است.

مقاله مرتبط با این پیکره:

Amir Hadifar and Saeedeh Momtazi. The Impact of Corpus Domain on Word Representation: a Study on Persian Word Embeddings. Journal of Language Resources and Evaluation, 52(4):997–1019, 2018

 

  • پرسشگان: دادگان سوالات فارسی برای سیستم‌های پرسش و پاسخ خودکار مبتنی بر گراف فارسی

 

  • دستار:‌ دادگان دسته‌بندی اخبار روزنامه‌های فارسی

 

  • دیدگاه:‌ دادگان تحلیل نظرات فارسی در سطح جنبه

 

  • دادگان برچسب خورده سوالات فارسی برای سیستم‌های پرسش و پاسخ انجمنی