راهکار تازه‌ برای تولید داده‌های مصنوعی و آموزش یک مدل یادگیری ماشین

ﺑﻪ ﮔﺰارش ﺧﺒﺮﮔﺰاری اﻗﺘﺼﺎداﯾﺮان

به گزارش خبرگزاری مهر به نقل از دانشگاه تهران، در پژوهشی که به سرپرستی دکتر مهدی تیموری، دانشیار دانشکده سامانه‌های هوشمند دانشکدگان علوم و فناوری‌های میان‌رشته‌ای دانشگاه تهران و پژوهشگرانی از دانشگاه قم انجام شده است، راهکار تازه‌ای برای تولید داده‌های مصنوعی و آموزش یک مدل یادگیری ماشین با استفاده از این داده‌ها پیشنهاد شده است.

دکتر مهدی تیموری، سرپرست این تیم تحقیقاتی درباره اهمیت این پژوهش گفت: «یکی از چالش‌های اساسی در کاربردهای عملی یادگیری ماشین، مسئله‌ی تعمیم‌پذیری است؛ یعنی اینکه یک مدل آموزش‌دیده چقدر می‌تواند در شرایط و داده‌های متفاوت، از داده‌های آموزشی، عملکرد مطلوبی ارائه دهد. این مشکل به‌ویژه در حوزه‌هایی مانند امنیت شبکه که داده‌های برچسب‌خورده کمیاب و اغلب محرمانه هستند، اهمیت بیشتری پیدا می‌کند. تحقیق اخیر برای پاسخ به همین چالش طراحی شده است.»

وی افزود: «در این پژوهش، با تمرکز بر پروتکل‌های جغرافیایی مانند NMEA و KLV، روشی مبتنی بر مهندسی ویژگی‌ها و مدل‌سازی آماری-تحلیلی توزیع ویژگی‌ها معرفی و با استفاده از آن، مجموعه‌داده‌ای مصنوعی تولید شده است. سپس، یک مدل یادگیری ماشین تنها با همین داده‌های مصنوعی آموزش داده شده و عملکرد آن با داده‌های واقعی مورد ارزیابی قرار گرفته است. نتایج نشان می‌دهد که مدل آموزش‌دیده، حتی زمانی که داده‌ها دارای نویز هستند، دقت بالایی در شناسایی پروتکل‌ها دارد.»

عضو هیئت علمی دانشکدگان علوم و فناوری‌های نوین دانشگاه تهران گفت: «از ویژگی‌های برجسته‌ی این پژوهش، قابلیت تعمیم روش پیشنهادی به سایر حوزه‌های مبتنی بر یادگیری ماشین است. اگرچه مطالعه‌ی حاضر به‌طور خاص بر شناسایی پروتکل‌های جغرافیایی تمرکز دارد، اما رویکرد ارائه‌شده در تولید داده‌های مصنوعی می‌تواند در حوزه‌هایی مانند تشخیص نفوذ، تحلیل رفتار کاربران، تصویربرداری پزشکی، یا حتی در صنایع هوشمند مانند کشاورزی، لجستیک و حمل‌ونقل نیز کاربرد داشته باشد؛ به‌ویژه در مواردی که داده‌های واقعی به‌دلیل محدودیت‌های حریم خصوصی، امنیتی یا هزینه‌بر بودن، در دسترس نیستند.»

وی با بیان اینکه یکی از مهم‌ترین دستاوردهای این پژوهش، کاهش وابستگی به داده‌های واقعی برچسب‌خورده است، اظهار داشت: «این مزیت نه‌تنها از نظر صرفه‌جویی در منابع و زمان اهمیت دارد، بلکه از نظر یافتن راه حلی عملی برای حفظ حریم خصوصی کاربران و شناسایی پروتکل‌های نادر یا جدید مهم است.»

یافته‌های این پژوهش به تازگی از سوی الزویر در نشریه Forensic Science International: Digital Investigation منتشر شده و از طریق این لینک در دسترس است.