چطور یک دانشمند ایرانی بر داده ها مسلط شد
اقتصاد ایران: نشست پرسش و پاسخ دانشجویان با برنده ایرانی جایزه مصطفی در دانشگاه امیرکبیر برگزار شد.
به گزارش خبرنگار مهر، سید وهاب میررکنی، برنده ایرانی جایزه مصطفی(ص) در سال ۲۰۲۵ در کافه علم دانشگاه صنعتی امیرکبیر که امروز با حضور دانشجویانی از دانشگاه های علوم پزشکی ایران، دانشگاه صنعتی امیرکبیر و همچنین دانشجویان خارجی مقیم ایران از جمله عراق، یمن و آذربایجان برگزار شد، درباره طرح نواورانه خود در خصوص توسعه طرح هش حساس به مجاورت مبتنی بر توزیع های پایدار توضیح داد.
او همچنین درباره چالشها و راهکارهای پردازش دادهها در ابعاد بالا توضیحاتی ارائه کرد.
این دانشمند ایرانی ابتدا به مسئله اصلی سرعت و دقت در پردازش دادههای با ابعاد بالا اشاره کرد و توضیح داد که تلاش برای افزایش سرعت پردازشها در فضای ابعاد بالا، اغلب با کاهش دقت در سطوح پایینتر همراه است. وی هشدار داد که این کاهش دقت میتواند باعث شود مدل اولیهای که در ابعاد بالا طراحی شده، کارایی لازم را نداشته باشد و در نتیجه کارایی کلی الگوریتم کاهش یابد.
وی افزود: از نظر تئوری، ساخت یک مدل دقیق که برای تمام دادهها قابل استفاده باشد، امکانپذیر نیست. در عوض، برخی دادهها را میتوان به صورت فشردهتر و بهینهتر پردازش کرد. میررکنی تأکید کرد که افزایش ابعاد دادهها معمولاً باعث افزایش دقت میشود، اما در مقابل زمان اجرای الگوریتم را نیز به شکل قابل توجهی افزایش میدهد.
موضوع بعدی که در این نشست مطرح شد، اهمیت ایجاد تعادل میان دقت و سرعت در فرآیند کاهش ابعاد دادهها بود. میررکنی گفت: باید با توجه به محدودیتها، تعادلی بهینه پیدا کنیم تا هم سرعت و هم دقت به اندازه کافی حفظ شود.
وی هدف خود را طراحی الگوریتمی معرفی کرد که بتواند برای طیف وسیعی از دادهها و شرایط مختلف، عملکرد قابل قبولی داشته باشد، البته با در نظر گرفتن ویژگیهای خاص هر مجموعه داده.
میررکنی توضیح داد که در فضاهای با ابعاد بسیار بالا، مفهوم شباهت میان دادهها به شدت کاهش مییابد، بهطوری که تقریباً همه دادهها شباهتی برابر به یکدیگر پیدا میکنند. این موضوع باعث میشود اگر فرآیند کاهش ابعاد به دقت انجام نشود، عملکرد الگوریتم در فضای ابعاد پایینتر به شدت افت کند و دقت آن کاهش یابد.
او راهکاری برای این مشکل ارائه داد و گفت: برای حفظ اطلاعات مهم دادهها از توابع خاصی به نام «توابع هش» استفاده میشود که انتخاب درست این توابع باید بر اساس ویژگیهای دادهها صورت گیرد تا بهترین نتایج حاصل شود.
این دانشمند ایرانی برای درک بهتر این مفهوم، مثالی ساده زد و گفت: فرض کنید یک شیء در فضای سهبعدی داریم و نورهایی از نقاط مختلف و به صورت تصادفی اما با ساختار منظم به آن میتابد. سایههای دو بعدی این شیء که از نورها ایجاد میشوند، میتوانند به حفظ و انتقال اطلاعات اصلی کمک کنند. این مثال به درک بهتر نحوه کاهش ابعاد و حفظ اطلاعات کمک میکند.
برنده جایزه مصطفی(ص) ۲۰۲۵ در ادامه گفت: من در رشته ریاضی کاربردی در MIT مشغول بودم، اما در عمل بیشتر در حوزه علوم کامپیوتر فعالیت میکردم. آن دوره، با پروفسور دادلی آشنا شدم که در زمینههای مربوط به تئوری احتمال و هندسه ریاضی بسیار فعال بود. از طریق او به منابعی دست یافتم که دید من را نسبت به مسئله بازتر کرد و باعث شد تحلیلهای دقیقتری روی مدلها انجام دهم.
او به یکی از نکات کلیدی مقالهاش اشاره کرد و گفت: چیزی که باعث خاص شدن این کار شد، این بود که ما توانستیم نشان دهیم ایدهمان برای هر نوع فاصله (metric) کار میکند، نه فقط برای یک نوع خاص مثل ℓ₂. این یعنی الگوریتم ما نه فقط وابسته به نوع داده یا ساختار خاصی نیست، بلکه میتواند در بسیاری از فضاهای مختلف عملکرد مناسبی داشته باشد.
این دانشمند برگزیده ایرانی ادامه داد: الگوریتم ما هم از نظر تئوری جذاب است و هم در عمل عملکرد خوبی دارد. دلیل اصلی سرعت بالای آن، استفاده از یک سری روابط خاص بین توزیعهای تصادفی و حفظ ویژگی فاصلهها در فضای با ابعاد کم است. علاوه بر این، پیادهسازی این الگوریتم ساده است و میتواند به راحتی در محیطهای داینامیک، استریمینگ و حتی سیستمهای مقیاسپذیر به کار گرفته شود.
میررکنی در ادامه تأکید کرد که یکی از مهمترین جنبههای این پژوهش، تلفیق موفق میان تئوری و کاربرد بود؛ الگوریتمی که هم بنیان نظری محکمی دارد و هم در عمل میتواند در سیستمهای واقعی استفاده شود.
در ادامه نشست، برنده جایزه مصطفی(ص) ۲۰۲۵، به توضیح دقیقتری از نحوه عملکرد الگوریتمهای حساس به شباهت (Locality Sensitive Hashing یا به اختصار LSH) پرداخت. او در تشریح سازوکار این روش گفت: وقتی دادهای جدید برای جستوجو وارد سیستم میشود، همین توابع هش روی آن اعمال میشود و تعیین میکنیم که به کدام bin تعلق دارد. سپس فقط دادههای موجود در همان bin با داده هدف مقایسه واقعی میشوند، نه کل پایگاه داده. این فرآیند باعث کاهش چشمگیر هزینه محاسباتی و افزایش سرعت میشود، بدون آنکه دقت را قربانی کنیم.
میررکنی تأکید کرد که ایده LSH و الگوریتمهای مشابه، بر اساس مفهوم شباهت یا مجاورت میان دادهها پایهگذاری شدهاند، و کاربردهای گستردهای در مسائل عملی دارند. او افزود: این الگوریتمها امروزه در بسیاری از سیستمهای واقعی مثل موتورهای جستوجو، سیستمهای توصیهگر، شبکههای اجتماعی، پلتفرمهایی مثل یوتیوب، و حتی سامانههای تشخیص چهره استفاده میشوند. مثلاً در یوتیوب وقتی میخواهیم ویدئوهای مشابه یک ویدئو خاص را پیدا کنیم، به جای مقایسه با همه ویدئوها، از چنین روشهایی استفاده میشود که جستوجو را سریعتر و دقیقتر میکند.
او افزود: در حوزههای تحقیقاتی نیز استفاده از دادههای بزرگ و الگوریتمهای مشابهیابی، بخش مهمی از کار ماست. این روشها ابزارهایی هستند که نهتنها تئوری محکمی دارند، بلکه در عمل به شکل مؤثری پیادهسازی میشوند.
میررکنی در پاسخ به پرسشی درباره کاربرد این مفاهیم در هوش مصنوعی، میررکنی گفت: این روشها به شکل مستقیم در حوزههای مختلف یادگیری ماشین و هوش مصنوعی استفاده میشوند. مثلاً در سیستمهای جستوجوی معنایی، فشردهسازی داده، یافتن همسایگان نزدیک در مدلهای یادگیری عمیق و همچنین در سیستمهایی که با دادههای تصویری یا متنی سروکار دارند.
او همچنین افزود: در واقع، با گسترش هوش مصنوعی در زندگی روزمره، کاربرد الگوریتمهایی که بتوانند سریع و دقیق مشابهتها را تشخیص دهند، روزبهروز بیشتر میشود. این روشها بهینهسازی جستوجو، طبقهبندی سریع و پاسخدهی به دادههای جدید را ممکن میسازند.
در بخشی از صحبتهای خود، میررکنی به آینده این حوزه اشاره کرد و گفت: یکی از چالشهای این حوزه، یافتن راههایی برای بهینهسازی بیشتر الگوریتمها و کاهش اصطکاک در موارد خاص است. همچنین ما نیاز داریم الگوریتمهایی داشته باشیم که بتوانند بهصورت data-dependent (وابسته به ویژگیهای خاص دادهها) بهتر عمل کنند و خود را با ساختارهای مختلف تطبیق دهند.
او ادامه داد: امروزه کاربردهای جدید دائماً در حال شکلگیری هستند. هر ایدهای که بتواند شباهت را سریعتر و دقیقتر تشخیص دهد، میتواند در حوزههای بسیار متنوعی، از تحلیل ویدئو و صدا تا بیوانفورماتیک و حتی علوم اجتماعی، وارد شود. جذابیت این حوزه در همین قابلیت تعمیمپذیری آن است.
میررکنی در پایان به روایت شخصی خود از شکلگیری ایده مقالهاش پرداخت و گفت: همه چیز از یک پروژه درسی شروع شد. پروژهای که ابتدا فقط برای گرفتن نمره بود، بعدها با توجه بیشتر و پیگیری، به یک مقاله علمی با تأثیر بالا تبدیل شد. این مسیر نشان میدهد که ایدههای بزرگ الزاماً از ابتدا بزرگ نیستند؛ گاهی کافی است کمی بیشتر به آنها وقت بدهیم.