استادیار

تاریخ به‌روزرسانی: 1405/03/31

محسن رمضانی

مهندسی / مهندسی کامپیوتر و فناوری اطلاعات

پایان‌نامه‌های کارشناسی‌ارشد

توسعه و پیاده‌سازی یک سامانه درجه‎‌بندی سرعت بالا برای محصول کشمش با استفاده از بینایی‌ماشین و هوش‌مصنوعی
1404
بخش کشاورزی به عنوان پیشران توسعه پایدار و مولفه‌ای استراتژیک در اقتصاد ملی، نقشی محوری در ارتقای ارزش افزوده و توسعه صادرات غیرنفتی ایفا می‌کند. در این میان، کشمش به‌عنوان یکی از مهم‌ترین فرآورده‌های انگور و محصولی صادرات‌محور، به دلیل ارزش تغذیه‌ای و ارزآوری بالا جایگاه ویژه‌ای در بازارهای جهانی دارد. حفظ این رقابت‌پذیری مستلزم رعایت استانداردهای کیفی دقیق و حذف خطاهای روش‌های سنتی مبتنی بر بازرسی انسانی است. جهت نیل به این‌ منظور، بهره‌گیری از فناوری پس از برداشت با تمرکز بر استفاده از سامانه‌های بینایی ماشین به ضرورتی اجتناب‌ناپذیر در زنجیره تامین این محصول به‌شمار می‌آید. در این میان، فرآیند اجرای سامانه‌های درجه‌بندی مبتنی بر بینایی ماشین با تکیه بر الگوریتم‌های یادگیری عمیق و قابلیت استقرار بر روی سیستم‌های نهفته‌ی کم‌هزینه، ضمن حذف خطاهای انسانی، امکان اجرای عملیات با سرعت بالا را فراهم می‌سازند. این پژوهش با هدف طراحی و پیاده‌سازی یک سامانه بینایی ماشین بلادرنگ مبتنی بر هوش مصنوعی لبه برای تشخیص کشمش دم‌دار بر روی تسمه‌نقاله انجام شده است. در این پژوهش، فرآیند داده‌برداری و ثبت تصاویر در سطوح مختلف سرعت خطی تسمه‌نقاله توسط یک سامانه بینایی ماشین مبتنی بر پردازش لبه به اجرا درآمد. ابتدا پایگاه داده‌ای جامع در شرایط نوری کنترل‌شده تدوین گردید و پس از عملیات برچسب‌گذاری، جهت توسعه مدل‌های شخصی‌سازی شده، روش یادگیری انتقالی بر روی مدل های پیش آموزش دیده نسخه‌های YOLOv8n، YOLOv10n و YOLOv11n مورد بهره‌برداری قرار گرفت. در مرحله بعد، عملکرد مدل‌های پیشرفته تشخیص اشیاء مورد ارزیابی قرار گرفت و فرآیند آموزش با استراتژی بازتنظیم دقیق بر روی این سه معماری صورت پذیرفت؛ که طی آن، مدل‌ها در سه مقیاس ورودی 160×160، 256×256 و 320×320 پیکسل جهت غلبه بر محدودیت‌های توان پردازشی بهینه‌سازی شدند. به منظور استقرار بر روی سخت‌افزار محدود رزبری پای، مدل‌های پایه در سه ابعاد ورودی با استفاده از فرمت‌های بهینه نظیر MNN، TFLite و NCNN در سه سطح دقت محاسباتی (FP32، FP16 و INT8) بازطراحی گردیدند تا فرآیند تبدیل و کمی‌سازی برای استقرار بر روی سیستم‌های نهفته تکمیل شود. در نهایت، مدل‌های مشتق‌شده بر روی سخت‌افزار نهفته Raspberry Pi 4 مستقر گردید و عملکرد عملیاتی سامانه در سه سطح سرعت خطی تسمه‌نقاله (21/37 سانتی متر بر ثانیه، 71/47 سانتی متر بر ثانیه، 21/56 سانتی متر بر ثانیه) و بر اساس شاخص‌های نرخ فراخوانی، زمان استنتاج و مصرف انرژی به ازای هر فریم انجام پذیرفت. نتایج تجربی نشان داد که اگرچه مدل YOLOv11n در ابعاد 320×320 پیکسل بالاترین نرخ فراخوانی (8/97%) را ثبت نمود؛ اما به دلیل تاخیر بالا، برای استفاده در سیستم‌های درجه‌بندی مبتنی بر رزبری‌پای نامناسب است. در مقابل، مدل YOLOv10n با فرمت MNN با ابعاد ورودی160×160پیکسل، به دلیل بهره‌گیری از معماری بدون NMS (NMS-free)، موفق به ثبت میانگین زمان استنتاج 32 میلی‌ثانیه (معادل 31 فریم بر ثانیه) و میانگین نرخ فراخوانی 5/93% در تمامی سرعت‌ها گردید. همچنین، این مدل با مصرف انرژی تنها 165/0 ژول بر فریم، پایداری حرارتی سامانه را در کارکردهای طولانی‌مدت تضمین کرد. یافته‌های این پژوهش تایید می‌کند که مدل YOLOv10n-MNN نقطه بهینه توازن میان صحت تشخیص و سرعت پردازش است. این سامانه با بهبود 6 برابری نرخ فریم نسبت به مدل پایه، امکان پردازش محصول در حداکثر سرعت خطی (21/56 سانتی متر بر ثانیه) را فراهم آورده و به عنوان یک راهکار عملیاتی و کم‌هزینه برای هوشمندسازی خطوط سورتینگ محصول کشمش پیشنهاد می‌گردد.
انتخاب ویژگی از جریان داده با استفاده از اطلاعات تصمیم‌گیری و امتیاز تمایز
1404
با گسترش فناوری‌های تولید داده، حجم عظیمی از اطلاعات به صورت پیوسته تولید می‌شوند که به عنوان جریان داده شناخته می‌شوند. این داده‌ها با ویژگی‌هایی مانند حجم نامحدود، سرعت تولید بالا و تغییرات پویا، چالش‌های جدی برای الگوریتم‌های سنتی انتخاب ویژگی ایجاد می‌کنند. روش‌های موجود عمدتاً رویکردی حریصانه دارند و تنها بر انتخاب ویژگی‌های با بالاترین امتیاز تمرکز می‌کنند که این امر مانع از درنظرگیری تعاملات پنهان بین ویژگی‌ها می‌شود. در این پژوهش، یک روش نوین برای انتخاب ویژگی در جریان داده‌ها ارائه شده است که بر مبنای ترکیب هوشمندانه اطلاعات تصمیم‌گیری (Decision Information - DI) و امتیاز تمایز (Discernibility Score - DS) عمل می‌کند. اطلاعات تصمیم‌گیری میزان آموزندگی یک ویژگی را در رابطه با متغیر هدف کمی‌سازی می‌کند، در حالی که امتیاز تمایز توانایی ویژگی‌ها را در تفکیک نمونه‌های متعلق به کلاس‌های مختلف ارزیابی می‌نماید. این رویکرد پیشنهادی، با بهره‌گیری از DI برای ارزیابی ارتباط ویژگی‌ها و DS برای سنجش افزونگی و قدرت تمایز، قادر است بهترین زیرمجموعه ویژگی‌ها را به صورت پویا و افزایشی انتخاب کند. این مکانیزم به طور خودکار با ورود داده‌های جدید، فرآیند انتخاب ویژگی را به‌روزرسانی می‌کند و بر مشکلات ناشی از ماهیت حریصانه روش‌های پیشین غلبه می‌نماید. مزیت اصلی این چارچوب، توانایی آن در شناسایی هم‌افزایی بین ویژگی‌ها از طریق ترکیب معیارهای DI و DS است، ضمن آنکه با طراحی افزایشی از مقیاس‌پذیری بالا و امکان پیاده‌سازی در محیط‌های بلادرنگ برخوردار می‌باشد. ارزیابی روش پیشنهادی بر روی مجموعه‌داده‌های متنوع پزشکی، ژنتیکی، دست‌نویس و مصنوعی با معیارهای دقت، امتیاز F1 و ROC-AUC انجام شد. نتایج تجربی نشان داد روش پیشنهادی با میانگین دقت 89.1٪، برتری قابل توجهی در مقایسه با دوازده روش پیشین دارد. این روش نه تنها ابعاد داده را به طور موثر کاهش می‌دهد، بلکه دقت و کارایی مدل‌های یادگیری ماشین را در محیط جریان داده به طور مداوم بهبود می‌بخشد. دستاوردهای این پژوهش زمینه را برای کاربردهای موثر در حوزه‌هایی مانند شبکه‌های اجتماعی، اینترنت اشیاء و سیستم‌های تشخیص تقلب فراهم می‌کند.
استفاده از شبکه های عصبی عمیق مبتنی بر تصاویر UAV برای تولید نقشه پراکندگی پاشش آب در آبیاری بارانی و پیش بینی میزان آب مصرفی در مزارع کشاورزی
1404
با توجه به اهمیت حیاتی بهینه‌سازی مصرف منابع آب در کشاورزی و لزوم کاهش هدررفت آن، این پژوهش بر دو هدف اصلی متمرکز است: نخست، طراحی و ارائه یک مجموعه‌داده جدید شامل فیلم‌های هوایی با وضوح بالا و داده‌های همزمان میزان مصرف آب در مزارع هویج، سیب‌زمینی و یونجه و دوم، توسعه روشی نوین مبتنی بر یادگیری عمیق به منظور تخمین دقیق میزان آب مصرفی رایزرهای آبیاری در این مزارع. مجموعه‌داده تولیدشده طیف متنوعی از شرایط عملیاتی و محیطی را در بر می‌گیرد، از جمله چینش‌های متفاوت رایزرها 3، 6 و 9 ارتفاع‌های پرواز پهپاد مختلف و بازه‌های زمانی گوناگون روز. به‌منظور اطمینان از کیفیت داده‌ها، تمامی ویدیوها و نقشه‌های به‌دست‌آمده به‌طور دقیق برچسب‌گذاری و اعتبارسنجی شده‌اند. روش پیشنهادی با بهره‌گیری از معماری‌های پیشرفته یادگیری عمیق، به‌ویژه شبکه‌های کانولوشنی و مکانیزم‌های توجه، توانسته است تخمین‌های بسیار دقیق و قابل اعتمادی از میزان آب مصرفی هر رایزر ارائه دهد. مقایسه نتایج مدل هایVGG16، ResNet، GoogleNet و MobileNet با داده‌های میدانی نشان‌دهنده همخوانی بالای آن‌ها بوده و قابلیت شناسایی نواحی دچار کم‌آبیاری و بیش‌آبیاری را فراهم کرده است. یافته‌های این تحقیق نشان می‌دهد که دقت روش پیشنهادی برای تشخیص میزان آب مصرفی و محدوده آبیاری 93 درصد بوده است در حالیکه بهترین دقت حاصل شده با استفاده از مدل‌های آماده 88 درصد است. لذا در این تحقیق علاوه بر ارائه یک مجموعه‌داده ارزشمند و رویکردی اثربخش برای برآورد میزان مصرف آب، امکان توسعه و پیاده‌سازی سامانه‌های هوشمند مدیریت آبیاری در مقیاس‌های مختلف را فراهم می‌آورد. بدین‌ترتیب نتایج این پژوهش می‌تواند به کشاورزان و مدیران منابع آب کمک نماید تا با استفاده از فناوری‌های نوین در کاهش مصرف و حفاظت از منابع آبی، کیفیت و کمیت محصولات کشاورزی را نیز بهبود بخشند.
انتخاب ویژگی در داده‌های چند برچسبه با استفاده از ترکیب الگوریتم‌های فیلتر-پوششی مبتنی‌بر استراتژی‌های محدودیت محور و بهینه‌سازی تطبیقی
1404
انتخاب ویژگی چندبرچسبه به دلیل وابستگیهای پیچیده برچسب و ابعاد بالای ذاتی در مجموعه دادههای مدرن، چالشهای منحصر به فردی را ایجاد میکند. روشهای ترکیبی سنتی که استراتژیهای فیلتر و پوشش را ترکیب میکنند، اغلب به دلیل طرحهای یکپارچهسازی ایستا و تعامل محدود، عملکرد ضعیفی دارند و منجر به عملکرد و همگرایی غیربهینه به بهینه محلی میشوند. برای غلبه بر این محدودیتها، این پایاننامه یک چارچوب ترکیبی چندهدفه تطبیقی جدید به نام MOMOA (الگوریتم بهینهسازی مغناطیسی چندهدفه) را معرفی میکند که به‌طور خاص برای انتخاب ویژگی چندبرچسبی طراحی شده است. روش پیشنهادی با سازوکار فیلتر امتیاز دوگانه آغاز میشود که در آن ارتباط آماری خطی و امتیازدهی تصادفی را برای تولید یک زیرمجموعه ویژگی متنوع و آموزنده ادغام میشود. این زیرمجموعه، فاز پوشش را آغاز میکند، که در آن یک فرایند بهینهسازی تکاملی الهام گرفته از دینامیک نیروی مغناطیسی به طور تکراری راهحلها را اصلاح میکند. MOMOA از یک استراتژی وزندهی تطبیقی زمانی برای متعادل کردن اهداف متناقض متعدد، از جمله دقت طبقهبندی، فشردگی ویژگی و خطای تعمیم استفاده میکند. برخلاف رویکردهای سنتی، این چارچوب یک پیوند بازخورد پویا بین مراحل فیلترینگ و پوششدهنده حفظ می‌کند که همگرایی منسجم و کارایی جستجوی بهبود یافته را تسهیل میکند. آزمایشها روی یازده مجموعه داده معیار چندبرچسبی، برتری الگوریتم پیشنهادی را در بهبود عملکرد انتخاب ویژگی نشان میدهد و تعادل محکمی بین کارایی محاسباتی و اثربخشی پیشبینی در سناریوهای پیچیده و با ابعاد بالا ایجاد میکند.
طراحی و پیاده‌سازی یک سامانه بر‌خط سرعت بالا، مبتنی بر یادگیری عمیق، به منظور درجه‌بندی میوه سنجد
1402
بخش کشاورزی و صنایع مربوط به آن از جمله شالوده‌های اصلی اقتصاد کشورهای مختلف به‌خصوص جوامع درحال‌ توسعه به شمار می‌رود. یکی از زیر مجموعه‌های بخش کشاورزی که به طور چشم‌گیری در دنیا در حال توسعه است، فناوری پس‌ از برداشت محصولات کشاورزی می‌باشد. در این میان سنجد یک میوه با خواص غذایی و دارویی بالا می‌باشد که بیشتر با استفاده از روش‌های سنتی و دستی درجه‌بندی می‌شود. خصوصیات رنگی و ظاهری سنجد یکی از مهم‌ترین عوامل مرتبط با کیفیت آن به‌شمار می‌رود. با توجه به افزایش روز افزون مصرف این محصول در جهان و با توسعه فناوری‌های جدید، نیاز به روش نوین با بازدهی بالا و بدون دخالت انسان جهت درجه‌بندی میوه سنجد وجود دارد. برای این امر تکنیک‌های بینایی ماشین مبتنی بر یادگیری عمیق برای تعیین درجه کیفی سنجد با دقت قابل قبول می‌تواند مورد استفاده قرار گیرند. از این رو هدف از انجام این پژوهش توسعه یک سامانه درجه‌بندی مبتنی بر بینایی ماشین به منظور درجه‌بندی میوه سنجد در سطوح مختلف سرعت درجه‌بندی می‌باشد. تصاویر داده‌برداری‌شده در سرعت‌های مختلف خطی تسمه نقاله توسط یک سامانه بینایی ماشین و با استفاده از محیط برنامه نویسیPython تحلیل شد و فریم‌های حاوی نمونه‌های سنجد استخراج گردید. از الگوریتم Mask R-CNN به‌منظور قطعه‌بندی فریم‌های خروجی برای به دست آوردن مرز(لبه) نمونه‌ها استفاده شد. بالاترین میانگین صحت مرزبندی در سطح سرعت اول (82/4 سانتی متر بر ثانیه) به مقدار 11/104درصد به دست آمد. با توجه به اهمیت سرعت و صحت برای درجه‌بندی، از شبکه YOLO جهت ایجاد شبکه طبقه‌بند استفاده گردید. به منظور مقایسه نتایج صحت طبقه‌بندی در سرعت‌های مختلف، از دو شبکه YOLOv8x و YOLOv8n استفاده شد. ارزیابی مدل های طبقه‌بند جهت درجه‌بندی میوه سنجد با استفاده از شاخص‌های آماری نظیر حساسیت، اختصاصی بودن، دقت و صحت کل انجام گردید. میزان صحت کل طبقه‌بندی مدل برتر شبکه YOLOv8x در مرحله صحت‌سنجی 25/91 درصد و برای شبکه YOLOv8n، 88/88 درصد در سرعت خطی تسمه نقاله برابر با 18/15 سانتی متر بر ثانیه به دست آمد. نتایج این بررسی نشان داد که سامانه پیش‌نهادی پتانسیل لازم به عنوان یک روش سریع و با صحت مناسب را برای تعیین کلاس کیفی میوه سنجد را دارا است.
انتخاب ویژگی چندهدفه چندبرچسبی فیلتر-رپر
1402
به عنوان یک روش مهم پیش‌پردازش داده‌ها، انتخاب ویژگی یک مرحله برجسته قبل از طبقه‌بندی و سایر الگوریتم‌های یادگیری ماشین است. روش‌های انتخاب ویژگی عمدتا به روش‌های فیلتر و پوششی تقسیم می‌شوند که هر کدام مزایای خاص خود را دارند و برای استفاده از نقاط قوت هر دو روش، روش‌های فیلتر-پوششی معرفی شده‌اند. با این حال، ادغام و همکاری روش‌های فیلتر و پوششی می‌تواند یک فرآیند چالش‌برانگیز باشد، زیرا نیاز به هماهنگ کردن معیارها و الگوریتم‌های مختلف و طراحی روشی برای یک همکاری سازگار بین این روش‌ها وجود دارد. از سوی دیگر، الگوریتم‌های بهینه‌سازی چند-هدفه برای مقابله با مشکلات انتخاب ویژگی چند-برچسبه بسیار کارآمد هستند. با این وجود، مطالعات نسبتا کمی در مورد انتخاب ویژگی چند-هدفه فیلتر-پوششی برای داده‌های چند-برچسبه انجام شده است. در این پژوهش، ما ابتدا یک روش جدید برای همکاری بین اجزای فیلتر و پوششی با استفاده از تکنیک نوآورانه‌ای به نام مدل‌های احتمال اهمیت (Importance Probability Models) با اختصار IPMs ارائه می‌دهیم و سپس با استفاده از این تکنیک، یک رویکرد انتخاب ویژگی فیلتر-پوششی چند-هدفه برای داده‌های چند-برچسبه به نام FWMMFS-IPMs معرفی می‌کنیم. این رویکرد از یک مولفه‌ی فیلترِ سریعِ اصلاح شده برای تنظیم IPMs اولیه استفاده می‌کند که سپس جهت ایجاد جمعیت اولیه مطلوب در یک الگوریتم پوششی استفاده می‌شوند. IPM ها به طور مداوم با استفاده از راه‌حل‌های بهینه حاصل از تکامل روش پوششی به‌روز می‌شوند و با بهره‌گیری از این موضوع، یک رویکرد جدید برای فرایند جهش در این الگوریتم نیز ارائه می‌شود. این فرایند نرخ همگرایی الگوریتم را بهبود می‌بخشد، از گیر کردن آن در بهینه محلی جلوگیری می‌کند و تعادل بین جستجو محلی و سراسری را برقرار می‌کند. IPMs نهایی که حاصل یک همکاری سازگار بین روش‌های فیلتر و پوششی هستند همگرا می‌شوند و مرتب سازی آنها به ترتیب نزولی، رتبه‌بندی نهایی ویژگی‌ها را ایجاد می‌کند. برای نشان دادن اثربخشی روش پیشنهادی، ما از چندین معیار شناخته شده برای ارزیابی طبقه‌بندی چند-برچسبه استفاده کرده‌ایم و آزمایش‌های متنوعی را روی مجموعه‌ داده‌های چند-برچسبه مختلف انجام داده‌ایم. FWMMFS-IMPs با الگوریتم‌های انتخاب ویژگی چند-برچسبه مشابه مقایسه شده است، و نتایج تجربی اثربخشی آن را در جنبه‌های مختلف ارزیابی، از جمله معیارهای پایداری و عملکرد نشان می‌دهد. FWMMFS-IMPs به طور موثر ابعاد داده‌های چند-برچسبه را در حوزه‌های مختلف از جمله متن، موسیقی، زیست شناسی و تصاویر کاهش می‌دهد و به طور مداوم از سایر رویکردها در معیارهای ارزیابی مختلف بهتر عمل می‌کند.
اثر بازاریابی محتوا بر جذب مخاطب در شبکه اجتماعی اینستاگرام
1401
این پژوهش به منظور یافتن اثر بازاریابی محتوا بر جذب مخاطب در شبکه اینستاگرام با بررسی بخش‌های مختلف پاسخگویی محتوا به نیاز مخاطب، جذابیت قالب‌های محتوا، اعتمادسازی محتوا، پشتیبانی بر خط و ضریب انتشار در فرایند اعتمادسازی و جذب مخاطب در شبکه اینستاگرام صورت گرفته است. جامعه آماری تحقیق شامل 30 شبکه‌ی فروش اینستاگرامی در ایران است که با استفاده از فرمول کوکران نمونه‌ی 384 نفری به‌دست آمد. به‌منظور جمع‌آوری داده‌های مورد نظر پژوهش و پاسخگویی به فرضیات تحقیق اطلاعات مورد نیاز توسط پرسش‌نامه محقق ساخته جمع‌آوری شد. سپس با استفاده از رویکرد مدلسازی معادلات ساختاری توسط نرم افزار اسمارت پی ال سی و اس پی اس اس تحلیل گردید. در بخش کیفی رضایت و یا عدم رضایت از این پیج‌ها به وسیله‌ی متن کاوی تحلیل و بررسی شد سپس به وسیله‌ی هوش مصنوعی و نرم‌افزار پایتون و با استفاده از کدگزاری کلمات و جملات استفاده شده در کامنت‌ها نتایج بدست آمد که به 4 دسته‌‌ی راضی، ناراضی، تردید و بی‌تفاوت تقسیم شد. همچنین به روش مصاحبه عمیق با ده متخصص مشاوره شبکه‌ی اینستاگرامی جهت بررسی میزان عملکرد این شبکه‌ها مصاحبه صورت گرفت. سپس با استفاده از الگوریتم کلنی مورچه عوامل موثر بر میزان رضایت یا نارضایتی از هر شبکه اینستاگرامی محاسبه گردید. نتیجتا فرضیه‌های عوامل موثر در بازاریابی محتوا بر جذب مخاطب تایید شد. در بخش کیفی این نتیجه حاصل شد که برای رضایت از شبکه فروشگاهی انتخاب شده، اول اعتمادسازی سپس ضریب انتشار و نهایتا جذب مخاطب بیشترین درصد را داشته‌اند و دلیل نارضایتی آن‌ها ضعیف بودن در ویژگی‌های پشتیبانی آنلاین، قالب محتوا و نیاز مخاطب است.
ارائه یک روش دو جریانه مبتنی بر ویژگی‌های مکمل سنتی و عمیق برای تشخیص فعالیت انسان در ویدئو
1401
امروزه تشخیص رفتار انسان که به‌عنوان یک زمینه مهم در کاربردهای مختلفی مورداستفاده قرار گرفته است، موردتوجه بسیاری از محققان حوزه بینایی ماشین است. در مطالعات انجام شده در این حوزه ابتدا مدلی از رفتار انسان ایجاد می‌شود که از آن مدل برای انجام پیش‌بینی برچسب و یا جستجوی ویدئو به‌صورت مبتنی بر محتوا استفاده می‌شود. ایجاد مدل می‌تواند با استفاده از ویژگی‌های سنتی و عمیق انجام شود. ویژگی‌های سنتی شامل ویژگی‌های سنتی سراسری و محلی می‌شوند که ویژگی‌های سنتی سراسری و سنتی محلی خود به ترتیب با چالش‌های مهمی از قبیل حساسیت به نویز و عدم درنظرگرفتن ژست‌های کلی بدن مواجه هستند که روش‌ها را برای استفاده در کاربردهای واقعی محدود می‌کنند. روش‌های جدید از ویژگی‌های حاصل از شبکه‌های عمیق برای طبقه‌بندی رفتارها استفاده می‌کنند. ویژگی‌های عمیق از مدل‌کردن معنایی که در ویژگی‌های دست‌ساز مستتر است ناتوان است؛ لذا در روش‌هایی از استخراج دو ویژگی در دو جریان مستقل و ترکیب ویژگی و یا نتایج نهایی طبقه‌بندی برای پیش‌بینی رفتار استفاده می‌شود که به روش‌های دو جریانه شناخته می‌شوند. در این تحقیق دو نوع ویژگی‌ مکانی در دو جریان مورداستفاده قرار می‌گیرد به گونه‌ای که این ویژگی‌ها بتوانند با پوشش نقاط ضعف همدیگر به پیش‌بینی برچسب رفتاری دقیق‌تری برسند. در جریان اول ضرایب موجک از قاب‌ها استخراج می‌شوند که چند ریزگی مناسبی دارند و در جریان دیگر به استخراج ویژگی‌های عمیق از قاب‌ها پرداخته می‌شود تا بازنمایی مکانی مناسبی از تغییرات محلی و سراسری داشته باشیم. این ویژگی‌های حاصل از قاب‌ها در دو نقشه ویژگی‌های مکانی قرار می‌گیرند که در نهایت با استفاده از یک شبکه عمیق جدید، با فیلدهای پذیرنده فراگیرتر، ویژگی‌های زمانی مناسبی را حاصل نمایند. در این شبکه با استفاده از مدل مکانی - زمانی نهایی ایجاد شده پیش‌بینی برچسب رفتار انجام می‌شود و نتایج طبقه‌بندی در دو جریان نهایتاً با هم ترکیب خواهند شد تا به برچسبی با اطمینان بیشتر برسیم. دقت روش پیشنهادی روی 3 مجموعه‌داده واقعی UCFYT، UCF-Sport و JHMDB برابر با 98.7، 99.83 و 92.86 بوده که عملکرد روش به طور میانگین نسبت به بهترین روش معرفی شده قبلی 4.6 درصد بهتر است.
GAN-Based Guided Image Inpainting By User-defined Side Information
1400
Restoring damaged region in digital images (i.e., image inpainting) can be considered as a difficult problem which gets proportionally harder based on the severity of the damage. In the last few years, there is a progress in tackling this issue through using deep learning models. In this study, according to the successful applications of GANs in different fields, a new approach is presented for image inpainting. The proposed algorithm contains a generator and a global discriminator. The generator is responsible for recovering the missing area, and the global discriminator relates to identifying whether the repair area is correct or not. The architecture of the generator consists of two auto-encoder. Moreover, Wasserstein GAN loss is used to ensure the stability of training. As input image a 32 by 32 icon image is also used to semantically guide the generator, and then concatenating with the corrupted image for filling the lost part or regions without losing some existing objects or predicting unwanted objects or shapes. The guide image can be proposed by the user of application or some other cases such as watermarking can be considered. This method is qualitatively and quantitatively compared to the state-of-the-art models which use a Generative Adversarial Network. These approaches can produce convincing visual structures and textures, but they frequently produce deformed structures, blurry textures or loss objects that are out of sync with the surrounding areas. The presented results on CelebA-HQ dataset demonstrate that the proposed model can deal with large-scale missing pixels and generate realistic results.
بازسازی تصویر مبتنی بر شبکه متخاصم مولد هدایت شده توسط اطلاعات اضافه تعریف شده توسط کاربر
1400
بازگرداندن ناحیه آسیب دیده در تصاویر دیجیتال (بازسازی تصویر) می تواند به عنوان یک مشکل دشوار در نظر گرفته شود که بر اساس شدت آسیب به نسبت سخت تر می شود. در چند سال اخیر پیشرفت هایی در مقابله با این موضوع از طریق استفاده از مدل های یادگیری عمیق صورت گرفته است. در این مطالعه با توجه به کاربردهای موفق GAN ها در زمینه های مختلف، رویکرد جدیدی برای بازسازی تصویر ارائه شده است. الگوریتم پیشنهادی شامل یک مولد و یک تمایز عمومی است. ژنراتور مسئول بازیابی ناحیه از دست رفته است و تمایزکننده عمومی به تشخیص درست بودن یا نبودن ناحیه تعمیر مربوط می شود. معماری ژنراتور از دو انکودر خودکار تشکیل شده است. علاوه بر این، Wasserstein GAN برای اطمینان از ثبات تمرین استفاده می شود. به عنوان تصویر ورودی، یک تصویر نماد 32 در 32 نیز برای هدایت معنایی ژنراتور استفاده می شود و سپس با تصویر خراب برای پر کردن قسمت یا مناطق از دست رفته بدون از دست دادن برخی اشیاء موجود یا پیش بینی اشیاء یا اشکال ناخواسته، الحاق می شود. تصویر راهنما می تواند توسط کاربر برنامه پیشنهاد شود یا موارد دیگری مانند واترمارک در نظر گرفته شود. این روش از نظر کمی و کیفی با مدل های پیشرفته ای که از شبکه متخاصم مولد استفاده می کنند مقایسه می شود. این رویکردها می توانند ساختارها و بافت های بصری قانع کننده ای ایجاد کنند، اما اغلب ساختارهای تغییر شکل یافته، بافت های تار یا اشیایی از دست می دهند که با مناطق اطراف همگام نیستند. نتایج ارائه شده روی مجموعه داده CelebA-HQ نشان می دهد که مدل پیشنهادی می تواند با پیکسل های از دست رفته در مقیاس بزرگ مقابله کند و نتایج واقعی ایجاد کند.
استفاده از ویژگیهای معنایی برای بهبود تشخیص رفتارهای حرکتی انسان
1400
امروزه آنالیز رفتار انسان در سیستم های برخط ویدئویی مانند جستجو، دوربین نظارتی و تعامل انسان و ماشین بسیار مورد توجه قرار گرفته است. با ورود هوش مصنوعی به این حوزه سعی شده تا ماشین در تحلیل و بررسی رفتارها جایگزین عامل انسانی گردد. مهمترین گام برای این کار بازنمایی رفتار است به طوری که حاوی جزئیات رفتار برای انجام عملیات طبقه بندی باشد. بازنمایی رفتار می تواند بر اساس مدل یا داده های حاصل از رفتار باشد که منتج به معرفی روش های مدل محور و داده محور گشته است. روش های مدل محور با ایجاد مدل هایی دو یا سه بعدی از بدن انسان بازنمایی را انجام می دهد در حالی که روش های داده محور با پیچیدگی زمانی و حافظه مورد نیاز کمتر تغییرات در قاب ها را بررسی می کنند. روش های داده محور با استفاده از ویژگی های سراسری و محلی به بازنمایی رفتار انسان می پردازند. ویژگی های سراسری با بررسی تغییرات کلی قاب ها و ویژگی های محلی با بررسی حرکت های اجرا شده در یک یا چند ناحیه محلی از ویدئو به بازنمایی رفتار انسان می پردازد. در کارهای صورت گرفته تاکنون معنای رفتار که به یک توالی از زیررفتارها تعبیر شود مورد توجه قرار نگرفته است. لذا در این پایان نامه برای تشخیص و بازیابی رفتار انسان در ویدئو، بازنمایی رفتار انسان با استفاده از معنای حرکات بوسیله شبکه های عمیق انجام می شود. برای تعریف معنا در این کار، هر رفتار به زیررفتارهایی از حرکت های تشکیل دهنده آن تبدیل شده و بعد از مدل کردن حرکت ها، رفتار انسان بر اساس ترکیب این مدل ها بازنمایی می شود. بدین منظور ابتدا حرکت های تشکیل دهنده رفتار با استفاده از ویژگی های محلی استخراج شده از روش Dollar و انتقال بردارهای این ویژگی ها به فضای فرکانس با استفاده از روش CWT، برای پردازش های آتی به منظور تفکیک ساده حرکت ها، بدست می آیند. سپس با استفاده از شبکه های عصبی عمیق هر کدام حرکت های بدست آمده مدل شده و نهایتا با ترکیب مدل های حرکت های تشکیل دهنده هر رفتار، بازنمایی نهایی آن انجام می شود که برای تفکیک رفتارها مورد استفاده قرار گرفته اند. به منظور ارزیابی مدل پیشنهادی از مجموعه داده های ویدئویی HMDB، UCF Sport، UCFYT و UCF50 استفاده شده است که همه آنها شامل ویدئوهای واقعی ضبط شده در شرایط گوناگون هستند. روش معرفی شده با استفاده از زبان برنامه نویسی پایتون، کتابخانه های krase و Tensorfllow پیاده سازی شده تا به بخش بندی ویدئو، بازنمایی رفتار و طبقه بندی بپردازد. عملکرد روش پیشنهادی با سایر روش های معرفی شده در حوزه تشخیص و بازیابی رفتار مقایسه شده است. روش های مورد بررسی از شبکه های عصبی عمیق و یا ترکیبی از روش های داده محور، مدل محور و شبکه های عصبی عمیق برای بازنمایی و طبقه بندی رفتار استفاده کرده اند. ارزیابی نتایج بدست آمده نشان می دهد که روش پیشنهادی در کاربردهای شناسایی و بازیابی در مقایسه با سایر روش ها به دلیل توجه به حرکت های تشکیل دهنده رفتار و توالی آنها و بازنمایی مناسب، به ترتیب از 02/0 درصد تا 5/1 درصد و از 7/0 درصد تا 4 درصد دقت بالاتری داشته است.
بهبود کارایی سیستم های پالایش گروهی با استفاده از تکنیک های خوشه بندی
1392
سیستم های توصیه گر، سیستم هایی هستند که برای پیشنهاد کردن آیتم هایی بکار برده می شوند که انتظار می رود این آیتم ها مورد علاقه کاربر قرار گیرند. در سیستم های توصیه گر یک تکنیک پر کاربرد به نام سیستم های پالایش گروهی وجود دارد. این سیستم ها بر این فرضیه استوارند که می-توان اولویت های تعریف شده برای آیتم ها از سوی تعدادی از کاربران را برای سایر کاربران هم به اشتراک گذاشت. بنابراین، در این سیستم ها، هدف اصلی، یافتن یک گروه از شبیه ترین کاربران به کاربر فعال است. معیارهای شباهت، یکی از رایج ترین روش ها برای یافتن کاربران مشابه به کاربر فعال است. با استفاده از این روش، میزان شباهت کاربران نسبت به هم اندازه گیری شده و نهایتاً بر اساس این معیار ها، شبیه ترین کاربران به کاربر فعال به عنوان کاربران همسایه انتخاب می شوند. در این روش ها، برای انتخاب کاربران همسایه، محاسبات بر اساس ماتریس امتیازات کاربران به آیتم ها انجام می شود. اما این روش با چالش هایی مانند خلوت بودن ماتریس امتیازات، مقیاس پذیری و همچنین مشخص نبودن تعداد بهینه کاربران همسایه روبرو است. بعلاوه، در توصیه کردن آیتم ها روش هایی وجود دارند که خیلی از اطلاعات آماری امتیازات استفاده نمی کنند. یک راهکار دیگر برای یافتن کاربران مشابه به کاربر فعال، استفاده از روش های خوشه بندی است. از روش های خوشه بندی برای دسته بندی کردن کاربران در قالب خوشه هایی استفاده می شود که کاربران یک خوشه دارای بیشترین شباهت به هم هستند. در این پایان نامه دو راهکار مبتنی بر خوشه بندی، برای یافتن کاربران شبیه به هم در سیستم های پالایش گروهی پیشنهاد شده است. در راهکار اول، سعی شده است که با استفاده از روش های پیش پردازش مانند انتخاب ویژگی، تعدادی از آیتم های غیر موثر از مجموعه آیتم ها قبل از اعمال روش های خوشه بندی جهت یافتن کاربران همسایه، حذف شوند. نتایج آزمایشات نشان دهنده بهبود کارایی این روش است. در راهکار پیشنهادی دوم، یک روش جدید برای یافتن کاربران ارائه شده است که در این روش نیاز به مشخص نمودن تعداد خوشه ها برای خوشه بندی نیست. در این روش با استفاده از زیر مجموعه ای از آیتم های مورد علاقه کاربران که توسط چند کاربر امتیاز بالایی دریافت کرده اند، کاربران شبیه بدون در نظر گرفتن اینکه دارای امتیازات داده شده به آیتم های مشترکی باشند، در یک