دانشیار

تاریخ به‌روزرسانی: 1405/03/31

صادق سلیمانی

مهندسی / مهندسی کامپیوتر و فناوری اطلاعات

پایان‌نامه‌های کارشناسی‌ارشد

کشف یال های غیر محتمل در شبکه با کمک شبکه عصبی گراف
1404
کشف یال‌های غیر محتمل در شبکه‌های پیچیده، یکی از چالش‌های مهم و کاربردی در حوزه تحلیل شبکه‌ها است. این مسئله نه تنها از منظر نظری حائز اهمیت است، بلکه کاربردهای گسترده‌ای در زمینه‌های مختلف از جمله شبکه‌های اجتماعی، شبکه‌های زیستی، و سیستم‌های توصیه‌گر دارد. تشخیص دقیق لینک‌های غیر محتمل می‌تواند به بهبود ساختار شبکه، شناسایی ارتباطات نامتعارف، و پیش‌بینی رفتارهای آتی در شبکه کمک کند. با توجه به پیچیدگی و مقیاس بزرگ شبکه‌های واقعی، روش‌های سنتی اغلب در پیش‌بینی دقیق این لینک‌ها با محدودیت‌هایی مواجه هستند. از این رو، توسعه روش‌های نوین و کارآمد برای این مسئله، گامی مهم در جهت درک عمیق‌تر دینامیک شبکه‌های پیچیده و بهبود کاربردهای عملی در این حوزه است. در این پژوهش، ما یک رویکرد نوآورانه برای کشف یال‌های غیر محتمل در شبکه با استفاده از شبکه‌های عصبی گراف (GNN) و مفهوم گراف مکمل ارائه کرده‌ایم. روش پیشنهادی ما بر این اصل استوار است که پیش‌بینی لینک‌های مثبت در گراف مکمل، معادل با پیش‌بینی لینک‌های منفی در گراف اصلی است. ما ابتدا گراف مکمل را از گراف اصلی ایجاد کرده و سپس از قدرت یادگیری عمیق شبکه‌های عصبی گراف برای استخراج ویژگی‌های پیچیده و غیرخطی در این گراف مکمل استفاده کردیم. سه مدل اصلی GNN شامل شبکه کانولوشن گراف (GCN)، شبکه توجه گراف (GAT) و GraphSAGE مورد استفاده قرار گرفتند. همچنین، ما عملکرد این مدل‌ها را با روش‌های پایه مانند همسایگان مشترک (CN)، پیوست ترجیحی (PA) و ضریب جاکارد (JC) مقایسه کردیم. ارزیابی بر روی چهار مجموعه داده استاندارد شامل Cora، KarateClub، Chameleon و CiteSeer انجام شد تا کارایی و قابلیت تعمیم روش پیشنهادی در انواع مختلف شبکه‌ها سنجیده شود. نتایج حاصل از این پژوهش نشان داد که استفاده از مدل‌های GNN در ترکیب با رویکرد گراف مکمل، بهبود قابل توجهی در دقت پیش‌بینی یال‌های غیر محتمل نسبت به روش‌های پایه ایجاد می‌کند. در تمامی مجموعه داده‌های مورد بررسی، مدل‌های GNN عملکرد بهتری را نسبت به روش‌های پایه نشان دادند، که نشان‌دهنده توانایی قابل توجه مدل‌های GNN در استخراج الگوهای پیچیده در شبکه‌های بزرگ است. GraphSAGE در اکثر موارد بهترین عملکرد را در میان مدل‌های GNN داشت، که می‌تواند به دلیل توانایی آن در نمونه‌برداری و تجمیع اطلاعات از همسایگی‌های گره‌ها باشد. همچنین، مشاهده شد که عملکرد مدل‌های مختلف GNN در شبکه‌های مختلف متفاوت است، که اهمیت انتخاب مدل مناسب با توجه به ویژگی‌های خاص هر شبکه را نشان می‌دهد. علاوه بر این، نتایج نشان داد که استفاده از گراف مکمل نقش مهمی در بهبود عملکرد داشته و به مدل‌ها اجازه می‌دهد تا الگوهای مربوط به عدم وجود ارتباط را به خوبی یاد بگیرند. همچنین، مقایسه نتایج با دو مطالعه جدید در این حوزه نشان داد که روش پیشنهادی ما از نظر دقت پیش‌بینی یال‌های غیر محتمل عملکرد بهتری دارد، که این موضوع بر نوآوری و کارایی بالای رویکرد ارائه‌شده تاکید می‌کند. با وجود بهبود قابل توجه در دقت پیش‌بینی یال‌های غیر محتمل، این پژوهش مسیرهای جذابی برای تحقیقات آینده مشخص کرده است. افزایش کارایی محاسباتی مدل‌های GNN در مقیاس‌های بزرگ، ترکیب اطلاعات گراف اصلی و گراف مکمل، و توسعه روش‌های تفسیرپذیر از جمله زمینه‌های مهم برای بهبود هستند. همچنین، اعمال این رویکرد در حوزه‌های کاربردی مانند تشخیص تقلب در شبکه‌های مالی یا شناسایی تعاملات غیرعادی در شبکه‌های اجتماعی می‌تواند ارزش عملی آن را بیشتر نمایان کند.
Improved Association Rule Mining by Link Prediction to Predict the Likelihood and Severity of Armed Conflict Outbreak Factors in Nigeria
1404
Armed conflict in Nigeria poses a persistent threat to national stability, driven by complex socio-economic, political, and environmental factors. This study introduces a novel hybrid approach that integrates Association Rule Mining (ARM) with Link Prediction (LP) to improve the prediction of the likelihood and severity of armed conflict outbreak factors across Nigeria. Utilizing data from the Armed Conflict Location & Event Data Project (ACLED) database (1997–2024), comprising over 187,000 conflict event records [27], and the Nigeria Visualized Platform, the research explores co-occurrence patterns and structural relationships among conflict-related variables, such as unemployment rates, fatality levels, actor types, and event locations. The Apriori algorithm was applied to extract 225 association rules from a transactional conflict dataset, which were then refined using link prediction (LP) metrics—including Common Neighbors, Jaccard Coefficient, and Adamic-Adar Index—within a bipartite graph structure. Results show that the hybrid analytical model significantly improves rule quality. Specifically, average lift increased from 2.97 to 4.21, average confidence rose from 48.5% to 61.2%, and median support improved from 2.4% to 3.1% compared to traditional ARM alone. The final set of 68 high-confidence rules included strong associations between very high unemployment and protests (lift = 3.85, confidence = 61%), and correlations between specific actors, such as Boko Haram, and high-fatality events (lift = 3.52, confidence = 63%). This study illustrates the empirical value of integrating data mining techniques with network-theoretical approaches to improve the detection of structural conflict precursors. Future research should incorporate temporal dynamics and geospatial modeling to improve the generalizability and policy relevance of the proposed framework.
روشی جدید برای تشخیص بیماری کبد توسط کشف جامعه
1404
کبد به‌عنوان یکی از حیاتی‌ترین اندام‌های بدن، نقش کلیدی در عملکردهای متابولیکی، سم‌زدایی، ایمنی و تنظیم ترکیبات زیستی ایفا می‌کند. تشخیص زودهنگام بیماری‌های کبدی به‌دلیل پیشرفت سریع این بیماری‌ها و تاثیر مستقیم آن‌ها بر کیفیت زندگی بیماران، از اهمیت بالایی برخوردار است. استفاده از روش‌های یادگیری ماشین در سال‌های اخیر به‌عنوان راهکاری موثر در ارتقای دقت تشخیص پزشکی، توجه بسیاری از پژوهشگران را به خود جلب کرده است. مطالعات متعددی با بهره‌گیری از الگوریتم‌های یادگیری ماشین مانند جنگل تصادفی، ماشین بردار پشتیبان، نزدیکترین همسایه، پرسپترون چندلایه و مدل‌های ترکیبی همچون تقویت گرادیان بر روی داده‌های بیماران کبدی عمدتاً از مجموعه داده بیماران کبدی هند انجام شده‌اند. این پژوهش‌ها از روش‌هایی نظیر پیش‌پردازش داده‌ها، انتخاب ویژگی، تنظیم فراپارامترها و کاهش بُعد به‌منظور بهبود عملکرد مدل‌های طبقه‌بندی استفاده کرده‌اند. در برخی موارد، تمرکز بر ترکیب الگوریتم‌های مختلف یا بهینه‌سازی پارامترها بوده است، در حالی که دسته‌ای دیگر از رویکردهای آماری و تصویری برای استخراج ویژگی‌های موثر بهره برده‌اند. با این حال، بیشتر این مطالعات نسبت به ساختارهای پنهان و روابط پیچیده میان بیماران که می‌توانند حامل اطلاعات ارزشمندی برای بهبود دقت تشخیص باشند توجه کافی نداشته‌اند. در این پژوهش، با هدف ارتقای دقت طبقه‌بندی بیماری‌های کبدی، روشی نوآورانه مبتنی بر تحلیل شبکه‌ای ارائه شده است. ابتدا گراف تشابهی میان بیماران بر اساس فاصله اقلیدسی ایجاد گردید که در آن گره‌ها نمایانگر بیماران و یال‌ها بیانگر میزان شباهت میان آن‌ها بودند. سپس الگوریتم‌های تشخیص اجتماع از جمله لووین، اینفومپ، برچسب گذاری، گام های تصادفی و لیدن برای شناسایی گروه‌های طبیعی بیماران به کار گرفته شدند. ویژگی‌های حاصل از ساختارهای جامعه‌ای به‌صورت دودویی استخراج و به‌عنوان ویژگی‌های مکمل به داده‌های اولیه افزوده شدند. ارزیابی نهایی مدل‌ها با بهره‌گیری از اعتبارسنجی متقابل یک به یک و مجموعه‌ای از الگوریتم‌های یادگیری ماشین نشان داد که افزودن این ویژگی‌های گراف‌محور به داده‌های بالینی، منجر به بهبود معنادار عملکرد طبقه‌بندی شده است. این بهبود در معیارهایی همچون دقت، یادآوری، امتیاز 1F و ضریب همبستگی متیوز به‌ویژه در مدل‌هایی مانند کیسه‌بندی و تقویت گرادیانی قابل مشاهده بود. نتایج به‌دست‌آمده موید آن است که ویژگی‌های ساختاری استخراج‌شده از شبکه‌های تشابه، حاوی اطلاعات پنهانی هستند که می‌توانند نقش موثری در ارتقای قدرت پیش‌بینی سیستم‌های هوشمند تشخیص بیماری‌های کبدی ایفا کنند.
Improving the Classification Accuracy of Diabetes Using Three Way Clustering
1404
Diabetes Mellitus poses a significant global health challenge, with early detection being critical to mitigating complications and improving patient outcomes. This study addresses the need for accurate and interpretable predictive models for diabetes classification, overcoming limitations of black-box machine learning approaches and traditional clustering methods that struggle with class imbalance and transparency. By integrating novel three-way clustering with advanced machine learning and explainability techniques, this framework enhances both predictive performance and clinical applicability. The proposed methodology leverages K-Medoids with cosine distance to generate three-way clustering features (core, fringe, outlier), enriching the feature space of two real-world datasets: the Mendeley dataset (1,000 patients; multi-class: Non-Diabetic, Prediabetic, Diabetic) and the KRD dataset (1,012 pregnant women; binary: Non-Diabetic, Diabetic). SMOTE preprocessing balanced the datasets to 2,454 and 1,012 samples, respectively, followed by training with XGBoost under stratified 10-fold cross-validation. SHAP (Shapley Additive Explanations) provided global and local interpretability, ensuring transparency in model predictions. The framework achieved exceptional results, with XGBoost yielding an accuracy of 0.9952, F1-score of 0.9952, and AUC of 0.9999 on the Mendeley dataset, and an accuracy of 0.8804, F1-score of 0.8799, and AUC of 0.9380 on the KRD dataset. The three-way clustering features significantly reduced false negatives, enhancing early detection of prediabetic and diabetic cases. SHAP analysis revealed key predictors (HbA1c, BMI, heredity, cholesterol, triglycerides), aligning with clinical guidelines and providing patient-specific insights that bridge the gap between algorithmic performance and clinical trust. This framework outperforms recent studies, offering a robust balance of predictive accuracy and interpretability, making it a promising decision-support tool for precision medicine. Future work should focus on validating the model on larger, more diverse datasets, incorporating longitudinal and lifestyle factors, and optimizing computational efficiency for real-time clinical applications. Combining SHAP with complementary explainability methods, such as LIME, could further enhance clinician confidence and patient engagement.
Explainable Multi-Class Classification of Student Performance through Ensemble Machine Learning and Graph-Based Feature Engineering
1404
Predicting student performance in online learning environments is pivotal for enabling timely interventions and personalized educational strategies, yet challenges such as class imbalance and lack of model transparency often limit practical adoption. This thesis proposes a novel machine learning framework for multi-class prediction of student outcomes (Fail, Pass, Distinction, Withdrawn) using the Open University Learning Analytics Dataset (OULAD) for the AAA module, comprising 712 unique student records with 18 traditional features (e.g., demographic, academic, behavioral) and six graph-based features (e.g., degree centrality, clustering coefficient). By integrating advanced feature engineering, ensemble learning, and explainable AI, the framework delivers high predictive accuracy and interpretable insights, addressing shortcomings in traditional predictive approaches. The methodology leverages a Gower distance-based graph construction to generate relational features, capturing complex student interaction patterns within the OULAD dataset. Class weighting was applied to address the class imbalance (469 Pass, 116 Withdrawn, 84 Fail, 43 Distinction), enhancing predictions for minority classes such as Distinction and Fail. A Voting Classifier, combining Random Forest, Gradient Boosting, AdaBoost, XGBoost, and CatBoost, was evaluated through 5-fold cross-validation. Local Interpretable Model-agnostic Explanations (LIME) ensured transparency by identifying key predictors driving outcome classifications. The framework achieved robust performance, with the Voting Classifier yielding an accuracy of 82.02%, precision of 81.31%, recall of 82.02%, F1-score of 80.88%, and AUC of 92.77%, demonstrating approximately 5.9% improvement in F1-score over recent studies. LIME explanations provided actionable insights, enabling educators to understand student-specific factors and tailor interventions, such as increasing virtual learning environment (VLE) engagement for at-risk students. The framework’s multi-class classification and interpretability mark significant advancements, supporting personalized education in online learning environments. This research advances educational data mining by integrating graph-based feature engineering, ensemble learning, and explainability, setting a new benchmark for student performance prediction. Limitations include the moderate computational complexity of the Voting Classifier and reliance on static features, which may overlook temporal dynamics in student behavior. Future work will explore longitudinal data to model performance trajectories, incorporate Graph Neural Networks (GNNs) for enhanced relational modeling, and validate the framework on diverse datasets to improve generalizability. These advancements will further strengthen the framework’s potential to deliver scalable, interpretable solutions for optimizing student outcomes in online learning.
Explainability and Fuzzy Clustering Methods for Enhanced Metabolic Syndrome Diagnosis
1404
Metabolic syndrome (MetS) is a complex condition characterized by risk factors such as central obesity, insulin resistance, hypertension, and dyslipidemia, significantly elevating the risk of cardiovascular diseases and type 2 diabetes. With a global prevalence of 20–25%, MetS presents a major public health challenge, compounded by the limitations of binary diagnostic criteria that fail to capture the continuum of metabolic dysfunction. This thesis proposes a novel machine learning framework for multi-level risk stratification of MetS, aiming to improve early detection and personalized interventions. By integrating advanced computational techniques, the framework provides a granular and interpretable assessment of metabolic health, addressing shortcomings in traditional diagnostic approaches. The methodology utilizes a publicly available dataset from the National Health and Nutrition Examination Survey (NHANES) with 2,401 individuals and 15 features, including demographic, clinical, and laboratory data. A three-tier risk classification (Low, Moderate, High) was established using gender-specific thresholds for key MetS markers like waist circumference and HDL cholesterol. Fuzzy C-means clustering with Gower distance enriched the dataset by generating membership and distance features to capture complex metabolic patterns. Multiple classifiers were assessed via 10-fold cross-validation, with the HistGradientBoostingClassifier outperforming others. Local Interpretable Model-agnostic Explanations (LIME) ensured clinical transparency by identifying key predictors driving risk classifications. The framework achieved exceptional performance, with the HistGradientBoostingClassifier yielding an accuracy of 99.36%, precision of 99.37%, recall of 99.36%, and AUC of 99.84%, surpassing state-of-the-art studies on the same dataset. Waist circumference, HDL cholesterol, blood glucose, and uric acid were identified as top predictors, aligning with clinical MetS criteria, while cluster-derived features enhanced predictive power by revealing latent risk profiles. LIME explanations offered actionable insights, enabling clinicians to understand patient-specific risk factors and tailor interventions. The framework’s multi-level classification and interpretability mark significant advancements, supporting precision medicine in MetS management. This research advances computational diagnostics by integrating fuzzy clustering, feature engineering, and explainability, setting a new benchmark for MetS risk assessment. Limitations include the static nature of the analysis, which overlooks temporal disease progression, and the exclusion of certain MetS components like blood pressure due to dataset constraints. Future work will explore longitudinal data to model risk trajectories and incorporate additional clinical features to enhance diagnostic accuracy. These advancements will further strengthen the framework’s potential to deliver scalable, interpretable solutions for managing complex metabolic disorders.
تجزیه‌وتحلیل شبکه هم نویسندگی مهندسی نرم‌افزار
1404
این پژوهش با هدف تحلیل علم‌سنجی مقالات منتشر شده در حوزه مهندسی نرم‌افزار، به بررسی روندهای انتشار، مهم‌ترین حوزه‌های مطالعاتی، نویسندگان و منابع تاثیرگذار، شبکه‌های همکاری در سطوح مختلف (نویسندگان، دانشگاه‌ها و کشورها) و وضعیت پژوهش در این حوزه می‌پردازد. روش پژوهش مبتنی بر تحلیل علم‌سنجی و تحلیل شبکه‌های اجتماعی است. بدین منظور، داده‌های مربوط به مقالات منتشر شده در پایگاه‌های اطلاعاتی معتبر گوگل اسکالر جمع‌آوری و با استفاده از نرم‌افزار تحلیل علم‌سنجی VOSviewer مورد تجزیه و تحلیل قرار گرفتند. یافته‌های پژوهش نشان می‌دهد که انتشار مقالات در حوزه مهندسی نرم‌افزار در دهه‌های اخیر به ویژه از سال ۲۰۱۹ به بعد رشد چشمگیری داشته است. حوزه "توسعه نرم‌افزار" با بیشترین فراوانی، هسته اصلی پژوهش‌ها را تشکیل می‌دهد و حوزه‌های "طراحی نرم‌افزار" و "هوش مصنوعی" نیز از حوزه‌های فعال دیگر هستند. نویسندگان و مجلات تاثیرگذار شناسایی و شبکه‌های همکاری آن‌ها تحلیل شد، نتایج نشان می‌دهد که همکاری‌های علمی در این حوزه به صورت خوشه‌ای انجام می‌شود و برخی از نویسندگان و مجلات نقش مرکزی در این شبکه‌ها دارند. تحلیل سازمان‌ها و دانشگاه‌ها نشان می‌دهد که برخی از دانشگاه‌ها و موسسات پژوهشی نقش برجسته‌تری در تولید علم در این حوزه دارند. در سطح بین‌المللی، ایالات متحده با اختلاف زیادی نسبت به سایر کشورها، بیشترین سهم را در تولید اسناد علمی دارد. بررسی وضعیت پژوهش در ایران نشان می‌دهد که دانشگاه تهران پیشرو در تولید علم و همکاری‌های پژوهشی در این حوزه است. با این حال، تحلیل شبکه هم‌نویسندگی در ایران نشان می‌دهد که نیاز به تقویت همکاری‌های علمی بین نویسندگان ایرانی وجود دارد. این پژوهش با محدودیت‌هایی از جمله محدودیت پایگاه‌های اطلاعاتی و محدودیت زبان روبرو بوده است. نتایج پژوهش نشان می‌دهد که تحلیل شبکه‌های همکاری می‌تواند ابزاری قدرتمند برای درک بهتر ساختار و پویایی جامعه علمی باشد. با درک این ساختار، می‌توانیم فرصت‌های جدید برای همکاری‌های بین‌المللی را شناسایی کرده و سیاست‌های علمی موثرتری برای تقویت تحقیقات در این حوزه تدوین کنیم.
رویکرد پیشبینی پیوند در سامانه توصیه‌گر نقاط مورد علاقه گردشگران
1403
نقاط موردعلاقه (POI) به‌عنوان مکان‌هایی که کاربران تمایل به بازدید از آن‌ها دارند، نقش مهمی در سیستم‌های توصیه‌گر و برنامه‌های مبتنی بر موقعیت مکانی ایفا می‌کنند. این نقاط می‌توانند اطلاعات ارزشمندی را برای پیش‌بینی رفتارهای آینده کاربران و ارائه توصیه‌های دقیق فراهم آورند. با رشد سریع داده‌های مکانی و شبکه‌های اجتماعی، ایجاد سیستم‌های توصیه‌گر هوشمند که بتواند علایق کاربران را به‌درستی شناسایی کند و مکان‌های جذاب و متناسب باسلیقه آن‌ها را پیشنهاد دهد، اهمیت ویژه‌ای پیدا کرده است. در این پژوهش، یک الگوریتم برای پیش‌بینی نقاط موردعلاقه کاربران معرفی شده است که با استفاده از شبکه روابط اجتماعی کاربران، به بهبود کارایی و دقت در توصیه نقاط موردعلاقه کمک می‌کند. روش پیشنهادی با بهره‌گیری از الگوریتم ادمیک/آدار تغییریافته برای سنجش شباهت بین دوستان، و الگوریتم جاکارد بهبود یافته برای پیش‌بینی نقاط موردعلاقه، عملکرد بهتری نسبت به روش‌های مرسوم ارائه داده است. این الگوریتم با تحلیل رفتار دوستان و حتی دوستان دوستان، قادر است به شکلی دقیق‌تر علایق کاربران را پیش‌بینی کرده و نقاط جدیدی را با دقت بیشتر توصیه کند. برای ارزیابی عملکرد الگوریتم، از معیارهای (Precision)، (Recall) و (F1Score) استفاده شده است. این معیارها که در پژوهش‌های مشابه نیز به‌طور گسترده استفاده شده‌اند، امکان مقایسه مستقیم نتایج را با سایر روش‌ها فراهم می‌کنند. نتایج تجربی نشان می‌دهند که روش پیشنهادی، به دلیل استفاده از شبکه دوستان و ارتباطات کاربران، دقت و جامعیت پیش‌بینی‌ها را به‌طور قابل‌توجهی افزایش داده است و در مقایسه با روش‌های مرسوم، توصیه‌های دقیق‌تر و متنوع‌تری ارائه می‌دهد.
بهبود الگوریتم‌های یادگیری ماشین در تشخیص دیابت با استفاده از روش‌های مبتنی برگراف
1403
دیابت به‌عنوان یک اختلال مزمن متابولیک، بارهای قابل‌توجهی بر سلامت و اقتصاد جهانی تحمیل می‌کند. تشخیص زودهنگام و دقیق برای مدیریت موثر و پیشگیری از عوارض ناشی از این بیماری ضروری است. روش‌های سنتی تشخیص که بر پارامترهای بالینی متکی هستند، اغلب با محدودیت‌هایی همچون طولانی بودن فرآیند و احتمال خطا مواجه‌اند. پیشرفت‌های اخیر در حوزه یادگیری ماشین گزینه‌های امیدبخشی برای تحلیل داده‌های پزشکی و بهبود دقت تشخیص فراهم کرده است. با این حال، مدل‌های یادگیری ماشین با چالش‌هایی در مدل‌سازی روابط پیچیده‌تر بین عوامل مرتبط با دیابت روبرو هستند. این پایان‌نامه به بررسی پتانسیل روش‌های مبتنی بر گراف در کنار یادگیری ماشین برای بهبود تشخیص دیابت می‌پردازد. روش‌های مبتنی بر گراف چارچوبی قدرتمند برای نمایش و تحلیل روابط پیچیده بین نمونه‌ها فراهم می‌کنند و امکان شناسایی الگوهای پنهان را مهیا می‌سازند. در این پژوهش، داده‌های مربوط به مجموعه داده‌ای شامل 768 نمونه و 9 ویژگی، مورد استفاده قرار گرفته است. به منظور ساخت گراف، ابتدا میزان شباهت بین هر جفت نمونه مجموعه ‌داده با استفاده از معیار شباهت فاصله اقلیدسی محاسبه شد و سپس گراف‌های وزن‌دار و بدون جهت در دو سطح آستانه 0.01 و 0.004 ایجاد گردیدند. گراف حاصل در آستانه 0.01 شامل 26,130 یال و در آستانه 0.004 شامل 87,250 یال بود که روابط معنادار بین نمونه‌ها را نشان می‌دهد. پس از ساخت گراف، مجموعه‌ای از ویژگی‌های مبتنی بر گراف ازجمله مرکزیت درجه، مرکزیت نزدیکی، و چندین معیار دیگر، استخراج شدند که در کنار ویژگی‌های اصلی و اولیه داده‌ها، برای آموزش مدل‌های یادگیری ماشین استفاده شد. در این پژوهش از چندین مدل یادگیری ماشین، شامل طبقه‌بند‌های سنتی و مبتنی بر گروه‌بندی، استفاده شده است. همچنین، آزمایش‌ها با استفاده از معیارهایی نظیر دقت، بازیابی، صحت و امتیاز F1 و AUC ارزیابی شدند. نتایج نشان داد که ترکیب ویژگی‌های گرافی با الگوریتم‌های یادگیری ماشین به‌طور قابل‌توجهی دقت تشخیص را بهبود می‌بخشد. مدل پیشنهادی توانست در هر دو آستانه بررسی شده، با الگوریتم‌های تقویت گرادیان و پرسپترون چندلایه به ترتیب به دقت‌های %98.51 و %99.07 درصد دست یابد که برتری قابل‌توجهی را نسبت به رویکردهای مبتنی بر ویژگی‌های اصلی داده نشان می‌دهد. این یافته‌ها نشان می‌دهند که روش‌های مبتنی ‌بر گراف در به همراه الگوریتم‌های یادگیری ماشین، با شناسایی روابط پنهان و افزایش دقت تشخیص، می‌توانند در تحلیل داده‌های مورد استفاده موثر واقع شوند.
Breast Cancer Recurrence Prediction Improvement Utilizing Hidden Relations Between Patients Attributes
1403
Breast cancer and its recurrence are a major global health issue, impacting a considerable percentage of women over their lifetimes. Accurate prediction of breast cancer recurrence is crucial for enhancing patient outcomes, facilitating prompt interventions, and customizing treatment options. Although machine learning algorithms hold significant promise for breast cancer prediction, there is a shortage of studies dedicated to predicting breast cancer recurrence through these methods; yet, the accuracy of current methodologies remains problematic. In contrast, contemporary research primarily focuses on enhancing prediction algorithms and machine learning models, with inadequate exploration of the importance of intricate feature relationships. This study utilized correlation approaches to generate a graph from the existing breast cancer recurrence dataset, facilitating the extraction of novel features. This led to an expansion of the feature collection based on their correlations, thus enhancing prediction accuracy. This study utilized the Wisconsin Diagnostic Breast Cancer (WDBC) and Wisconsin Prognostic Breast Cancer (WPBC) datasets to examine feature correlations. Four correlation methodologies were evaluated: Pearson, Spearman rank, Kendall Tau, and Point-Biserial. Machine learning methods, such as Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT), and Random Forest (RF), are utilized to predict breast cancer recurrence. The findings indicated that the integration of graph-based feature associations significantly enhanced the prediction of breast cancer recurrence, with the Spearman rank correlation and SVM model achieving the highest level of precision.
Drug Abuse Detection Improvement using Graph Analysis Techniques
1403
Drug abuse remains one of the most significant public health challenges globally, affecting millions and resulting in profound social and economic consequences. Traditional detection methods, largely reliant on self-reporting and clinical assessments, often fall short in capturing the complex reality of substance use behaviors. As substance abuse continues to evolve, innovative approaches are required to enhance detection, prevention, and intervention strategies while providing healthcare professionals and policymakers with robust data-driven insights. This study utilized the UCI dataset on drug consumption, comprising 1885 respondents with 12 attributes including personality traits, demographic information, and drug consumption behavior. We employed graph analysis techniques to enhance drug abuse detection, focusing on nicotine consumption. previous work used machine learning, we also used machine learning except that we added new features that we get from the graph. Our methodology involved data preprocessing, correlation analysis using Spearman's coefficient, graph construction with different thresholds for nicotine users and non-users, and feature extraction from the resulting graphs. We extracted seven centrality measures: Degree, Betweenness, Closeness, Eigenvector, Pagerank, Harmonic, and Load Centrality. We then combined these graph-derived features with the original dataset and applied various machine learning models for classification. The results demonstrated strong predictive performance, with the best model (Logistic Regression) achieving an accuracy of 0.985964 and an AUC of 0.999015. Other models, including Histogram-based Gradient Boosting, MLP, and SVM, also showed high accuracy above 0.85. This represents a significant improvement over recent studies in the field of drug abuse detection. Future research should focus on validating these results on diverse external datasets to ensure generalizability. Exploring temporal dynamics within drug abuse networks and integrating advanced techniques like Graph Neural Networks could further enhance the methodology. Additionally, expanding the approach to other substances and behavioral health issues could provide a more comprehensive understanding of addiction patterns. Ethical considerations regarding the use of highly accurate predictive models in healthcare settings should also be carefully addressed to ensure responsible application of these techniques.
پیش‌بینی مقدار سری‌های زمانی مدل شده با گراف پدیداری با کمک معیارهای مرکزیت و پیش‌بینی پیوند
1403
پیش‌بینی سری‌های زمانی یکی از موضوعات مهم و چالش‌برانگیز در تحلیل داده‌ها است که در بسیاری از حوزه‌ها مانند مالی، مهندسی، اقلیم‌شناسی و زیستی کاربرد دارد. روش‌های سنتی پیش‌بینی نظیر ARIMA و شبکه‌های عصبی، اگرچه در برخی موارد موفق عمل کرده‌اند، اما با افزایش پیچیدگی و حجم داده‌ها، در شناسایی و مدل‌سازی روابط پیچیده و غیرخطی ناکافی به نظر می‌رسند. این تحقیق با هدف ارائه یک روش نوین و کارآمد برای پیش‌بینی سری‌های زمانی، از گراف پدیداری و تکنیک‌های معیارهای مرکزیت و پیش‌بینی پیوند بهره برده است. در این روش، ابتدا داده‌های سری زمانی به گراف پدیداری تبدیل می‌شوند که در آن هر نقطه زمانی به‌عنوان یک گره و هر رابطه پدیداری بین نقاط به‌عنوان یک یال در نظر گرفته می‌شود. سپس، جهت تعیین نقطه زمانی آتی، از معیارهای مرکزیت درجه، بینابینی، نزدیکی و بردار ویژه به منظور یافتن مهم‌ترین نقاط زمانی و از روش‌های پیش‌بینی پیوند همسایه مشترک، جاکارد، ادامیک-ادار و پیوست ترجیحی به منظور یافتن شبیه‌ترین نقاط زمانی به نقطه آخر استفاده می‌گردد. در انتها، برای افزایش دقت پیش‌بینی نقطه زمانی آتی، از ترکیب این معیارها و انتخاب بهترین ترکیب با سنجش ترکیب‌های مختلف از طریق رتبه‌بندی استفاده می‌شود. نتایج به‌دست‌آمده از پیاده‌سازی این روش بر روی پنج مجموعه داده واقعی CCI، AirPassengers، Lynx، IBOV و nhtemp نشان‌دهنده بهبود قابل‌توجه در دقت پیش‌بینی مقادیر سری‌های زمانی در مقایسه با روش‌های سنتی است. دقت پیش‌بینی مدل پیشنهادی با سایر روش‌های رایج از جمله ARIMA،Naive ، LSTM، SVM، MLP، HAAA، HAEA، MXA و MVA مقایسه شده است که مدل پیشنهادی با انتخاب بهترین ترکیب از اثرگذارترین نقاط زمانی و شبیه‌ترین نقاط زمانی به گره آخر، توانسته است با دقت بالاتری روندهای پیچیده و نوسانات غیرخطی در داده‌های سری زمانی را پیش‌بینی کند. این نتایج نشان‌دهنده پتانسیل بالای استفاده از گراف پدیداری و تکنیک‌های پیش‌بینی پیوند و معیارهای مرکزیت در تحلیل و پیش‌بینی سری‌های زمانی است. در نهایت، تحقیق به این نتیجه می‌رسد که ترکیب گراف پدیداری با روش‌های پیش‌بینی پیوند و معیارهای مرکزیت می‌تواند به‌عنوان یک ابزار قدرتمند برای تحلیل داده‌های پیچیده و بهبود دقت پیش‌بینی‌ها در سری‌های زمانی به کار گرفته شود. همچنین، ترکیب روش پیشنهادی مبنی بر گراف پدیداری با روش‌های یادگیری ماشین مانند شبکه‌های عصبی پیشرفته برای تحقیقات آینده در جهت بهبود مدل و گسترش دامنه کاربرد آن پیشنهاد شده است.
Improving Liver Disease Detection Using Oversampling and Network Analysis
1403
Liver diseases represent a significant global health challenge, impacting millions of individuals and leading to morbidity and mortality due to their often asymptomatic nature. The early detection and accurate diagnosis of liver disorders are critical for effective treatment and management, making it imperative to leverage advanced technologies such as machine learning. As healthcare systems increasingly rely on data-driven solutions, employing robust predictive models for liver disease can transform clinical practices, improve patient outcomes, and reduce the burden on healthcare providers. This thesis presents an investigation into the application of machine learning techniques for the detection of liver diseases using the Indian Liver Patient Records dataset, which includes clinical data from 579 patients. The study meticulously preprocesses the data by addressing class imbalance through the ADASYN algorithm, encoding categorical variables with LabelEncoder, and calculating feature correlations using the Spearman method. A graph-based approach was adopted to extract insights from patient features, enabling the creation of enriched data representations that were subsequently used to train various machine learning classifiers, including HistGradientBoostingClassifier, RandomForestClassifier, and AdaBoostClassifier. The findings of this research reveal substantial improvements in predictive accuracy, with the HistGradientBoostingClassifier achieving an impressive accuracy of 98.49%. The model outperformed existing methodologies, demonstrating the effectiveness of advanced feature extraction techniques and robust data preprocessing strategies in enhancing the reliability of predictions for liver disease diagnosis. This study not only highlights the expanding role of machine learning in healthcare but also serves as a validation of the potential benefits of data-driven approaches in disease management. Despite the promising results, several limitations are acknowledged in this research. The reliance on a specific dataset may restrict the generalizability of the findings, and the methodologies employed may require validation on diverse datasets to confirm their effectiveness across different populations. Additionally, there is a need for further exploration of deep learning techniques and the integration of multimodal data sources to improve diagnostic accuracy. Future research should aim to address these limitations while continuing to expand the understanding and application of machine learning within the realm of liver disease detection and beyond.
بهبود پیش‌بینی پیوند بدون ناظر با لحاظ کردن معیارهای مرکزیت
1403
پیش‌بینی پیوندهای احتمالی در شبکه‌های پیچیده یکی از چالش‌های مهم در تحلیل شبکه است. این مسئله کاربردهای مهمی در زمینه‌هایی مانند شبکه‌های اجتماعی، زیستی و حمل و نقل دارد. به عنوان مثال، در شبکه‌های اجتماعی، پیش‌بینی پیوندهای احتمالی می‌تواند به پیشنهاد دوستان بالقوه کمک کند و تجربه کاربری را بهبود ببخشد. در شبکه‌های زیستی نیز، پیش‌بینی دقیق‌تر تعاملات پروتئینی می‌تواند به پیشرفت‌های قابل توجهی در کشف دارو و درک مکانیسم‌های بیولوژیکی منجر شود. با این حال، روش‌های سنتی پیش‌بینی پیوند محدودیت‌هایی در دقت و نقش گره ها در شبکه را دارند. این پژوهش یک رویکرد نوآورانه را برای بهبود دقت پیش‌بینی پیوند در شبکه‌های پیچیده ارائه می‌دهد. روش پیشنهادی با ترکیب هوشمندانه الگوریتم‌های پایه پیش‌بینی پیوند (مانند CN، JC، RA، AA و PA) با معیارهای مرکزیت گره (درجه، بینابینی، نزدیکی، بردار ویژه و رتبه صفحه) طراحی شده است. این ترکیب به بهره‌گیری هم‌زمان از ساختار محلی شبکه و اهمیت کلی گره‌ها منجر می‌شود. نتایج ارزیابی روش پیشنهادی بر روی ده مجموعه داده متنوع نشان داد که این روش در اکثر موارد عملکرد بهتری نسبت به روش‌های پایه داشته است. به عنوان مثال، در شبکه lesmis، روش PA بهبودیافته با معیار بردار ویژه به Precision برابر با 0.3152 دست یافت که بهبود قابل توجهی نسبت به روش پایه PA (Precision برابر با 0.1567) بود. این بهبود عملکرد به ویژه در شبکه‌های بزرگ‌تر و پیچیده‌تر مشهودتر بود و همچنین در شبکه های کوچک عالی عمل کرد. همچنین، مطالعه نشان داد که انتخاب بهترین روش برای پیش‌بینی پیوند به ویژگی‌های خاص هر شبکه بستگی دارد. به عنوان مثال، در شبکه Karate، روش PA بهبودیافته با معیار درجه بهترین عملکرد را داشت، در حالی که در شبکه Jazz، روش AA بهبودیافته با معیار بردار ویژه بهترین نتیجه را ارائه داد. این یافته‌ها اهمیت در نظر گرفتن ساختار و ویژگی‌های خاص هر شبکه را در انتخاب روش مناسب برای پیش‌بینی پیوند نشان می‌دهد. این پژوهش گامی مهم در جهت بهبود دقت پیش‌بینی پیوند در شبکه‌های پیچیده برداشته است. با این حال، این مطالعه دارای برخی محدودیت‌ها نیز بود. با توجه به این محدودیت‌ها و نتایج به دست آمده، چندین مسیر برای تحقیقات آینده پیشنهاد می‌شود. این شامل توسعه روش‌های پیش‌بینی پیوند که قادر به در نظر گرفتن پویایی شبکه باشند، آزمودن روش‌های پیشرفته‌تر مرکزیت، بهبود کارایی محاسباتی الگوریتم‌ها، ترکیب روش‌های پیشنهادی با تکنیک‌های پیشرفته یادگیری ماشین و بررسی تاثیر سایر ویژگی‌های شبکه بر پیش‌بینی پیوند می‌باشد.
Software Defect Prediction Using Ensemble Learning derived from Graph analysis
1403
Software defect prediction plays a crucial role in enhancing software quality and reducing development costs. As software systems grow in complexity, the ability to accurately identify defect-prone modules becomes increasingly vital for efficient resource allocation and risk mitigation. Traditional approaches to defect prediction often struggle to capture the intricate relationships between software components, leading to suboptimal predictive performance. There is a pressing need for more sophisticated methods that can leverage the structural properties of software systems to improve defect prediction accuracy. This thesis presents a novel approach to software defect prediction by combining graph-based feature extraction with ensemble learning techniques. We transform software modules into graph representations, extracting meaningful features that capture the complex dependencies within the system. These graph-based features are then used to train a variety of ensemble classifiers, including Histogram Gradient Boosting, Extra Trees, and Random Forest. Our methodology is applied to three diverse datasets from the NASA Metrics Data Program: CM1, JM1, and KC1, representing spacecraft instruments, real-time ground systems, and storage management software, respectively. The results demonstrate significant improvements in defect prediction accuracy compared to existing state-of-the-art methods. Our approach achieves accuracy scores ranging from 0.966 to 0.994 across the datasets, with Area Under the Receiver Operating Characteristic Curve (AUC) scores consistently approaching or exceeding 0.99. These findings represent a 3% to 15% improvement over recent studies, highlighting the effectiveness of our graph-based ensemble learning method. The approach shows remarkable versatility, performing exceptionally well across diverse software domains and maintaining a balanced performance in terms of precision and recall. Future work will focus on exploring more advanced graph representation techniques, incorporating temporal information into the models, and investigating the application of explainable AI methods to enhance model interpretability. Additionally, expanding the study to a wider range of software projects and integrating the approach with existing development tools present exciting opportunities for practical application. As software systems continue to evolve in complexity, the proposed graph-based ensemble learning approach holds significant promise for advancing the field of software defect prediction and improving software quality assurance practices across the industry.
Integrating Graph-Based Techniques with Machine Learning for Disease Detection
1403
The study explores the use of Graph Neural Networks (GNNs) for disease prediction in various medical scenarios. It proposes a methodology that transforms tabular patient data into graph-structured representations, capturing intricate linkages and patterns inherent in healthcare data. The methodology includes five essential stages: data preprocessing, graph generation, node embedding and feature extraction using GNNs, feature integration, and machine learning classification. During the graph generation step, similarity metrics like Gaussian, Jaccard, Cosine, and Spearman correlations are used to generate patient graphs that represent different aspects of patient similarities. Link prediction is used as an unsupervised learning objective to train GNN models, including Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), and GraphSAGE, to acquire significant node embeddings. The latent features obtained by GNNs are then combined with baseline preprocessed features, resulting in an enhanced feature set that incorporates both node-level and graph-level information. Machine learning classifiers such as Support Vector Machines (SVM) and Random Forest are trained using this enriched feature set. The empirical findings show that GNN-based approaches consistently surpass earlier state-of-the-art methods in all three disease categories. Graph Attention Network (GAT) shows outstanding performance in stroke prediction. The integration of GNN information with conventional classifiers leads to synergistic effects, producing highly accurate and robust prediction models. This work significantly enhances the medical informatics domain by demonstrating the remarkable capabilities of graph-based deep learning in disease prediction. It suggests that GNN-based methods can significantly increase the precision and dependability of disease prediction models, leading to earlier detection, more tailored treatment approaches, and better patient outcomes.
روشی جدید مبتنی بر تحلیل شبکه برای پیش‌بینی انصراف از تحصیل دانشجویان
1403
انقلاب آموزشی در فضای دیجیتال با ظهور دوره‌های آنلاین باز گسترده (MOOCs) به مرحله جدیدی وارد شده است. این پدیده، که در سال‌های اخیر رشد چشمگیری داشته، با چالش‌هایی مانند نرخ بالای افت تحصیلی و درصد پایین تکمیل دوره‌ها مواجه است. پژوهش حاضر به بررسی روش‌های نوین تحلیل و طبقه‌بندی داده‌های آموزشی برای پیش‌بینی انصراف از تحصیل دانشجویان می‌پردازد. داده‌های مرتبط با آموزش آنلاین شامل اطلاعات تعاملی، پیشرفت تحصیلی و محتوای دیجیتال هستند که به تحلیل کیفیت و اثربخشی مواد آموزشی کمک می‌کنند. مجموعه داده‌های مورد استفاده از سیستم مدیریت یادگیری دانشگاه به دست آمده و شامل اطلاعات تحصیلی و رفتاری دانشجویان است. این پژوهش دقت پیش‌بینی را در میان دانشجویان در معرض خطر انصراف و دانشجویانی که به تحصیل ادامه می‌دهند، بررسی می‌کند. استفاده از روش‌های نوین تحلیل داده‌ها می‌تواند دقت پیش‌بینی را بهبود بخشد. در این پژوهش، ابتدا سامانه و داده‌های آموزشی آنلاین معرفی می‌شوند و سپس به داده‌کاوی آموزشی و مسئله انصراف از تحصیل دانشجویان پرداخته می‌شود. اهمیت تشخیص زودهنگام دانشجویان در معرض انصراف مورد بحث قرار گرفته و داده‌ها به گراف تبدیل می‌شوند تا روابط و الگوهای پیچیده تحلیل شوند. ویژگی‌های گرافی موثر برای ارائه اطلاعات درباره الگوهای رفتاری و تحصیلی دانشجویان استخراج می‌شوند. برای پیش‌بینی انصراف از تحصیل، سه روش بررسی شده است. در روش اول، از داده‌های Harvard and MIT با ۲۲ ویژگی، ۶ ویژگی جدید استخراج شده است. در روش دوم، داده‌های KDDCup با ۱۵ ویژگی و ۵ ویژگی محلی جدید بررسی شده‌اند. در روش سوم، با تبدیل داده‌ها به دو مجموعه مجزا، ۵ ویژگی محلی و ۵ ویژگی سراسری جدید استخراج گردیده است. در نهایت، با معیارهای مختلف طبقه‌بندی، دانشجویان در معرض انصراف شناسایی می‌شوند و این رویکرد می‌تواند به شناسایی دقیق‌تر دانشجویان در خطر و مداخلات به‌موقع کمک کند. نتایج این پژوهش نشان‌دهنده تاثیر مثبت رویکرد مبتنی بر گراف در تحلیل داده‌های آموزشی و بهبود دقت پیش‌بینی انصراف از تحصیل دانشجویان است. این روش کارآمدتر از روش‌های سنتی بوده و به موسسات آموزشی در شناسایی سریع‌تر دانشجویان در معرض خطر و اتخاذ اقدامات پیشگیرانه کمک می‌کند. ساختار گراف امکان بررسی روابط پیچیده بین ویژگی‌های آموزشی را فراهم کرده و ویژگی‌های موثرتر را استخراج می‌کند. در روش پیشنهادی اول، معیار InfoMap بهترین عملکرد را داشت. روش دوم دقت پیش‌بینی را 5.33 درصد و روش سوم دقت را 6.04 درصد بهبود بخشید و به دقت 100 درصد رسید. این یافته‌ها نشان می‌دهد که استخراج و ترکیب ویژگی‌های مناسب می‌تواند دقت پیش‌بینی انصراف از تحصیل در MOOCs را به طور قابل توجهی افزایش دهد. این پژوهش با وجود نتایج مثبت، دارای محدودیت‌هایی نیز می‌باشد. یکی از چالش‌های اصلی، دشواری در مدیریت و پردازش مجموعه داده‌های بزرگ است که می‌تواند فرآیند تحلیل را زمان‌بر کند. برای غلبه بر این محدودیت، می‌توان از روش‌های گراف‌های عمیق استفاده کرد که امکان تحلیل سریع‌تر و کارآمدتر داده‌ها را فراهم می‌کنند. در کارهای آینده، می‌توان از روش‌های پیشرفته تشخیص اجتماع برای استخراج ویژگی‌های متعدد بهره برد و یا از کدگذاری‌های مختلف برای استخراج ویژگی‌ها استفاده کرد. این رویکردها نه تنها می‌توانند به افزایش کارایی در پردازش داده‌های حجیم کمک کنند، بلکه امکان کشف الگوهای پنهان و پیچیده‌تر در داده‌های آموزشی را نیز فراهم می‌آورند، که می‌تواند منجر به پیش‌بینی‌های دقیق‌تر و جامع‌تر در زمینه انصراف از تحصیل دانشجویان شود.
بهبود مبتنی بر گراف الگوریتم‌های یادگیری ماشین پیش‌بینی آلزایمر
1403
آلزایمر امروزه یکی از مهم‌ترین چالش‌های سلامت جهانی است که تاثیر عمیقی بر کیفیت زندگی بیماران و خانواده‌های آنها دارد. طبق آمار سازمان جهانی بهداشت، بیش از 55 میلیون نفر در سراسر جهان به این بیماری مبتلا هستند و پیش‌بینی می‌شود این رقم تا سال 2050 به بیش از 150 میلیون نفر افزایش یابد و هفتمین علت مرگ و میر در جهان است و بار اقتصادی و اجتماعی قابل توجهی بر جوامع تحمیل می‌کند. این بیماری با از دست‌دادن تدریجی حافظه، اختلال در عملکردهای شناختی و تغییرات رفتاری مشخص می‌شود. این پژوهش یک رویکرد نوآورانه مبتنی بر گراف برای پیش‌بینی و تشخیص بیماری آلزایمر با استفاده از داده‌های بالینی مجموعه OASIS ارائه می‌دهد. با ساخت شبکه شباهت بیماران و کشف ارتباطات و همبستگی بین آنها، توانستیم ویژگی‌های مفیدی را استخراج کنیم که به طور قابل‌توجهی متغیرهای بالینی معمول را برای طبقه‌بندی بیماری آلزایمر تقویت کرد. ما از پنج روش همبستگی شامل شباهت جاکارد، همبستگی اسپیرمن، همبستگی پیرسون، شباهت کسینوسی و فاصله اقلیدسی برای ایجاد این شبکه استفاده کردیم. این رویکرد به ما امکان داد تا روابط پیچیده بین عوامل مختلف را که ممکن است در روش‌های سنتی نادیده گرفته شوند، شناسایی و تحلیل کنیم. نتایج ما نشان داد که ترکیب تکنیک‌های پیشرفته تحلیل گراف با الگوریتم‌های یادگیری ماشین می‌تواند به طور قابل‌توجهی توانایی ما را در پیش‌بینی و مدیریت این بیماری پیچیده افزایش دهد. ما از هشت الگوریتم مختلف یادگیری ماشین شامل RandomForestClassifier،LogisticRegression ، SVM، KNeighborsClassifier، GradientBoostingClassifier، MLPClassifier، AdaBoostClassifier و DecisionTreeClassifier استفاده کردیم. با استفاده از روش بالانس کردن SMOTE و معیار شباهت جاکارد در ترکیب با الگوریتم‌های GradientBoosting و AdaBoost، توانستیم به بالاترین دقت ۰٫۹۹۷۰ دست یابیم. همچنین در سایر معیارها نیز نتایج قابل توجهی به دست آمد، از جمله در همبستگی پیرسون و اسپیرمن با RandomForest (به ترتیب با دقت ۰٫۹۴۷۹ و ۰٫۹۴۶۴). بااین‌حال، روش ما محدودیت‌هایی نیز دارد که باید در کارهای آتی موردتوجه قرار گیرند. تعداد ویژگی‌های استفاده شده در این مطالعه محدود بود و استفاده از مجموعه‌داده‌های بزرگ‌تر با تعداد ویژگی‌های بیشتر می‌تواند نتایج را بهبود بخشد. همچنین، استفاده از روش‌های پیشرفته‌تر مانند شبکه‌های عصبی گرافی (GNN) می‌تواند در کارهای آتی مورد بررسی قرار گیرد. این روش‌ها می‌توانند به استخراج ویژگی‌های پیچیده‌تر و درک عمیق‌تر ساختار شبکه کمک کنند. علاوه بر این، اعتبارسنجی نتایج در مجموعه‌داده‌های مستقل و بزرگ‌تر می‌تواند به افزایش اطمینان از قابلیت تعمیم روش پیشنهادی کمک کند. در مجموع، این پژوهش می‌تواند منجر به تشخیص زودهنگام دقیق‌تر و بهبود مراقبت از بیمار شود و گامی مهم در جهت مقابله با چالش‌های ناشی از بیماری آلزایمر باشد.
تشخیص بیماری قلبی با استفاده همزمان از سیگنال‌های الکتروکاردیوگرام و داده‌های دموگرافیک
1403
بیماری‌های قلبی-عروقی یکی از اصلی‌ترین علل مرگ و میر در جهان هستند و تشخیص به موقع و دقیق آنها می‌تواند نقش حیاتی در کاهش عوارض و بهبود کیفیت زندگی بیماران داشته باشد. در سال‌های اخیر، پیشرفت‌های چشمگیر در حوزه محاسباتی و یادگیری ماشین، افق‌های جدیدی را در زمینه تشخیص بیماری‌های قلبی گشوده است. روش‌های محاسباتی پیشرفته، با توانایی پردازش حجم عظیمی از داده‌ها و شناسایی الگوهای پیچیده، امکان تشخیص سریع‌تر و دقیق‌تر را فراهم کرده‌اند. در این میان، استفاده از سیگنال‌های الکتروکاردیوگرام (ECG) در کنار داده‌های دموگرافیک، به عنوان یک رویکرد جامع، توجه بسیاری از محققان را به خود جلب کرده است. این پژوهش در راستای بهره‌گیری از این پتانسیل و ارائه روشی نوین برای بهبود دقت و کارایی تشخیص بیماری‌های قلبی انجام شده است. این پژوهش با هدف ارائه روشی نوین برای تشخیص بیماری‌های قلبی با استفاده از گراف‌های پدیداری و شبکه‌های عصبی گرافی انجام شده است. در این مطالعه، از مجموعه داده PTB-XL شامل اطلاعات دموگرافیک و سیگنال‌های الکتروکاردیوگرام (ECG) 12 کاناله استفاده شد. روش پیشنهادی شامل مراحل پیش‌پردازش داده‌ها، تبدیل سیگنال‌های ECG به گراف‌های پدیداری افقی، ترکیب گراف‌ها، استخراج ویژگی با استفاده از شبکه‌های عصبی گرافی (GNN)، و ادغام ویژگی‌های استخراج شده با داده‌های دموگرافیک هست. سه روش مختلف برای استخراج ویژگی مورد بررسی قرار گرفت: استفاده از اطلاعات سیگنال، استفاده از اطلاعات ساختاری گراف، و استفاده همزمان از اطلاعات سیگنال و ساختاری. در مرحله نهایی، از الگوریتم‌های یادگیری ماشین پیشرفته مانند Bagging Classifier و Hist Gradient Boosting برای طبقه‌بندی استفاده شد. نتایج نشان داد که هر سه روش عملکرد قابل توجهی داشتند، با دقت‌هایی بالاتر از 99.8% و مقادیر AUC نزدیک به 1.0. روش ترکیبی که از هر دو نوع اطلاعات سیگنال و ساختاری استفاده می‌کرد، بهترین عملکرد را نشان داد. این امر نشان می‌دهد که ترکیب این دو نوع اطلاعات می‌تواند به استخراج ویژگی‌های غنی‌تر و در نتیجه تشخیص دقیق‌تر بیماری‌های قلبی منجر شود. استفاده از گراف‌های پدیداری افقی برای نمایش سیگنال‌های ECG نقش مهمی در موفقیت این رویکرد داشت، زیرا این گراف‌ها توانستند الگوهای پیچیده موجود در سیگنال‌های ECG را به شکلی قابل پردازش برای شبکه‌های عصبی گرافی درآورند. با وجود نتایج امیدوارکننده، این پژوهش با چالش‌هایی نظیر پیچیدگی محاسباتی، نیاز به منابع قوی، و محدودیت در تفسیرپذیری مدل مواجه بود. با این حال، این مطالعه گامی مهم در جهت بهبود تشخیص بیماری‌های قلبی با استفاده از تکنیک‌های پیشرفته محاسباتی و یادگیری ماشین و یادگیری عمیق برداشته است. انتظار می‌رود که با رفع محدودیت‌های موجود و انجام مطالعات گسترده‌تر، این روش بتواند به عنوان ابزاری موثر در کنار متخصصان قلب برای تشخیص دقیق‌تر و سریع‌تر بیماری‌های قلبی مورد استفاده قرار گیرد.
Web page Classification using Network Analysis Approach
1403
Web page classification is a fundamental task in the field of web mining, playing a crucial role in organizing and managing the vast amount of information available on the internet. As the web continues to grow exponentially, the need for accurate and efficient classification methods becomes increasingly important. Proper categorization of web pages enables more effective information retrieval, enhances search engine performance, and facilitates content management across various domains. However, the dynamic nature of web content, diverse page structures, and the sheer volume of data pose significant challenges to traditional classification approaches. This thesis addresses these challenges by proposing a novel method that combines network analysis with conventional content-based techniques, aiming to improve the accuracy and robustness of web page classification systems. This thesis presents a novel approach to web page classification, addressing the challenges posed by the dynamic and complex nature of web content. By integrating graph-based features with traditional content-based methods, we develop a more robust and accurate classification system. Our methodology involves constructing network graphs from web page datasets, extracting centrality measures, and incorporating these as additional features for machine learning algorithms. We utilize the Dmoz dataset, a comprehensive web directory, to train and evaluate various classification algorithms. Our approach employs both Pearson and Spearman correlation methods to capture linear and monotonic relationships between web pages. We compare the performance of multiple machines learning algorithms, including Naive Bayes, Decision Trees, Support Vector Machines, and ensemble methods such as Random Forests and Gradient Boosting. The results demonstrate significant improvements in classification accuracy compared to existing methods. Our best-performing model, the Histogram-Based Gradient Boosting Classifier, achieves an accuracy of 77.17% using the Spearman method, outperforming previous benchmarks. We provide a comprehensive analysis of classifier performance using multiple metrics, including precision, recall, F1-score, and Area Under the Curve (AUC). This research contributes to the field of web mining by offering a more adaptable and efficient approach to web page classification. The integration of graph-based features enhances the model's ability to capture complex relationships between web pages, leading to improved classification accuracy. Our findings have important implications for various applications, including search engine optimization, content management, and information retrieval systems. The thesis concludes by discussing the limitations of the current approach and proposing future research directions, including the integration of deep learning techniques, exploration of dynamic graph analysis, and investigation of multi-modal classification methods.
A novel method for Multilayer link prediction using GNN
1403
Graph Neural Networks (GNNs) have proven to be highly effective for various graph-related tasks, including link prediction. However, most existing GNN-based methods are designed for single-layer graphs, which include only nodes and links of a single type. This limitation poses a significant challenge, as many real-world applications, such as social networks, involve multilayer graphs with multiple types of edges between nodes. Addressing the need for effective multilayer link prediction is crucial for better performance and insights in these complex networks. To tackle this issue, we have proposed a novel method for multilayer link prediction using GNNs. Our approach begins with transformation multilayer networks into flat network by leverages three different kinds of features: graph features, community features, and embedding features. By integrating these features with the most effective GNN model, we can capture the intricacies of multilayer graphs. We employ a Multilayer Perceptron (MLP) as the decoding mechanism, which enhances the prediction process. This methodology ensures a comprehensive analysis of the multilayer graph structure, facilitating more accurate link predictions. We evaluated our proposed model on six real-world multilayer datasets, demonstrating its effectiveness in handling the complexities of multilayer link prediction. Our results show that our model outperforms other existing models, highlighting its robustness and reliability. The successful application of our method to these diverse datasets underscores its potential for broad applicability in various real-world scenarios, marking a significant advancement in the field of graph-based machine learning.
بهبود یافتن کراوات ضعیف توسط کشف اجتماع ناشی از خوشه‌بندی قله تراکم
1403
امروزه شناسایی پیوندهای ضعیف به دلیل بار اطلاعاتی بالایی که دارند، اهمیت زیادی پیدا کرده است. این پدیده به ویژه در شبکه‌های اجتماعی و تحقیقات اجتماعی توسعه یافته است. پیوندهای ضعیف اغلب به عنوان پل‌های ارتباطی بین گروه‌ها یا جوامع مختلف عمل می‌کنند. این ارتباطات ضعیف، فرصت‌های جدید شناختی و اجتماعی را فراهم می‌کنند که ممکن است به ایجاد ایده‌های نوآورانه، همکاری‌های پژوهشی یا حتی فرصت‌های شغلی منجر شود. در این پژوهش، ما با ترکیب دو حوزه علمی، یعنی تشخیص جوامع و پیش‌بینی پیوند به شناسایی پیوندهای پراهمیت در شبکه‌های بزرگ و کوچک از پایگاه‌داده networkrepository پرداخته ایم. برای روش تشخیص جوامع از روش خوشه‌بندی قله تراکم استفاده می‌کنیم که از مزایای خودکار بودن در تعیین تعداد خوشه‌ها و مستقل بودن از اندازه و شکل خوشه‌ها بهره می‌برد. یکی از چالش‌های استفاده از این روش برای تشخیص اجتماعات این است که ورودی به صورت ماتریس فاصله است، در حالی‌که در شبکه ورودی به صورت ماتریس مجاورت است. با این حال، با بهره‌گیری از کارهای پیشین انجام شده در این زمینه، ما به موفقیت در حل این چالش دست یافتیم. پس از انجام خوشه‌بندی بر روی شبکه مورد نظر، پیوندهای بین خوشه‌ها به عنوان پیوندهای ضعیف معرفی می‌شوند. سپس، برای مرتب‌سازی پیوندهای ضعیف از پراهمیت‌ترین تا کم‌اهمیت‌ترین، از پیشگویی پیوند معکوس برای امتیازدهی استفاده می‌کنیم. در پایان، با استفاده از معیار ماژولاریتی، به ارزیابی تشخیص جوامع روش خود نسبت به یک روش رقیب پرداختیم. نتایج نشان دادند که در اکثر مجموعه‌داده‌ها، روش ما برتری داشته است. سپس، با بهره‌گیری از معیار Efficiency، به بررسی اهمیت پیوندهای ضعیف شناسایی شده در این پژوهش و کارهای قبلی پرداختیم. نتایج نشان داد که در شبکه‌های کوچک، روش ما همواره برتری داشته ولی در شبکه‌های بزرگ، گاهاً در یک مورد ممکن است به علت خصوصیات خاص شبکه، مغلوب روش رقیب شویم.
Graph-Based Improvement of Student Performance Prediction
1403
Educational data analysis faces the challenge of optimizing predictive models for student performance. While traditional statistical and machine learning methods dominate, graph-based data representations remain underexplored. Graphs offer holistic insights into students’ learning journeys, revealing patterns beyond conventional models. The surge in educational data underscores the need to harness it effectively for student outcomes. This research Graph-Based Improvement of Student Performance Prediciton (GBISPP) bridges the gap by investigating graph-based methodologies for performance prediction. These techniques make relationships among students, courses, and resources, aiming to enhance predictive accuracy. In our study, After pre-processing and converting the data to graph. Then, we started by setting a threshold of (0.75), and we used (Gaussian filter) and (Spearman correlation) similarities for our research process. Then we added graph features (Cluster Coefficient, Betweenness Centrality, Eigenvector Centrality, Degree Centrality, Closeness Centrality, Average Weighted Degree, Average Clustering, Density, and Degree). The outcomes of our study for the five algorithms employed (Random Forest, Naïve Bayes, Decision Tree, AdaBoost, and SVM) are displayed, The Random Forest recorded the highest accuracy it was (86.34). For the data analysis process we used (5000) records in the Open University Learning Analytics Dataset (OULAD) from Kaggle, we focused on ‘studentInfo’ and ‘studentAssessment’ tables. This reliable source contributes to educational research in Educational Data Mining (EDM).
بهبود یک سیستم توصیه گرمحصولات دنباله‌دار با استفاده از گراف سه‌بخشی و پیش بینی لینک
1402
سیستم‌های توصیه‌گر مبتنی بر گراف سه‌بخشی و پیش بینی لینک، به عنوان یک رویکرد نوآورانه در زمینه توصیه محتوا به کاربران شناخته می‌شوند. این سیستم‌ها از ارتباطات بین کاربران، محصولات و ویژگی‌ها به عنوان یک گراف سه‌بخشی بهره می‌برند و با پیش بینی لینک‌های جدید در این گراف، محتواهای مناسب به کاربران توصیه می‌شود. پیش بینی لینک در اینجا به معنای پیش بینی احتمال وجود ارتباط بین کاربران و محصولات است. این مدل‌ها به خوبی می‌توانند پیچیدگی روابط مختلف را در گراف مدل‌سازی کنند و احتمال وجود اتصالات میان عناصر را محاسبه کنند. این اطلاعات به سیستم توصیه‌گر کمک می‌کنند تا محصولات مرتبط با ترجیحات کاربران را با دقت بیشتری پیشنهاد دهند. هدف از ارائه این پژوهش بهبود یک سیستم توصیه‌گر محصولات دنباله‌دار با استفاده از گراف سه‌بخشی و پیش بینی لینک است، نتایج نشان دادند که سیستم توصیه‌گر مبتنی بر گراف سه‌بخشی و پیش بینی لینک بهبود قابل توجهی در دقت پیش بینی ، تنوع محتوا و ارائه محتواهای دنباله‌دار نسبت به سیستم‌های مبتنی بر کاربر و محصول دارند. این ارتقاء‌ها به دلیل توانایی این سیستم‌ها در درک ارتباطات پیچیده بین کاربران و محصولات و همچنین بهبود در پیش بینی لینک‌های مهم در گراف سه‌بخشی است. همچنین، مشخص شد که سیستم‌های توصیه‌گر مبتنی بر گراف سه‌بخشی معمولاً به دلیل بهبود پیش بینی لینک‌ها، تنوع محتوا و ارائه محتواهای دنباله‌دار، عملکرد بهتری در دقت پیش بینی و تنوع محتوا دارند. این امر به دلیل قابلیت‌های منحصربه‌فرد این سیستم‌ها در مدل‌سازی ارتباطات و ویژگی‌های پیچیده است.
بهبود کارایی پیش‌بینی پیوند چندلایه با استفاده موثر از کشف اجتماع و مرکزیت
1402
یکی از موضوعاتی که به شدت در تحلیل شبکه مورد مطالعه قرار گرفته است، مسئله پیش‌بینی پیوند است که اهمیت فراوانی در مسائل زیستی، علمی و شبکه‌های اجتماعی و ... دارد و عبارت است از: امتیاز دادن به یال‌های غیرموجود. نوع خاصی از پیش‌بینی پیوند که کاربردهای زیادی دارد، پیش‌بینی پیوند در شبکه‌های چند لایه است که دو نوع اصلی از شبکه‌های چندلایه عبارتنداز: 1) شبکه‌های چندگانه که در آن تعداد و نوع گره‌ها در تمام لایه‌ها یکسان بوده و پیوند‌های بین‌لایه‌ای که گره‌ها را در دو لایه به‌هم متصل می‌کند به صورت یک به یک است و در واقع گره‌های با ماهیت یکسان را به‌هم متصل می‌کند و اما 2) شبکه‌های به‌هم پیوسته که در آن تعداد و نوع گره‌ها در لایه‌ها لزوما یکسان نیست و همچنین پیوند‌‌های بین‌لایه‌ای غیر یک ‌به یک بوده و گره‌های با ماهیت متفاوت را به‌هم متصل می-کند و همچنین هر گره از هر لایه می‌تواند به هر گره از لایه دیگر متصل شود. پیش‌بینی پیوند در شبکه‌های چند لایه به دو صورت انجام می‌پذیرد: 1) پیش‌بینی پیوند درون لایه‌ای که در آن پیوند‌های ناموجود در درون یک لایه پیش‌بینی می‌شود و 2) پیش‌بینی پیوند بین لایه‌ای که در آن پیوندهای بین لایه‌ای ناموجود بین دو لایه مختلف پیش‌بینی می‌شود. بیشتر مطالعاتی که تاکنون انجام شده است بر پیش‌بینی پیوند درون لایه‌ای تمرکز داشته‌اند و مطالعه در زمینه پیش‌بینی پیوند بین لایه‌ای هنوز در مراحل اولیه است و اینکه مطالعاتی که تاکنون در زمینه پیش‌بینی پیوند بین لایه‌ای انجام شده‌اند همگی بر روی شبکه-های چندگانه که در واقع زیر مجموعه‌ای از شبکه چند لایه است با کمینه تعداد لایه (2 لایه) کار کرده‌اند، به همین دلیل در این پایان‌نامه ما پیش‌بینی پیوند بین لایه‌ای را در شبکه‌های چند لایه به‌هم پیوسته بدون محدودیت در تعداد و نوع گره‌ها در لایه‌ها، تعداد لایه‌ها و تعداد پیوندهای بین لایه‌ای انجام می‌دهیم. برای این کار از سه رویکرد: 1) تبدیل شبکه چند لایه به شبکه‌های مسطح 2) کاهش شبکه چند لایه به شبکه‌های دو بخشی و 3) بهره‌‌گیری از کشف اجتماع و مرکزیت برای انجام پیش‌بینی پیوند بین لایه‌ای کمک می‌گیریم. الگوریتم‌های مورد استفاده در پیش‌بینی پیوند، الگوریتم‌های پایه: همسایگان مشترک، ضریب جاکارد، پیوست ترجیحی و آدامیک آدار هستند و رویکرد کشف اجتماع استفاده شده در این کار، الگوریتم‌ معروف گیروان-نیومن است. همچنین از معیار مرکزیت نزدیکی برای تعیین اهمیت گره‌ها، استفاده شده است. مجموعه داده‌های استفاده شده در این کار شامل: شبکه‌ 3 لایه برگرفته از متن فیلم‌نامه، فیلم معروف "The Avengers 2012" و شبکه‌های 3، 4 و 5 لایه سریال "Star Wars" است. در نهایت نتایج دقت رویکردهای پیشنهادی در چهار فاز: 1) پیش‌بینی پیوند بین لایه‌ای از طریق شبکه مسطح، 2) پیش‌بینی پیوند بین لایه‌ای از طریق شبکه دو بخشی، 3) پیش‌بینی پیوند بین لایه‌ای از طریق ترکیب نتایج رویکرد اول و دوم برای بهبود نتایج دقت پیش‌بینی پیوند از طریق شبکه دو بخشی و 4) پیش‌بینی پیوند بین لایه‌ای از طریق ترکیب نتایج رویکرد اول و دوم و سوم که بهره‌گیری از کشف اجتماع و مرکزیت است، ارائه می‌شود که به طور کلی هدف از ارائه فاز سوم و چهارم که برای محاسبه دقت از ترکیب نتایج رویکردهای پیشنهادی استفاده می‌کنند، بهبود دقت نتایج فازهای اول و دوم است و با توجه به نتایج ارائه شده بهترین عملکرد مربوط به فاز سوم (پیش‌بینی پیوند بین لایه‌ای از طریق ترکیب رویکرد مسطح نمودن شبکه و کاهش به شبکه دوبخشی) است. همچنین بهترین نتایج برای AUC برای شبکه چهار لایه Star Wars 3 و شبکه پنج لایه Star Wars 2 با مقدار بیش از 0.9 برای فازهای سوم و چهارم به ازای هر چهار معیار امتیازدهی پیش‌بینی پیوند بدست آمد.
تحلیل و تشخیص بیماری‌های مرتبط با مغز بر اساس روش‌های مبتنی بر کاوش گراف
1402
داده‌های مرتبط با بیماری‌های مغز از روش‌های مختلف و در قالب‌های متنوعی تهیه می‌شوند که از جمله آن می‌توان به داده‌های بالینی و اطلاعات سلامت بیماران (EHR)، تصویربرداری مغزی، اطلاعات ژنتیکی و سری‌های زمانی حاصل از ثبت علایم اشاره کرد. ثبت علایم مغز که عمدتا در قالب سری‌های زمانی است، تاکنون به صورت وسیع برای تشخیص انواع بیماری‌ها توسط روش‌های یادگیری ماشین مورد بررسی قرار گرفته است. نگاه گرافی به داده‌های سری زمانی مرتبط با مغز در ده سال اخیر رواج فراوانی یافته است، که رایج‌ترین شکل آن، تبدیل سری زمانی سیگنال‌های مغز به گراف پدیداری است و به این ترتیب تحلیل گراف پدیداری مغز برای بیماری‌های آن، اکنون روشی کارآمد و شناخته شده به حساب می‌آید. این پایان‌نامه به بررسی روش‌های نوین تحلیل و طبقه‌بندی سیگنال‌های الکتروانسفالوگرام (EEG) به منظور تشخیص خودکار تشنج در بیماران مبتلا به صرع می‌پردازد. صرع یک بیماری مغزی شایع است که باعث بروز حملات تشنجی می‌شود. مجموعه‌داده استفاده شده در این پژوهش در دانشگاه بون به‌دست‌آمده و به صورت عمومی در دسترس است. این مجموعه داده شامل پنج گروه است که ما به بررسی دقت تشخیص در بین دو گروه D و E که به ترتیب برای افراد مبتلا به صرع در فواصل بدون تشنج و تشنج است، خواهیم پرداخت. تشخیص تشنج صرع مبتنی بر EEG است که الگوهای پیچیده فعالیت‌های الکتریکی مغز را ثبت می‌کند. تحلیل دستی EEG برای تشخیص تشنج زمانبر و خطاپذیر است. در این پژوهش ابتدا به معرفی ساختار و عملکرد مغز و نقش سیگنال‌های EEG در بررسی اختلالات مغزی پرداخته می‌شود. سپس اهمیت تشخیص به‌موقع تشنج و چالش‌های موجود در تحلیل دستی EEG مورد بحث قرار می‌گیرد. آنگاه مجموعه داده مورد بررسی به گراف پدیداری افقی تبدیل می‌شود و برای افزایش کیفیت تبدیل، از پیش‌بینی پیوند برای بهبود ساختار شبکه ایجاد شده بهره گرفته می‌شود. آنگاه نسبت به شناسایی و استخراج موثرترین ویژگی‌های گراف‌های حاصل شده مشتمل بر جمله ضریب خوشه‌بندی، چگالی و شاخص پیچیدگی اقدام می‌شود. سپس با به‌کارگیری الگوریتم‌های مختلف طبقه‌بندی،SGD، KNN و SVM با کرنل RBF تشنج در بیماران مبتلا به صرع تشخیص داده می‌شود. نتایج حاکی از تاثیر مثبت بهبود ساختار شبکه با پیش‌بینی پیوند، قبل از اعمال روش‌های طبقه‌بندی و حصول دقت بالاست. این شیوه نسبت به سایر روش‌های تشخیص محاسباتی بیماری‌های مغز دارای پیچیدگی زمانی کمتر و کارآمدی بالاتر است و می‌تواند به پزشکان در تشخیص سریع‌تر صرع و کنترل حملات تشنجی کمک کند. در نهایت با توجه به تنوع روش‌های پیش‌بینی پیوند و انتخاب ویژگی و همچنین بیماری‌های مختلف مرتبط با مغز که داده در قالب سری زمانی دارند، می‌توان توسعه‌های آتی متنوعی برای این پژوهش تعریف نمود.
بهبود پیش‌بینی پیوند وزنی با استفاده از الگوریتم‌های تشخیص اجتماع
1402
پیش‌بینی پیوند وزن‌دار یک مسئله در شبکه‌های پیچیده و پویا است که به پیش‌بینی ایجاد یا قطع ارتباطات بین گره‌ها می‌پردازد. این مسئله کاربردهای گسترده‌ای در حوزه‌های مختلف از جمله شبکه‌های اجتماعی آنلاین، بازیابی اطلاعات، تجارت الکترونیک، بیوانفورماتیک و غیره دارد. برای رسیدن به این هدف، از روش‌های مختلفی استفاده شده است. یکی از این روش‌ها، استخراج ویژگی‌های ساختاری شبکه (ها) است. به این معنی که یک یا چند ویژگی از ساختار شبکه برای پیش‌بینی ایجاد ارتباط جدید بین گره‌ها مورد استفاده قرار می‌شود. روش‌های پیش‌بینی پیوند وزن‌دار بدون ناظر، عمدتا مبتنی بر پردازش اطلاعات همسایگان مشترک یا تعداد آن‌ها هستند که روش‌های جاکارد، همسایگان مشترک، آدامیک/آدار و الحاق ترجیحی از رایج‌ترین آن‌ها به شمار می‌روند. با توجه به اینکه روش‌های کشف اجتماع رایج نیز از اطلاعات ساختاری و همسایگی گره‌ها برای یافتن بیشینه شباهت آن‌ها استفاده می‌کنند، تاکنون پژوهش‌هایی برای بهبود دقت پیش‌بینی پیوند با کمک کشف اجتماع صورت گرفته است. در این پژوهش با دو ایده جدید زیر، نسبت به بازتعریف روش‌های پیش‌بینی پیوند اقدام خواهیم کرد: لحاظ کردن امتیاز بیشتر برای همسایگان مشترک دو گره که اجتماع مشترک دارند و لحاظ کردن بزرگترین اجتماع دربرگیرنده بیشترین تعداد همسایگان مشترک. بدین ترتیب تراکم همسایه‌های مشترک در اجتماعاتی که از روش‌های رایج کشف جامعه مانند گیروان نیومن، لووین و الگوریتم انتشار برچسب ناهمزمان حاصل می‌شوند، سبب بهبود پیش‌بینی پیوند خواهند شد. پس از پیاده‌سازی دو ایده پیشنهادی در این پژوهش، ارزیابی مبتنی بر محاسبه AUC نشان می‌دهد که نتایج پیش‌بینی پیوند وزن‌دار در مجموعه داده‌های Animal Social، USAir، Celegans و Net Science بهبود یافته است. به عنوان مثال، در مجموعه داده Animal Social، استفاده از ترکیب روش‌های آدامیک/آدار و لووین منجر به بهبود 18.5 درصدی شده است. همچنین، در مجموعه داده USAir، استفاده از ترکیب روش‌های آدامیک/آدار و گیروان-نیومن بهبود 5.5 درصدی را نشان داده است. در نتیجه، در مجموعه داده Net Science، استفاده از ترکیب روش‌های آدامیک/آدار و لووین نسبت به رویکرد CCNI_FCNI_DS در مقاله رقیب، بهبود 0.5 درصدی داشته است. در رویکرد تجربی که در مقاله کومار و همکاران آمده است، در دیتاست USAir، استفاده از روش‌های ترکیبی به صورت میانگین منجر به بهبود 29.21 درصدی گردیده است و در دیتاست مشترک Celegans نیز استفاده از روش های ترکیبی به صورت میانگین 13.85 درصد نسبت به روش مقاله مرجع بهبود یافته است. تمامی روش‌های پیش‌بینی پیوند وزن‌دار و روش‌های تشخیص اجتماع مورد استفاده در این تحقیق، در بهبود نتایج نقش مهمی ایفا کرده‌اند. روش آدامیک/آدار بیشترین بهبود را در میان روش‌های پیش‌بینی پیوند داشته است، و روش‌های لووین و گیروان-نیومن به ترتیب بیشترین بهبود را در میان روش‌های تشخیص اجتماع ارائه داده‌اند. توسعه‌های آتی این پژوهش می‌تواند گسترش حیطه به روش‌های با ناظر یا بهره‌گیری از روش‌های قوی‌تر مبتنی بر پردازش مسیر و لحاظ نمودن ویژگی‌های سراسری گراف باشد. همچنین می‌توان معیارهای ارزیابی بیشتری مانند مولفه‌ای بودن یا اطلاعات متقابل را نیز مورد آزمون قرار داد. علاوه بر آن می‌توان بر روی روش‌هایی کار کرد که پیش‌بینی همزمان یال و وزن‌ آن را پوشش دهند.
روش جدید تشخیص وب‌سایت‎‌های فیشینگ با استفاده تکنیک‌های تحلیل شبکه‌های پیچیده
1402
حملات فیشینگ یکی از مخرب‌ترین و گسترده‌ترین تهدیدهای امنیتی در فضای مجازی امروزه محسوب می‌شوند که عمدتاً ایمیل، موسسات مالی، پرداخت‌ها، رسانه‌های اجتماعی و تجارت الکترونیک را هدف قرار می‌دهند. این حملات با بهره‌گیری از مهندسی اجتماعی و تقلید از برندهای معتبر، کاربران را فریب می‌دهند تا اطلاعات حساس خود را در اختیار مهاجمان قرار دهند. طبق آمارهای ارائه شده توسط گروه کاری ضد فیشینگ، تنوع و تعداد این حملات به طور فزاینده‌ای در حال افزایش است. با توجه به پیچیدگی و تنوع روزافزون حملات فیشینگ، نیاز به توسعه راهکارهای نوین و موثر برای تشخیص به موقع این حملات به شدت احساس می‌شود. روش های محاسباتی مختلفی تاکنون برای شناسایی وب‌سایت‌های فیشینگ عرضه شده اند که عمدتا مبتنی بر شباهت یا یادگیری عمیق هستند. در این پایان‌نامه، روش‌های مختلف ضد فیشینگ برای جمع‌آوری تکنیک‌های مبتنی بر گراف بررسی شده است و با در نظر گرفتن محدودیت‌ها و کمبودهای روش‌های پیشین تشخیص فیشینگ که مبتنی بر گراف هستند، یک رویکرد جدید پیشنهاد شده است که شامل ایجاد دو گراف مجزای وزن‌دار بر اساس مجموعه داده‌های قانونی و فیشینگ است. این رویکرد ویژگی‌های مبتنی بر URL را از دو مجموعه داده انتخاب می‌کند و بر اساس ضریب همبستگی بین این ویژگی‌ها، یک گراف به ازای هر یک از مجموعه داده‌ها ایجاد می‌کند. پس از فیلترکردن یال‌های ضعیف، ویژگی‌های مبتنی بر تحلیل شبکه های پیچیده، مانند ضریب خوشه‌بندی، شاخص‌های مرکزیت وغیره استخراج می‌شوند و مهم‌ترین ویژگی‌ها به عنوان ورودی برای طبقه‌بندی‌ و تمایز بین وب‌سایت‌های قانونی و فیشینگ انتخاب می‌شوند. علاوه بر این، معیارهای ارزیابی مانند دقت، صحت، اندازه گیری F1-Score و ROC برای کشف بهترین طبقه‌بند استفاده می‌شود. نتایج نشان می‌دهد روش پیشنهادی دقت 99.57% در تشخیص وب‌سایت‌های فیشینگ دارد که بالاتر از روش‌های مشابه است. همچنین قابلیت تشخیص وب‌سایت‌های فیشینگ جدید و ناشناخته را دارد. از کارهای آتی این پژوهش می‌توان به تشکیل گراف ناهمگن برای لحاظ کردن همزمان ویژگی‌های مرتبط با فشینگ و قانونی وبسایت‌ها اشاره نمود. همچنین می‌توان ویژگی‌های موخر یا سراسری گراف‌ها را نیز در عملکرد طبقه‌بندها لحاظ نمود.
Improving Community Detection Using Mixed Link Prediction
1402
Community detection means dividing the nodes in complex networks into different groups. Nodes within the same group are closely connected, while nodes in different groups have fewer connections. Community detection is fundamental problem in network analysis, aiming to uncover the underlying structures and organization within complex networks. Traditional methods focus on network topology, neglecting valuable information contained in different types of links. Improving the network structure purposefully can result in better outcomes in community detection. In this study, we have utilized mixed link prediction as a technique to enhance the network structure. Our goal was to eliminate any noise in the network and restore any missed links without altering the number of nodes and edges. We then proceeded to apply various community detection algorithms to compare the quality of the results. To ensure the generality of our approach, we chose the most popular community detection methods (Louvain, Giravan Newman, and Fast Greedy) and link prediction ranking formulas (Common Neighbors, Jaccard Coefficient, Adamic/Adar, Preferential Attachment, and Recourse Allocation) as the core of mixed link prediction. To evaluate the effectiveness of our proposed method, we test it on four different real-world datasets from various domains based on modularity and normalized mutual information measures. Our findings demonstrate that our novel framework for community detection using mixed link prediction improves community detection results in most cases. The success rate also depends on the network properties. Furthermore, this approach has the potential to be extended to stronger community detection and link prediction methods in future researches.
بهبود کیفیت تبدیل سری زمانی به گراف‌ پدیداری نفوذپذیر محدود با ایجاد نسخه وزن‌دار و پیش‌بینی پیوند
1401
امروزه تحلیل سر‌ی‌های زمانی از منظر شبکه پیچیده، علاقه بسیاری از پژوهشگران را برانگیخته است. برای تبدیل نوع داده سری زمانی به شبکه (گراف) روش‌های مختلفی وجود دارد که رایج‌ترین آن‌‌ها استفاده از گراف پدیداری است. در یک دسته‌بندی کلی، خانواده الگوریتم‌های گراف پدیداری شامل گراف پدیداری طبیعی(NVG)، افقی(HVG) و نفوذپذیر محدود(LPVG) است که هر یک به اقتضای نیاز پژوهشگر و موضوع مورد پژوهش می‌توانند مفید واقع شوند. گراف‌های پدیداری کاربردهای متعددی در شناخت و کشف ویژگی‌های خاص سری‌های زمانی و حتی پیشگویی مقادیر آتی آن‌ها دارند.‌‌ زمینه‌های انجام پژوهش در این حیطه، تحلیل رفتار سری زمانی، پیش‌بینی رفتار سری زمانی، بهبود کیفیت تبدیل سری زمانی و توسعه مفهوم به گراف‌های پیچیده‌تر است. حاصل اعمال الگوریتم گراف پدیداری بر داده‌های سری زمانی، گرافی ساده است و دقت انجام چنین کاری نیز صد درصد نیست. دراین راستا، گراف پدیداری نفوذپذیر محدود(LPVG)، به عنوان یک نسخه قوی‌تر با مقاومت بیشتر نسبت به نویز ارائه شد. همچنین گراف ساده‌ حاصل از تبدیل، ممکن است منعکس کننده ماهیت اصلی داده‌های سری زمانی نباشد و گراف غنی‌تری از نظر اطلاعات موجود، برای نمایش نیاز باشد. لذا تاکنون نسخه وزن‌دار گراف پدیداری ساده نیز عرضه و کارایی آن به اثبات رسیده است. با توجه به امکان وزن‌دار کردن گراف پدیداری نفوذپذیر محدود که تاکنون انجام نشده است و امکان بهر‌ه‌برداری از روش‌های کاهش نویز در گراف مبتنی بر پیشگویی پیوند، هنوز راه برای بهبود تبدیل داده‌های سری زمانی به گراف پدیداری باز است و افزایش دقت و کیفیت تبدیل، کماکان یک چالش کلیدی محسوب می‌شود. اولین مرحله، تبدیل نوع داده سری‌های زمانی به گراف پدیداری نفوذپذیر محدود(نسخه قوی‌تری از گراف پدیداری طبیعی) است. سپس از سه روش وزن‌دار کردن فاصله اقلیدسی، تانژانت زاویه دید و فاصله زمانی برای ساخت گراف وزن‌دار استفاده شده است. در مرحله بعد با اعمال پیش‌بینی پیوند، سعی در بهبود هرچه بیشتر کیفیت گراف شده است. برای امتیازدهی به ارتباطات در پیش‌بینی پیوند از معیارهای شباهت همسایگان مشترک، اتصال ترجیحی و ضریب جاکارد در نسخه وزن‌دار پیشنهاد و ارزیابی شده است. برای اثبات اعتبار روش پیشنهادی، سه مجموعه داده سری زمانی Taiex، فروش خانه و فروش شامپو اتخاذ شده است که در آن از معیار مبتنی بر پیش‌بینی پیوند AUC برای ارزیابی عملکرد گراف وزن‌دار استفاده می‌شود. نشان داده شده است که در گراف وزن‌دار ساخته شده با روش‌های پیشنهادی و اعمال پیش‌بینی پیوند، مقدار AUC حداکثر تا 0.99376 افزایش می‌یابد و تا حد زیادی بهتر از گراف بدون وزن به دست آمده توسط نظریه گراف پدیداری نفوذپذیر محدود عمل می‌کند.
تحلیل گراف پدیداری داده‌های آموزشی
1401
داده‌های سری زمانی آموزش الکترونیک مانند داده‌های جریان کلیک و داده‌های بایگانی اهمیت زیادی در رابطه با کشف الگوی‌های رفتاری دانشجویان آن سامانه‌ها دارد. شناخت و تحلیل این نوع داده‌ها اطلاعات باارزشی در اختیار مدیران سازمان‌های مرتبط می‌گذارد، همانند تشخیص دانشجویان مستعدد ترک تحصیل، شناسایی دانشجویان فعال در پی‌گیری تکالیف علمی، گروه‌بندی دانشجویان براساس شباهت‌های رفتاری، تصمیم‌گیری متناسب با الگوی رفتاری آن‌ها، تشخیص علایق دانش آموزان به یک محتوای آموزشی خاص یا دوره تحصیلی یا یک مدرس خاص براساس فعالیت‌ها و تعاملشان با سامانه و غیره. از طرفی تحلیل گراف پدیداری زمینه‌ای نوظهور در تحلیل شبکه است که تاکنون در زمینه‌هایی مانند پزشکی، اقتصاد، معماری، پردازش تصویر، زمین‌شناسی و برخی زمینه‌های دیگر مطرح شده است که خروجی این بررسی‌ها سبب پیش‌بینی به موقع بیماری‌ها جهت جلوگیری از پیامدهای خطرناک آن‌ها، برآورد بازده بازارهای مالی با برنامه‌ریزی استراتژیک، اصلاح مدل محاسباتی جهت کارایی هزینه‌های بصری و غیره بوده است. همچنین داده‌های سری زمانی آموزش الکترونیک تاکنون در حوزه‌های پژوهشی مانند کشف دانش در سیستم‌های آموزشی، شناسایی الگوهای رفتاری مختلف و پیش‌بینی نتایج آینده و غیره با روش‌های یادگیری ماشین از جمله شبکه عصبی بازگشتی، ماشین بردار پشتیبان و شبکه عصبی مصنوعی مورد تحلیل قرار گرفته‌اند. اما بیشتر پژوهش‌های انجام شده تاکنون بر داده‌های جریان کلیک آموزشی، مبتنی بر روش‌های غیر شبکه‌ای و مرتبط با الگوریتم‌های یادگیری ماشین بوده است. با توجه به اهمیت الگوریتم‌های گراف پدیداری و نقش آن در حیطه تحلیل داده‌های سری زمانی، با نگاشت مناسب آن به حیطه داده‌های آموزشی می‌توان از این پتانسیل بهره برد. هدف این پژوهش توسعه زمینه پژوهشی تحلیل گراف پدیداری به حیله داده‌های آموزشی برای اولین بار است. بدین منظور یک نمونه موردی نیز تعریف و بررسی شده است که عبارت است از تشخیص دانشجویان ضعیف از قوی براساس تحلیل گراف پدیداری داده‌های جریان کلیک سامانه آموزشی براساس معیار‌های تحلیل شبکه مانند مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه و غیره. داده ها از سامانه OULAD که حاوی اطلاعات تعامل کاربران با سامانه آموزشی است، انتخاب شده است. نتایج نشانگر این است که بالاتر بودن مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه در گراف پدیداری حاصل از سری زمانی کلیک دانشجویان، متمایز کننده دانشجو ممتاز از ضعیف و تاییدکننده عدم شباهت رفتاری دانشجویان براساس میانگین کلیک‌هایشان در سامانه است. از طرفی هر سه معیار مذکور با p-valueبسیار پایین نسبت به سایر پارامترها به صورت مشخصی توانستند دانشجویان ممتاز از ضعیف را به درستی تشخیص دهند. میانگین دقت این پارامترها با الگوریتم‌های مختلف یادگیری ماشین با اعتبارسنجی متقاطع ده لایه حاصل شده است. الگوریتم درخت تصمیم با میانگین دقت 78 درصد نسبت به سایر الگوریتم‌ها در تشخیص دانشجویان ممتاز از ضعیف بهتر عمل کرده است.
بهبود تشخیص بدافزار اندروید با استفاده از تکنیک های تحلیل شبکه های پیچیده
1401
سیستم عامل اندروید از محبوب ترین پلتفرم های جهان موبایل است. در حال حاضر، سهم این سیستم عامل از بازار جهانی گوشی های هوشمند %81٫7 است. با توجه به تعداد روزافزون اپلیکیشن های اندروید و پیشرفت های مداوم در تکنیک های توسعه نرم افزار، نیاز به آشکارسازهای بدافزار مقیاس پذیر و انعطاف پذیر وجود دارد که بتواند به طور موثر چالش های کلان داده را برطرف کنند. روش های محاسباتی مختلفی تاکنون برای کشف و شناسایی بدافزارهای اندرویدی عرضه شدە اند که عمدتا مبتنی بر الگوریتم های یادگیری ماشین هستند. به تازگی راهکارهای مبتنی بر تحلیل شبکه با انگیزه افزایش سرعت محاسبات، مقیاس پذیری، جامع نگری و کاهش پیچیدگی عرضه شدە اند که دقت بالایی در تشخیص بدافزار اندروید از خود نشان دادە اند. در این پایان نامه با در نظر گرفتن محدودیت ها و کمبودهای روش های پیشین کشف بدافزارهای اندرویدی که مبتنی بر تحلیل شبکە های پیچیده هستند، راهکاری عرضه شده است که با استخراج توابع و ویژگی های هر اپلیکیشن مشتمل بر مجوزها و فراخوانی های حساس، نسبت به ساخت دو گراف مجزای وزن دار ارتباط بین اپلیکیشن ها در دو حالت سالم و آلوده اقدام می شود و ویژگی های موثر ضریب خوشە بندی، شاخص های مرکزیت و مجموع وزن یال های متصل به هر گره به سایر ویژگی های موجود اضافه می شود تا مبنای طبقە بندی و تفکیک اپلیکیشن آلوده از سالم قرار گیرد. نتایج اجرای طبقە بندهای جنگل تصادفی،درخت تصمیم، رگرسیون لجستیک ،نزدیک ترین همسایه، بیز ساده و... با معیارهای ارزیابی ماتریس درهم ریختگی،حاصل از بهبود دقت کشف بدافزار تا 99 درصد بر دیتاست های Intdroid و 2018 است. علاوه بر آن روش جدید ارائه شده از نظر مقیاس پذیری و سرعت نیز کارایی بهتری دارد. برای توسعه این پژوهش می توان توانایی آن برای تشخیص بدافزارهای جدید دنیای واقعی Ⅾay−Zero را نیز لحاظ کرد و به جای دو شبکه مجزا برای برنامە های بد افزار و سالم، یک شبکه تجمیعی به صورت یک گراف ناهمگون لحاظ کرد تا از مزایای سایر روش های تحلیل شبکه مانند کشف اجتماع نیز بهره برد.
رویکرد مخلوط برای شناسایی گره های اثرگذار با استفاده از ترکیب کارآمد معیارهای محلی و سراسری
1401
یکی از موضوعات مهم و داغ در شبکه ها که از اهمیت نظری و عملی برخوردار است، یافتن گره های اثرگذار و با نفوذ است که روش های زیادی تاکنون برای این کار ارائه شده است. در نظریه گراف و تجزیه تحلیل شبکه، معیارهای تاثیر گره به معیارهایی گفته می شود که نوعی از رتبه بندی را بر اساس اهمیت گره در انتشار معرفی می کنند. از گره های تاثیرگذار می توان برای بیشینه کردن، کمینه کردن و حتی کنترل فرآیند انتشار بهره برد. معیارهای یافتن گره اثرگذار اغلب با شاخص های مرکزیت مرتبط هستند و عمدتا اثرگذاری را به صورت محلی یا سراسری مشخص می کنند. روش های اندکی برای لحاظ کردن همزمان تاثیر گره به صورت محلی و سراسری، پیشنهاد شده است و این مهم همچنان به صورت یک مساله باز تحت پژوهش است. همچنین معیارهای تعیین اهمیت گره ها در برخی گراف های دیگر مانند شبکه های زیستی نیز بررسی شده است که برخی از آن ها تاکنون در حیطه های گره های اثرگذار استفاده و بررسی نشده اند و این خود می تواند منجر به ایجاد پتانسیل ها و روش های جدید در این حیطه شود. ما در این پژوهش اول با ترکیب روش های محلی و سراسری یک معیار جدید به نام Hybrid را برای امتیازدهی به گره ها و یافتن اثرگذارترین گره پیشنهاد کرده ایم، که با این عمل در می یابیم با بهره گیری همزمان از معیارهای محلی و سراسری می توان ضمن کاهش پیچیدگی محاسباتی دقت الگوریتم را نیز افزایش داد و همچنین با تغییر در مقدار آلفا در رابطه ی آن جهت تنظیم مقادیر محلی و سراسری، بهینه ترین مقدار از معیار پیشنهادی را معرفی کردیم و دوم علاوه بر آن نیز از معیارهای یافتن ژن ها و پروتئین های اساسی در شبکه های زیستی بهره گرفتیم که تاکنون در شبکه های پچیده استفاده نشده اندکه در بهترین حالت منجر به یافتن گره های اثرگذار شوند. ما در آزمایشات خود از هشت شبکه واقعی و یک شبکه نمونه با ویژگی و اندازه های مختلف استفاده کردیم و نتایج بدست آمده را در قالب انواع نمودارها و جداول نمایش داده ایم. برای ارزیابی معیارها از مدل معروف و رایج شبیه سازی SIR بهره گرفتیم و عملیات آن را با میانگین هزار مرتبه اجرا درنظر گرفتیم و در نهایت تاثیرگذاری گره ها را در این شبیه سازی با درنظر گرفتن تعداد گره های بهبودیافته در زمان پایان عملیات تعیین نمودیم، سپس نتایج را به کمک ضریب همبستگی تای کندال Kendall’s tau ارزیابی کردیم و نتایج را توسط انواع نمودار و منحنی نشان دادیم.
بیشینه کردن کارایی الگوریتم های پیش بینی پیوند بدون ناظر با ترکیب موثر روش های محلی و سراسری
1401
پیش بینی پیوند مساله ای در شبکه های پیچیده است که به پیش بینی به وجود آمدن ارتباط های جدید بین گره ها می پردازد و کاربردهای مختلفی در حوزه های گوناگون از جمله شبکه های اجتماعی، بازیابی اطلاعات، تجارت الکترونیک و بیوانفورماتیک دارد. روش های متفاوتی برای تحقق این هدف استفاده شده است. یک دسته از این روش ها، مبتنی بر استخراج ویژگی های ساختاری شبکه می باشند. به این معنا که یک یا چند ویژگی از ساختار شبکه را جهت پیش بینی به وجود آمدن ارتباط جدید بین گره ها مد نظر قرار می دهند. ویژگی های محلی، بیشتر اطلاعات گره ها را در نظر می گیرند و ویژگی های سراسری، اطلاعات ساختاری گراف مانند طول مسیرها را معیار قرار می دهند. در این پایان نامه روشی ارائه شده است که ویژگی های محلی پایه مانند Common Neighbors، Jaccard ، Adamic Adar و غیره را با اطلاعات حاصل از الگوریتم های تشخیص اجتماع درگراف ترکیب می کند. ایده اصلی آن است که پس از تشخیص اجتماع با الگوریتم های Louvain، Newman-Girvan و Greedy Modularity Communication، نحوه پراکنش و تراکم همسایه های مشترک در اجتماع های کشف شده را معیار قرار می دهیم و امتیازهای همسایه های مشترک قرار گرفته در آن ها را برای الگوریتم های پایه به شیوه خاصی تقویت می کنیم. این روش بر روی مجموعه داده های معروف (کاراته کلاب، دلفین، نت ساینس، سی الگنس و ...) در حوزه پیش بینی پیوند آزمایش شده است. ارزیابی AUC و دقت محاسبات نشان می دهند که با استفاده از این شیوه، نتایج پیش بینی پیوند بر روی این مجموعه داده ها در اغلب ویژگی های محلی به طور قابل ملاحظه ای بهبود یافته است. روش استفاده شده قابلیت توسعه برای بهبود سایر الگوریتم های پیش بینی پیوند را نیز داراست.
پیش بینی صادرات و واردات محصولات پتروشیمی با روش های تحلیل گراف
1400
صنعت پتروشیمی نقش مهمی در ایجاد ارزش افزوده در منابع نفت و گاز به ویژه برای ایران دارد. پیش بینی کشورهای صادرکننده یا وارد کننده پتروشیمی به همراه نوع محصول تبادلی، کمک بزرگی به ذی نفعان این صنعت برای برنامه ریزی بهینه تجاری است. از سوی دیگر، روش های محاسباتی ویژه شبکه های اجتماعی، اکنون کاربردهای متعددی در حیطه های مختلف یافته اند. هدف این مقاله، استفاده از روش های تحلیل شبکه برای اولین بار در پیش بینی تجارت محصولات پتروشیمی در سطح جهانی است. داده های مورد بررسی از وبسایت سازمان ملل در رابطه با تبادلات تجاری به ازای صادرات و واردات محصولات رایج صنعت پتروشیمی برای سال های 2017 تا 2019 استخراج و پیش پردازش شدند. همچنین از روش های محاسباتی پیش بینی پیوند، برای پیش بینی ارتباطات سال های بعد هر کدام برمبنای سال قبل، استفاده شد. الگوریتم های مورد استفاده، روش های پایه رایج با نام های همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی هستند. ارزیابی به دو شیوه محاسباتی و مقایسه پیش بینی ها با نتایج موجود انجام شد. بهترین روش پیش بینی با بیش از 90 درصد امتیاز AUC، الحاق ترجیحی به دست آمد که بر اساس آن مقایسه با داده های واقعی نیز صورت گرفت. یافته های پژوهش، مستعدترین کشورها برای واردات را اسپانیا، اسلونی، استرالیا، نروژ و آرژانتین شناسایی کرد و خوش آتیه ترین کشورها برای صادرات برای ایران را صادرات محصول استون به اسپانیا برآورد کرد. در نهایت روش های افزایش کارایی پیش بینی ها نیز بیان شد که استفاده از الگوریتم های قوی تر مانند روش های یادگیری ماشین با ناظر و مدل سازی غنی تر شبکه از قبیل در نظر گرفتن وزن ارتباطات، از جمله موارد مهم قابل انجام است.
پیشگویی پیوند ترکیبی وزن دار و کاربردهای آن
1400
پیشگویی پیوند یک تکنیک مهم در تحلیل شبکه است. با استفاده از آن می توان وضعیت آینده یال های شبکه را تخمین زد. البته ویرایش های جدیدتر آن می توانند یال های اضافی یا کاذب محتمل را نیز بیابند. اما برخی شبکه ها مانند شبکه بیماری ها، تغییرات همزمان حذف و اضافه را برای تبدیل شدن به مرحله بعدی دارند و نیازمند به پیشگویی پیوند ترکیبی هستند. در رابطه با پیشگویی پیوند صریح ترکیبی، که همزمان یال های اضافه و حذف شونده به شبکه را پیش بینی می کنند، تنها یک پژوهش، آن هم فقط برای گراف ساده انجام شده است. در این پژوهش، برای اولین بار دو الگوریتم پیشگویی پیوند ترکیبی صریح برای شبکه های وزن دار، عرضه شده است. بدین منظور، بخش مربوط به حذف یال ها نیازمند به ایده جدید بود. دو ایده جدید حذف معکوس یال وزن دار و حذف متمم یال وزن دار، برای این کار ارائه شد. علاوه بر آن ایده پیشگویی پیوند افزایشی نیز به همراه پیشگویی پیوند معمول، مورد آزمایش قرار گرفت. همچنین برای ارزیابی کارایی، مقایسه با پیشگویی پیوند بدون وزن از طریق معیار تطابق، بر روی داده های بیماری آلزایمر صورت گرفت. مجموعه داده که از انستیتوی تصویربرداری بیماری آلزایمر (ADNI) تهیه شد، شبکه مغز در چهار مرحله بیماری آلزایمر مشتمل بر سالم، زوال عقلی ملایم آغازین، زوال عقلی ملایم پیشرفته و بیماری آلزایمر (Normal, eMCI, lMCI, AD) است که هر مرحله نسبت به مرحله قبل، شاهد اضافه و کم شدن ارتباطات بین نواحی است. آزمون روش ارائه شده با چهار تابع امتیازدهی همسایگان مشترک (CN)، ضریب جاکارد(JC)، آدامیک/آدار (AA) و الحاق ترجیحی (PA)، انجام شد. برای انتقال از حالت Normal به eMCI، روش JC افزایشی، از حالت eMCI به lMCI روش CN افزایشی، از حالت lMCI به AD روش JC افزایشی و از حالت Normal به AD روش JC افزایشی بهترین عملکرد را داشتند. نتایج به صورت میانگین، نسبت به حالت بدون وزن، هفت درصد بهبود داشت که بیشترین افزایش آن از حالت Normal به eMCI بود. همچنین توالی تغییرات نواحی مغز، ترتیب حذف و اضافه ها، برای استفاده محققین مربوطه استخراج شد. بررسی این تغییرات ممکن است باعث درک بهتر بیماری آلزایمر شود و در کمک به درمان و یا پیشگیری آن موثر باشد. برای بهبود روش پیشنهادی می توان از سایر تابع های امتیازدهی مبتنی بر مسیر یا روش های مبتنی بر شباهت خواص گره ها، تعبیه گری و غیره استفاده کرد. همچنین می توان الگوریتم پیشنهادی را بر انواع شبکه های دارای چند مرحله تغییر حذف و اضافه ارتباطات، مانند شبکه های بیماری های دیگر اعمال کرد.
شناسایی گرههای تاثیرگذار در شبکه های پیچیده با استفاده از پیشگویی پیوند معکوس
1400
درک وکنترل شبکه های پیچیده مختلف از اهمیت بسزایی در انتشار اطلاعات و اتصال شبکه برخوردار است. شناسایی گرههای تاثیرگذار، تعریف شده به عنوان گرههایی که بیشترین قابلیت انتشار، نسبت به سایر گره های شبکه را دارند یک مسئله مهم است که کاربردهای مهمی مانند شناخت و شبیه سازی انتشار بیماری کرونا دارد. بدین ترتیب همواره روشهای جدید و کارآمدتر برای یافتن گره های اثرگذار، پیشنهاد میشوند. در این پایان نامه، با کمک یک ایده کاربردی، استراتژی خاصی از پیشگویی پیوند به نام پیشگویی پیوند معکوس را برای امتیازدهی به گره های شبکه، مورد استفاده قرار گرفته است با روشهای امتیازدهی پایه در پیشگویی پیوند) همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی( آزموده شده است. همچنین به منظور ارزیابی کارایی روش پیشنهادی و مقایسه آن با جدیدترین روشهای برتر، از مدل اپیدمی حساس-آلوده و برای اندازهگیری همبستگی بین روش پیشنهادی و فرایند انتشار از ضریب تاوکندال در پنج مجموعه داده استاندارد، کاراته کلوب ، دلفین، فوتبال، جاز و ایمیل استفاده شده است. نتایج بدست آمده نشان دهنده آن است که روش پیشنهادی ما برای یافتن گره های اثرگذار، عملکرد خوبی را نسبت به روشهای مقایسهای در پژوهش دارد. همچنین روش پیشنهادی به دلیل دارا بودن روشهای امتیازدهی مختلف در پیشگویی پیوند، قابل اعمال به شبکه ها با ویژگیهای متفاوت جهان کوچک و مقیاس آزاد است. علاوه بر آن امکان بهبود عملکرد روش پیشنهادی با به کارگیری توابع امتیازدهی قویتر و روشهای پیشرفته تر پیشگویی پیوند، میسر است.
طراحی مدل شناختی محاسباتی بر اساس داده های ژنتیکی برای پیش بینی ارتباطات زیستی احتمالی مسبب اختلالات شناختی در بیماری آلزایمر
1400
بیماری آلزایمر یک بیماری پیشرونده و تخریب کننده سیستم عصبی است که باعث اختلال در کارکردهای شناختی و ایجاد آسیب های روانی مختلف می شود. روند پاتوفیزیولوژیک بیماری آلزایمر قبل از تشخیص بالینی آغاز می شود و تشخیص زود هنگام آن بسیار مهم است. از آنجا که توصیف بهتر مکانیسم های سلولی و مولکولی و ارتباطات ژن-miRNAها، به درک عمیق تر از بیماری زایی آلزایمر کمک می کند، طراحی مدل های شناختی محاسباتی که به پیش بینی بیومارکرهای دخیل در این بیماری کمک می کنند، می تواند باعث تسریع در اقدامات پیشگیرانه و اصلاحی برای افراد در معرض خطر شروع بیماری آلزایمر باشد. در این مطالعه، با استفاده از سیستم های توصیه گر و استفاده از یک الگوریتم یادگیری ماشین در پالایش مشارکتی، روشی ارائه می شود تا با به کارگیری داده های ارتباطات ژن-miRNA موجود در پایگاه داده های زیستی، بتواند ارتباطات احتمالی دیگر ژن-miRNA دخیل در بیماری آلزایمر را پیش بینی کند. ما از اعتبارسنجی متقابل و محاسبه AUC برای ارزیابی عملکرد روش به کار گرفته شده استفاده می کنیم. تعداد 30 ارتباط جدید ژن-miRNA دخیل در بیماری آلزایمر پیش بینی شده و مورد ارزیابی قرار گرفت. همچنین نتایج تجربی نشان داده است که الگوریتم منتخب ما در مقایسه با الگوریتم های دیگر یادگیری ماشین مورد استفاده در پالایش مشارکتی، که در این پژوهش مورد ارزیابی قرار گرفت، با خطای RMSE=0.89 و AUC=0.97 می تواند عملکرد مطلوبی را نشان دهد. همچنین می توان استفاده از روش های ترکیبی، شبکه عصبی مصنوعی و یا یادگیری عمیق را برای مطالعات آتی مورد توجه قرار داد.
شناسایی بیوانفورماتیکی میکروRNAهای مرتبط با اثرات مورفین و بررسی بیان گیرنده های پورینی در مغز رت پس از القای تحمل و ترک مورفین
1399
مورفین یک داروی ضددرد قوی است اما استفاده مکرر از آن موجب ایجاد تحمل، وابستگی و اعتیاد به این دارو می شود که با تغییراتی در پیام رسانی مسیرهای عصبی همراه است. هدف اول پژوهش حاضر، بررسی تغییرات بیان ژن گیرنده های پورینی p2rx4 و p2rx7 در استریاتوم و مخچه رت پس از القای تحمل به مورفین و یک ماه پس از ترک آن است. در این مطالعه، از چهار گروه رت جنس نر از نژاد ویستار استفاده شد. تحمل مورفین با تزریق مکرر مورفین دو بار در روز و به مدت 10روز ایجاد شد. گروه کنترل همزمان سرم فیزیولوژیک به جای مورفین دریافت نمود. القای تحمل به مورفین با استفاده از آزمون صفحه داغ در روز اول و دهم تزریق ها بررسی شد. دو ساعت پس از آخرین تزریق مکرر در روز دهم، نواحی استریاتوم و مخچه برای بررسی بیان ژن جداسازی شدند. دو گروه دیگر از رت ها پس از 10 روز تزریق های مکرر سالین و یا مورفین، به مدت 30 روز ترک داده شدند و مناطق مورد نظر مغز در روز سی ام ترک استخراج شدند. تغییرات بیان ژن با روش ریل-تایمPCR ارزیابی شد و مشخص شد که در رت های با تحمل به مورفین بیان ژن های p2rx4 و p2rx7در مخچه به طور قابل توجهی کاهش یافت. پس از دوره ترک مورفین، هیچ تفاوتی در بیان p2rx4 بین دو گروه کنترل و دریافت کننده مورفین مشاهده نشد، اما بیان p2rx7 به طور قابل توجهی در مقایسه با گروه کنترل افزایش یافت. نتایج بیان ژن در استریاتوم رت های با تحمل به مورفین، هیچ تفاوتی را در بیان ژن p2rx4 بین دو گروه آزمایشی نشان نداد، اما در مقایسه با گروه کنترل تیمار شده با سالین کاهش معناداری در بیانp2rx7 وجود داشت. بیان p2rx4 در استریاتوم رت ها پس از ترک به طور قابل توجهی در مقایسه با گروه کنترل افزایش یافت درحالی که هیچ تفاوتی در بیان p2rx7 بین گروه های آزمایش مشاهده نشد. می توان نتیجه گیری کرد که تحمل به مورفین به طور خاص بر بیان ژن گیرنده های P2X4 و P2X7 در مخچه و استریاتوم تاثیر می-گذارد که پس از ترک مورفین جبران می شود. نتایج حاضر برهمکنش عملکردی مهم بین سیستم پورینرژیک و تحمل و ترک مورفین را نشان می دهد. هدف دوم پژوهش، پیشگویی بیوانفورماتیکی ارتباطات محتمل در شبکه دوبخشی ای است که یک سوی آن miRNA ها و سوی دیگر آن ژن های مرتبط با اعتیاد و تحمل به مورفین در رت است که با ساختن شبکه مربوطه از مطالعات قبلی و دیتای برخط وبسایت های mirdb.org و TargetScan.org و اعمال الگوریتم های محاسباتی پیشگویی پیوند برای یافتن محتمل ترین ارتباطات ثبت نشده تاکنون، محقق شد. خوش آتیه بودن نتایج از نظر محاسباتی قابل اثبات است، اما از نظر عملی، نیاز به انجام آزمایش و بررسی تجربی بیشتر در آینده دارد.
بهبود انتخاب ویژگی بر پایه گراف با استفاده از پیش گویی پیوند و روش حفره های ساختاری
1399
انتخاب ویژگی، یکی از راهکارهای اساسی یادگیری ماشین برای رفع مشکل پردازش داده های با ابعاد بسیار بالا است. بررسی و بکارگیری روش های کارآمدتر انتخاب ویژگی با هدف دستیابی به نتایج بهتر در انتخاب ویژگی، می تواند سبب بهبود و تسریع نتایج کارآیی الگوریتم های مرتبط با یادگیری ماشین شود. در این پژوهش یک روش شش مرحله ای برای بهبود انتخاب ویژگی بدین شرح پیشنهاد می شود. در گام اول، پیش پردازش، مجموعه داده از نظر مقادیر گم شده و تکراری، اصلاح می شود و سپس نرمال سازی می شود. همچنین یکبار امتیاز فیشر را برای همه ی ویژگی ها محاسبه می کنیم و تعداد n-Top ویژگی با بیشترین امتیاز فیشر را حفظ می کنیم و مابقی را حذف می کنیم. در گام دوم با استفاده از ضریب همبستگی پیرسون وابستگی بین رئوس محاسبه می گردد و گرافی وزن دار از ویژگی ها و مقدار وابستگی بین آن ها تشکیل و بازنمایی می گردد و به دلیل عملکرد بهتر الگوریتم خوشه بندی، یال های با مقادیر وزن کمتر از مقدار آستانه بهینه 0.5 از گراف حذف می شوند. در گام سوم برای بهبود ساختار گراف و بازیابی روابط محتمل به اشتباه حذف شده یا از قلم افتاده، با استفاده از الگوریتم های پیش گویی پیوند یال هایی را به گراف اضافه می کنیم. در گام چهارم، با استفاده از الگوریتم تشخیص جامعه لووین بدون ناظر به دلیل سادگی و سرعت اجرای بالا و شناسایی خودکار خوشه ها، جوامع را در گراف ایجاد شده می یابیم. در گام پنجم با استفاده از روش حفره های ساختاری که ارتباطات نهفته بین ویژگی ها را نیز لحاظ می کند، راس های بحرانی و مرکزی تر در هر خوشه شناسایی می شود. در نهایت، در گام ششم، در یک فرآیند تکراری برای هر خوشه، براساس روش گام قبلی، اعضای خوشه رتبه بندی می شوند سپس بصورت نزولی مرتب شده و تعداد w ویژگی ابتدای لیست را انتخاب می کند. اگر تعداد ویژگی هر خوشه کمتر از w باشد آنگاه همه آن ها انتخاب می شوند. به عبارتی دیگر، تعداد w ویژگی در هر خوشه بعنوان نماینده خوشه حفظ کرده و سایر ویژگی ها از خوشه حذف می شوند. در پایان، همه ویژگی های باقی مانده در خوشه ها را به عنوان زیر مجموعه ویژگی های نهایی بهینه گزارش می کنیم. مقایسه نتایج با استفاده از چهار طبقه بند مشهور SVM، KNN، NB و DT حاکی از کارآیی و برتری روش پیشنهادی جدید در مقایسه با روش های اخیر به ویژه در مجموعه داده های با ابعاد بسیار بزرگ و با تعداد نمونه بیشتر است.
انتخاب ویژگی چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه
1399
طبقه بندی داده های چند برچسبه با مسائلی روبه رو است که در آن ها هر نمونه با تعدادی بیشتر از یک برچسب در ارتباط است. امروزه با توجه به پیشرفت رویکردهای دیجیتال، تعداد بسیار زیادی از کاربردهای دنیای واقعی برای داده های چند برچسبه با تعداد ابعاد بالا شکل گرفته اند که سبب کاهش کارایی طبقه بندی می شود. انتخاب ویژگی یک رویکرد موفق و شناخته شده برای کاهش ابعاد داده ها با نگه داشتن ویژگی های مفید و مرتبط و حذف ویژگی های نامربوط یا دارای شباهت به دیگر ویژگی ها است. بسیاری از روش های انتخاب ویژگی که ارائه شده اند از نوع روش های پوششی هستند که از یک طبقه بند چند برچسبه در حین عمل انتخاب ویژگی استفاده می کنند. برای حل این مشکلات، در این پایان نامه دو روش انتخاب ویژگی برای داده های چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه ارائه شده است. روش پیشنهادی اول ابتدا فضای ویژگی ها را به یک گراف تبدیل می کند که وزن های این گراف بر اساس میزان شباهت ویژگی ها است. سپس الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها اعمال می شود. نوآوری ما در این روش ارائه یک تابع شایستگی جدید و مختص داده های چند برچسبه است که هر دو معیار بیشترین ارتباط با برچسب ها و کمترین میزان شباهت با سایر ویژگی ها را در هر انتخاب در نظر می گیرد و نیز از هیچ مدل یادگیری حین عمل انتخاب ویژگی استفاده نمی کند. روش پیشنهادی دوم بر اساس استراتژی جستجوی روش پیشنهادی اول ارائه شده است. در روش دوم، از رویکردی جدید در ساخت گراف ویژگی ها استفاده می کنیم که بر مبنای ارتباط ویژگی ها با مجموعه برچسب ها می باشد. سپس از یک رویکرد خوشه بندی گراف به منظور دسته بندی ویژگی های مشابه استفاده شده و در نهایت نیز از الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها استفاده می شود. عملکرد روش پیشنهادی اول و دوم را با شش روش جدید و شناخته شده انتخاب ویژگی داده های چند برچسبه بر روی مجموعه داده های چند برچسبه مختلف، مقایسه شده است. همچنین از معیار های ارزیابی متنوع طبقه بندی چند برچسبه و نیز انواع گوناگونی از آزمایش ها در این تحقیق استفاده شده است. نتایج به دست آمده، برتری روش های ارائه شده را در توانایی تشخیص و انتخاب ویژگی های مرتبط و مفید و در نتیجه دقت بالای این روش ها را نشان می دهند.
روشی جدید برای تشخیص ناهنجاری یال بر اساس پیشگویی پیوند
1399
تشخیص ناهنجاری در داده ها یک کار بسیار مهم و حیاتی است و کاربرد های زیادی در حوزه های مختلف از جمله امنیت، سلامت، امور مالی، مراقبت های بهداشتی و اجرای قانون دارد. در سال های اخیر روش های زیادی برای تشخیص ناهنجاری یا داده های پرت در مجموعه های بدون ساختار داده های چند بعدی ارائه شده است که بعضی از این روش ها روی ساختار گراف متمرکز شده اند. در این پایان نامه بر روی تشخیص ناهنجاری یال در گراف کار شده و دو روش بر اساس پیشگویی پیوند منفی برای تشخیص ناهنجاری یال پیشنهاد شده است. روش اول برای گراف های بدون وزن و روش دوم برای گراف های وزن دار ارائه شده و بر اساس عملکرد این روش ها، یال های ناهنجار در گراف با الگوریتم پیشگویی پیوند منفی تشخیص داده شده است. در دو روش پیشنهادی، از چهار الگوریتم پیشگویی پیوند، شاخص جاکارد، پیوست امتیازدهی، همسایه های مشترک و آدمیک-آدر به صورت بدون نظارت و مجزا استفاده شده است. همچنین از چهار مجموعه داده استاندارد دلفین، جاز، ایمیل و ترینیتی برای گراف های بدون وزن و از چهار مجموعه داده لسمیس ، پادشاه جیمز ، شبکه علمی و نوجوان برای گراف های وزن دار استفاده شده است. به منظور ارزیابی و کارایی روش پیشنهادی اول، چند درصد از کل یال های گراف، یال ناهنجار به گراف ها اضافه شد و با استفاده از روش پیشنهادی و هشت الگوریتم دیگر سعی شده که یال های ناهنجار تشخیص و نتایج روش ها باهم مقایسه گردد. نتیاج با معیاری های صحت، دقت، فراخوانی و معیار F1 ارزیابی شده است. برای روش پیشنهادی دوم، سعی شده است که با حذف یال های ناهنجار جوامع بهتری به وجود بیاید و جهت ارزیابی دو الگوریتم برچسب گذاری نامتقارن و الگوریتم وزن دار بهینه سازی شده گروین- نیومن مورد استفاده قرار گرفته است. سپس برای تعیین بهبود جوامع از سه تابع کیفیت اجتماعات، ماژولاریتی، کارایی و کاوریج ، استفاده می شود البته نیاز به ابداع روشی برای پیشگویی پیوند منفی در گراف های وزن دار و همچنین روشی برای اضافه کردن یال های ناهنجار به گراف های بدون وزن نیز وجود داشت که انجام شد.
به سوی یک معیار ارزیابی بهتر برای پیشگویی پیوند وزن دار
1399
پیشگویی پیوند تغییراتی که در آینده در یال های یک شبکه صورت می گیرد را پیش بینی می کند و یکی از موضوعات با اهمیت در علم شبکه محسوب می شود. پژوهش های بسیاری بر الگوریتم های پیشگویی پیوند در گراف های ساده متمرکز شده اند. با این وجود شبکه های بسیاری در دنیای واقعی با استفاده از گراف های وزن دار مدل می شوند. سنجش دقت پیشگویی پیوند، چه در شبکه های ساده و چه وزن دار، صرفاً معطوف به درستی پیشگویی وجود یال بوده است و بر اساس شناخت و بررسی پژوهشگران مرتبط با این پایان نامه، تاکنون وزن یال ها در پیشگویی پیوند وزن دار، در محاسبه دقت پیشگویی، در نظر گرفته نشده است. در این پایان نامه، روشی برای لحاظ نمودن امتیاز پیشگویی پیوند هر الگوریتم، در پیش بینی وزن همان پیوند ارائه می شود. طبق پژوهش این پایان نامه، روشی در پیشگویی پیوند وزن دار، برتر است که همزمان با پیشگویی وجود یا عدم وجود پیوند، وزن آن را نیز با بیشترین میزان دقت پیشگویی کند. برای تست این روش از الگوریتم های پیشگویی پیوند وزن دار پایه مبتنی بر همسایگی از قبیل همسایه های مشترک، ضریب جاکارد، الصاق ترجیحی، آدامیک-آدار و تخصیص منابع استفاده می شود. در عین حال از امتیاز محاسبه شده برای پیشگویی پیوند در هر کدام از الگوریتم ها، برای پیشگویی وزن آن نیز استفاده خواهد شد. بدین منظور برای همسان سازی امتیاز پیشگویی پیوند جهت استفاده در پیشگویی وزن، از روش های نرمال سازی نمایی منفی، لجستیک و خطی بهره برده می شود. دیتاست های مورد استفاده Lesmis، Celegans، Netscience و Airport هستند. از معیارهای AUC و Precision برای ارزیابی پیشگویی پیوند و از PCC و RMSE برای ارزیابی پیشگویی وزن، استفاده خواهد شد. با توجه به معیارهای ارزیابی، در اکثر دیتاست ها الگوریتم تخصیص منابع بهترین نتیجه را برای پیشگویی همزمان پیوند و وزن آن داشت. نرمال سازی خطی برای PCC و نرمال سازی لجستیک برای RMSE بهتر جواب داد. برای توسعه و افزایش دقت یافته های این پژوهش می توان از سایر الگوریتم های قابل استفاده در پیشگویی پیوند وزن دار مانند روش های مبتنی بر مسیر یا مبتنی بر یادگیری ماشین بهره برد. همچنین راهکارهای برای تطبیق وزن پیشگویی شده نرمال شده با توجه به شبکه مورد استفاده نیز ارائه کرد.
غلبه بر محدودیت پیشگویی پیوند در شبکه های خلوت با کمک خوشه بندی
1398
پیشگویی پیوند سعی دارد تا پیوندهای گم شده یا پیوندهایی که ممکن است در آینده با توجه به ساختار شبکه یا ویژگی های گره به وجود بیاید را تشخیص دهد. پیشگویی پیوند در بسیاری از حوزه ها مانند شبکه های اجتماعی، آزمایشات زیستی، شبکه های جرم شناسی و غیره کاربرد دارد. روش های پایه از ساختار شبکه و ویژگی های مسیر و اطلاعات همسایگی برای پیشگویی استفاده کرده اند. روش های زیادی برای بهبود روش های پایه ارائه شده، اما یک چالش اساسی در همه این روش ها آن است که بسیاری از شبکه های موجود خلوت هستند و این سبب حجم زیادی از افزونگی در محاسبات، زمان پردازش بیشتر، حافظه ذخیره سازی بیشتر و نتایج ضعیف تر می شود. این پژوهش به ارائه روشی جدید و متمایز برای پیشگویی پیوند براساس خوشه بندی در شبکه های خلوت مقیاس بزرگ می پردازد. در روش پیشنهادی از خوشه بندی مانند کارهای گذشته فقط برای بهبود نتایج استفاده نشده است، بلکه علاوه بر آن، از خوشه بندی برای پرهیز از محاسبات اضافی نیز بهره گرفته است. در این پژوهش ابتدا به تشخیص خوشه ها در شبکه پرداخته می شود، سپس درون هرخوشه یافت شده عمل پیشگویی پیوند با استفاده از روش های مبتنی بر همسایگی (AA,CN,JC,PA,RA) انجام می شود. سپس برای استفاده از حداکثر ظرفیت شبکه، پیشگویی پیوند در بین خوشه های یافت شده، با لحاظ کردن موارد مهمی انجام می شود. برای ارزیابی روش پیشنهادی از دو معیار دقت و زمان محاسبات در این پژوهش استفاده شده است. نتایج بر روری مجموعه داده های مختلف نشان می دهد، علاوه بر اینکه از افزونگی از طریق حذف بسیاری از درایه هایی که از نظر محاسباتی قابل توجیه نیستند در محاسبات پرهیز شده است، دقت قابل قبولی نیز توسط روش پیشنهادی ارائه شده است و زمان اجرا نیز به طور چشمگیری کاهش داده شده است، همچنین در حافظه نیز صرفه جویی شده است. روش پیشنهادی برای اولین بار نسخه جدید روابط پروتئینی انسانی (HPRD) را پیشگویی نموده است. این روش خوش آتیه به نظر می رسد و می توان آن را از طریق دیگر روش های مبتنی بر مسیر و تلفیق آن با سایر روش های با ناظر و یادگیرنده بهبود داد.
افزایش کارایی پیش واکشی صفحات وب در اینترنت با استفاده از رویکردهای پیش بینی
1398
امروزه انجام بسیاری از امور روزمره و درازمدت از قبیل خرید اینترنتی، تجارت الکترونیک، بانکداری الکترونیک ، آموزش الکترونیک و... به صورت آنلاین و آفلاین از طریق صفحات وب انجام می شود. با توجه به اینکه منابع وب و سرویس دهنده های آن ها محدود است لذا پاسخگویی به این حجم از نیازهای وبگرا باعث بروز تاخیرهای زیاد در دسترسی ستتی به خدمات و نیز کاهش کیفیت خدمات به کاربران می شود. لذا سرعت بارگذاری صفحات وب کاهش یافته و استفاده بهینه و مطلوب از منابع وب به عمل نمی آید. از دید کاربر تاخیر به وجود آمده یک موضوع بسیار مهم در بارگذاری صفحات می باشد که در سال های اخیر تلاش های بسیاری برای کاهش این تاخیر انجام گرفته است که یکی از روش های محبوب دراین زمینه پیش واکشی وب است. منظور از پیش واکشی وب، پیش بارگذاری صفحات وب است قبل ازآنکه توسط کاربر درخواست شوند. این صفحات از حافظه نهان برداشته و بارگذاری می شوند و بدین صورت سرعت بارگذاری افزایش می یابد. منظور از حافظه نهان وب یک مکانیسم برای ذخیره سازی موقت استتناد وب به منظور کاهش استفاده از پهنای باند، کاهش بار سرور و درنهایت کم شدن تاخیر بارگذاری است. به منظور رفع این تاخیر دسترسی کاربران با استفاده از پیش واکشی، از تکنیک هایی مانند زنجیره مارکوف، روش های داده کاوی و روش های مبتنی بر گراف استفاده شده است. تمرکز این پایان نامه بر استفاده از روش های پیش بینی به ویژه پیشبینی پیوند برای تحلیل و کاهش تاخیر دسترسی کاربران به صفحات وب ا ست. بدین منظور از دادههای بایگانی سرور ناسا استفاده شد. این داده ها با استفاده از یک روش ابداعی تبدیل به گراف میشوند. گره های این گراف، صفحات وب و یال های آن تعداد دفعات ورود به صفحه متناظر با گره مربوط به آن است. با توجه به اینکه قرار است صفحات وب بعدی کاربر حدس زده شود، پس نیاز است که یک سری از صفحات وبی که کاربر هنوز وارد آن نشده است به عنوان صفحات کاندید انتخاب شود. پس از آن توسط یک الگوریتم پیشنهادی وزن این صفحات محاسبه می شود. این صفحات کاندید سپس با استفاده از معیارهای AUC ،F-Score ،Recall ،Precision آن ها را مورد ارزیابی قرار داده می شود. نتایج نشان می دهد روشهای پیش بینی پیوند نتایج قابل مقایسه ای دارند و هرکدام در برخی شرایط و موارد برتری هایی نسبت به یکدیگر دارند.
بهبود کارایی سیستم های اطلاعاتی مدیریت آموزش با استفاده از شیوه های پیش بینی
1397
ارتقای کیفیت فرآیندهای آموزشی، یکی از چالش های مهم در سال های اخیر بوده است که پیدایش و گسترش آموزش الکترونیکی در افزایش توجه به این حوزه نقش بسزایی داشته است. منظور از فرآیندهای آموزشی، تمام تعاملات میان دانشجو، درس، منبع درسی، استاد و مدیران آموزشی است. در میان این تعاملات، اخذ درس توسط دانشجو در فرآیند انتخاب واحد درسی، اخذ منابع درسی توسط دانشجو، پیشگیری از ترک تحصیل دانشجویان توسط اساتید و مدیران آموزشی، از اهمیت بالایی برخوردار است. به منظور رفع این چالش ها، تکنیک های داده کاوی، سامانه های توصیه گر، فرآیندهای تصمیم گیری مارکوف و روش های مبتنی بر گراف مورد استفاده قرار گرفتند. این تکنیک ها با تکیه بر مجموعه عظیمی از داده های ذخیره شده در سامانه های آموزشی، سعی در یافتن روابط غیرقابل مشاهده میان این مجموعه داده ها را دارند. ما در این پایان نامه برای اولین بار از الگوریتم های پیش بینی پیوند، به منظور بهبود فرآیندهای آموزشی در سامانه های آموزش الکترونیک استفاده می کنیم. هدف از این پژوهش، کشف الگوهای نهفته در فرآیند انتخاب دروس، انتخاب منابع درسی و ترک تحصیل یا انصراف از دروس توسط دانشجویان است. بدین منظور از سه مجموعه داده آموزشی Moodle، OULAD و MOOC استفاده می نماییم و روش پیشنهادی را به وسیله دو معیار Precision و AUC مورد ارزیابی قرار می دهیم. آزمایشات نشان می دهند که روش پیشنهادی، علاوه بر آنکه نتایج قابل مقایسه ای با الگوریتم های فیلترینگ مشارکتی مبتنی بر کاربر و آیتم سامانه های توصیه گر دارد، در بعضی موارد نسبت به آن ها برتری نیز دارد.