تاریخ بهروزرسانی: 1404/05/30
صادق سلیمانی
دانشکده مهندسی / گروه مهندسی کامپیوتر و فناوری اطلاعات
پایاننامههای کارشناسیارشد
-
رویکرد پیشبینی پیوند در سامانه توصیهگر نقاط مورد علاقه گردشگران
1403نقاط موردعلاقه (POI) بهعنوان مکانهایی که کاربران تمایل به بازدید از آنها دارند، نقش مهمی در سیستمهای توصیهگر و برنامههای مبتنی بر موقعیت مکانی ایفا میکنند. این نقاط میتوانند اطلاعات ارزشمندی را برای پیشبینی رفتارهای آینده کاربران و ارائه توصیههای دقیق فراهم آورند. با رشد سریع دادههای مکانی و شبکههای اجتماعی، ایجاد سیستمهای توصیهگر هوشمند که بتواند علایق کاربران را بهدرستی شناسایی کند و مکانهای جذاب و متناسب باسلیقه آنها را پیشنهاد دهد، اهمیت ویژهای پیدا کرده است. در این پژوهش، یک الگوریتم برای پیشبینی نقاط موردعلاقه کاربران معرفی شده است که با استفاده از شبکه روابط اجتماعی کاربران، به بهبود کارایی و دقت در توصیه نقاط موردعلاقه کمک میکند. روش پیشنهادی با بهرهگیری از الگوریتم ادمیک/آدار تغییریافته برای سنجش شباهت بین دوستان، و الگوریتم جاکارد بهبود یافته برای پیشبینی نقاط موردعلاقه، عملکرد بهتری نسبت به روشهای مرسوم ارائه داده است. این الگوریتم با تحلیل رفتار دوستان و حتی دوستان دوستان، قادر است به شکلی دقیقتر علایق کاربران را پیشبینی کرده و نقاط جدیدی را با دقت بیشتر توصیه کند. برای ارزیابی عملکرد الگوریتم، از معیارهای (Precision)، (Recall) و (F1Score) استفاده شده است. این معیارها که در پژوهشهای مشابه نیز بهطور گسترده استفاده شدهاند، امکان مقایسه مستقیم نتایج را با سایر روشها فراهم میکنند. نتایج تجربی نشان میدهند که روش پیشنهادی، به دلیل استفاده از شبکه دوستان و ارتباطات کاربران، دقت و جامعیت پیشبینیها را بهطور قابلتوجهی افزایش داده است و در مقایسه با روشهای مرسوم، توصیههای دقیقتر و متنوعتری ارائه میدهد.
-
بهبود الگوریتمهای یادگیری ماشین در تشخیص دیابت با استفاده از روشهای مبتنی برگراف
1403دیابت بهعنوان یک اختلال مزمن متابولیک، بارهای قابلتوجهی بر سلامت و اقتصاد جهانی تحمیل میکند. تشخیص زودهنگام و دقیق برای مدیریت موثر و پیشگیری از عوارض ناشی از این بیماری ضروری است. روشهای سنتی تشخیص که بر پارامترهای بالینی متکی هستند، اغلب با محدودیتهایی همچون طولانی بودن فرآیند و احتمال خطا مواجهاند. پیشرفتهای اخیر در حوزه یادگیری ماشین گزینههای امیدبخشی برای تحلیل دادههای پزشکی و بهبود دقت تشخیص فراهم کرده است. با این حال، مدلهای یادگیری ماشین با چالشهایی در مدلسازی روابط پیچیدهتر بین عوامل مرتبط با دیابت روبرو هستند. این پایاننامه به بررسی پتانسیل روشهای مبتنی بر گراف در کنار یادگیری ماشین برای بهبود تشخیص دیابت میپردازد. روشهای مبتنی بر گراف چارچوبی قدرتمند برای نمایش و تحلیل روابط پیچیده بین نمونهها فراهم میکنند و امکان شناسایی الگوهای پنهان را مهیا میسازند. در این پژوهش، دادههای مربوط به مجموعه دادهای شامل 768 نمونه و 9 ویژگی، مورد استفاده قرار گرفته است. به منظور ساخت گراف، ابتدا میزان شباهت بین هر جفت نمونه مجموعه داده با استفاده از معیار شباهت فاصله اقلیدسی محاسبه شد و سپس گرافهای وزندار و بدون جهت در دو سطح آستانه 0.01 و 0.004 ایجاد گردیدند. گراف حاصل در آستانه 0.01 شامل 26,130 یال و در آستانه 0.004 شامل 87,250 یال بود که روابط معنادار بین نمونهها را نشان میدهد. پس از ساخت گراف، مجموعهای از ویژگیهای مبتنی بر گراف ازجمله مرکزیت درجه، مرکزیت نزدیکی، و چندین معیار دیگر، استخراج شدند که در کنار ویژگیهای اصلی و اولیه دادهها، برای آموزش مدلهای یادگیری ماشین استفاده شد. در این پژوهش از چندین مدل یادگیری ماشین، شامل طبقهبندهای سنتی و مبتنی بر گروهبندی، استفاده شده است. همچنین، آزمایشها با استفاده از معیارهایی نظیر دقت، بازیابی، صحت و امتیاز F1 و AUC ارزیابی شدند. نتایج نشان داد که ترکیب ویژگیهای گرافی با الگوریتمهای یادگیری ماشین بهطور قابلتوجهی دقت تشخیص را بهبود میبخشد. مدل پیشنهادی توانست در هر دو آستانه بررسی شده، با الگوریتمهای تقویت گرادیان و پرسپترون چندلایه به ترتیب به دقتهای %98.51 و %99.07 درصد دست یابد که برتری قابلتوجهی را نسبت به رویکردهای مبتنی بر ویژگیهای اصلی داده نشان میدهد. این یافتهها نشان میدهند که روشهای مبتنی بر گراف در به همراه الگوریتمهای یادگیری ماشین، با شناسایی روابط پنهان و افزایش دقت تشخیص، میتوانند در تحلیل دادههای مورد استفاده موثر واقع شوند.
-
Breast Cancer Recurrence Prediction Improvement Utilizing Hidden Relations Between Patients Attributes
1403Breast cancer and its recurrence are a major global health issue, impacting a considerable percentage of women over their lifetimes. Accurate prediction of breast cancer recurrence is crucial for enhancing patient outcomes, facilitating prompt interventions, and customizing treatment options. Although machine learning algorithms hold significant promise for breast cancer prediction, there is a shortage of studies dedicated to predicting breast cancer recurrence through these methods; yet, the accuracy of current methodologies remains problematic. In contrast, contemporary research primarily focuses on enhancing prediction algorithms and machine learning models, with inadequate exploration of the importance of intricate feature relationships. This study utilized correlation approaches to generate a graph from the existing breast cancer recurrence dataset, facilitating the extraction of novel features. This led to an expansion of the feature collection based on their correlations, thus enhancing prediction accuracy. This study utilized the Wisconsin Diagnostic Breast Cancer (WDBC) and Wisconsin Prognostic Breast Cancer (WPBC) datasets to examine feature correlations. Four correlation methodologies were evaluated: Pearson, Spearman rank, Kendall Tau, and Point-Biserial. Machine learning methods, such as Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT), and Random Forest (RF), are utilized to predict breast cancer recurrence. The findings indicated that the integration of graph-based feature associations significantly enhanced the prediction of breast cancer recurrence, with the Spearman rank correlation and SVM model achieving the highest level of precision.
-
Improving Liver Disease Detection Using Oversampling and Network Analysis
1403Liver diseases represent a significant global health challenge, impacting millions of individuals and leading to morbidity and mortality due to their often asymptomatic nature. The early detection and accurate diagnosis of liver disorders are critical for effective treatment and management, making it imperative to leverage advanced technologies such as machine learning. As healthcare systems increasingly rely on data-driven solutions, employing robust predictive models for liver disease can transform clinical practices, improve patient outcomes, and reduce the burden on healthcare providers. This thesis presents an investigation into the application of machine learning techniques for the detection of liver diseases using the Indian Liver Patient Records dataset, which includes clinical data from 579 patients. The study meticulously preprocesses the data by addressing class imbalance through the ADASYN algorithm, encoding categorical variables with LabelEncoder, and calculating feature correlations using the Spearman method. A graph-based approach was adopted to extract insights from patient features, enabling the creation of enriched data representations that were subsequently used to train various machine learning classifiers, including HistGradientBoostingClassifier, RandomForestClassifier, and AdaBoostClassifier. The findings of this research reveal substantial improvements in predictive accuracy, with the HistGradientBoostingClassifier achieving an impressive accuracy of 98.49%. The model outperformed existing methodologies, demonstrating the effectiveness of advanced feature extraction techniques and robust data preprocessing strategies in enhancing the reliability of predictions for liver disease diagnosis. This study not only highlights the expanding role of machine learning in healthcare but also serves as a validation of the potential benefits of data-driven approaches in disease management. Despite the promising results, several limitations are acknowledged in this research. The reliance on a specific dataset may restrict the generalizability of the findings, and the methodologies employed may require validation on diverse datasets to confirm their effectiveness across different populations. Additionally, there is a need for further exploration of deep learning techniques and the integration of multimodal data sources to improve diagnostic accuracy. Future research should aim to address these limitations while continuing to expand the understanding and application of machine learning within the realm of liver disease detection and beyond.
-
بهبود پیشبینی پیوند بدون ناظر با لحاظ کردن معیارهای مرکزیت
1403پیشبینی پیوندهای احتمالی در شبکههای پیچیده یکی از چالشهای مهم در تحلیل شبکه است. این مسئله کاربردهای مهمی در زمینههایی مانند شبکههای اجتماعی، زیستی و حمل و نقل دارد. به عنوان مثال، در شبکههای اجتماعی، پیشبینی پیوندهای احتمالی میتواند به پیشنهاد دوستان بالقوه کمک کند و تجربه کاربری را بهبود ببخشد. در شبکههای زیستی نیز، پیشبینی دقیقتر تعاملات پروتئینی میتواند به پیشرفتهای قابل توجهی در کشف دارو و درک مکانیسمهای بیولوژیکی منجر شود. با این حال، روشهای سنتی پیشبینی پیوند محدودیتهایی در دقت و نقش گره ها در شبکه را دارند. این پژوهش یک رویکرد نوآورانه را برای بهبود دقت پیشبینی پیوند در شبکههای پیچیده ارائه میدهد. روش پیشنهادی با ترکیب هوشمندانه الگوریتمهای پایه پیشبینی پیوند (مانند CN، JC، RA، AA و PA) با معیارهای مرکزیت گره (درجه، بینابینی، نزدیکی، بردار ویژه و رتبه صفحه) طراحی شده است. این ترکیب به بهرهگیری همزمان از ساختار محلی شبکه و اهمیت کلی گرهها منجر میشود. نتایج ارزیابی روش پیشنهادی بر روی ده مجموعه داده متنوع نشان داد که این روش در اکثر موارد عملکرد بهتری نسبت به روشهای پایه داشته است. به عنوان مثال، در شبکه lesmis، روش PA بهبودیافته با معیار بردار ویژه به Precision برابر با 0.3152 دست یافت که بهبود قابل توجهی نسبت به روش پایه PA (Precision برابر با 0.1567) بود. این بهبود عملکرد به ویژه در شبکههای بزرگتر و پیچیدهتر مشهودتر بود و همچنین در شبکه های کوچک عالی عمل کرد. همچنین، مطالعه نشان داد که انتخاب بهترین روش برای پیشبینی پیوند به ویژگیهای خاص هر شبکه بستگی دارد. به عنوان مثال، در شبکه Karate، روش PA بهبودیافته با معیار درجه بهترین عملکرد را داشت، در حالی که در شبکه Jazz، روش AA بهبودیافته با معیار بردار ویژه بهترین نتیجه را ارائه داد. این یافتهها اهمیت در نظر گرفتن ساختار و ویژگیهای خاص هر شبکه را در انتخاب روش مناسب برای پیشبینی پیوند نشان میدهد. این پژوهش گامی مهم در جهت بهبود دقت پیشبینی پیوند در شبکههای پیچیده برداشته است. با این حال، این مطالعه دارای برخی محدودیتها نیز بود. با توجه به این محدودیتها و نتایج به دست آمده، چندین مسیر برای تحقیقات آینده پیشنهاد میشود. این شامل توسعه روشهای پیشبینی پیوند که قادر به در نظر گرفتن پویایی شبکه باشند، آزمودن روشهای پیشرفتهتر مرکزیت، بهبود کارایی محاسباتی الگوریتمها، ترکیب روشهای پیشنهادی با تکنیکهای پیشرفته یادگیری ماشین و بررسی تاثیر سایر ویژگیهای شبکه بر پیشبینی پیوند میباشد.
-
Drug Abuse Detection Improvement using Graph Analysis Techniques
1403Drug abuse remains one of the most significant public health challenges globally, affecting millions and resulting in profound social and economic consequences. Traditional detection methods, largely reliant on self-reporting and clinical assessments, often fall short in capturing the complex reality of substance use behaviors. As substance abuse continues to evolve, innovative approaches are required to enhance detection, prevention, and intervention strategies while providing healthcare professionals and policymakers with robust data-driven insights. This study utilized the UCI dataset on drug consumption, comprising 1885 respondents with 12 attributes including personality traits, demographic information, and drug consumption behavior. We employed graph analysis techniques to enhance drug abuse detection, focusing on nicotine consumption. previous work used machine learning, we also used machine learning except that we added new features that we get from the graph. Our methodology involved data preprocessing, correlation analysis using Spearman's coefficient, graph construction with different thresholds for nicotine users and non-users, and feature extraction from the resulting graphs. We extracted seven centrality measures: Degree, Betweenness, Closeness, Eigenvector, Pagerank, Harmonic, and Load Centrality. We then combined these graph-derived features with the original dataset and applied various machine learning models for classification. The results demonstrated strong predictive performance, with the best model (Logistic Regression) achieving an accuracy of 0.985964 and an AUC of 0.999015. Other models, including Histogram-based Gradient Boosting, MLP, and SVM, also showed high accuracy above 0.85. This represents a significant improvement over recent studies in the field of drug abuse detection. Future research should focus on validating these results on diverse external datasets to ensure generalizability. Exploring temporal dynamics within drug abuse networks and integrating advanced techniques like Graph Neural Networks could further enhance the methodology. Additionally, expanding the approach to other substances and behavioral health issues could provide a more comprehensive understanding of addiction patterns. Ethical considerations regarding the use of highly accurate predictive models in healthcare settings should also be carefully addressed to ensure responsible application of these techniques.
-
Software Defect Prediction Using Ensemble Learning derived from Graph analysis
1403Software defect prediction plays a crucial role in enhancing software quality and reducing development costs. As software systems grow in complexity, the ability to accurately identify defect-prone modules becomes increasingly vital for efficient resource allocation and risk mitigation. Traditional approaches to defect prediction often struggle to capture the intricate relationships between software components, leading to suboptimal predictive performance. There is a pressing need for more sophisticated methods that can leverage the structural properties of software systems to improve defect prediction accuracy. This thesis presents a novel approach to software defect prediction by combining graph-based feature extraction with ensemble learning techniques. We transform software modules into graph representations, extracting meaningful features that capture the complex dependencies within the system. These graph-based features are then used to train a variety of ensemble classifiers, including Histogram Gradient Boosting, Extra Trees, and Random Forest. Our methodology is applied to three diverse datasets from the NASA Metrics Data Program: CM1, JM1, and KC1, representing spacecraft instruments, real-time ground systems, and storage management software, respectively. The results demonstrate significant improvements in defect prediction accuracy compared to existing state-of-the-art methods. Our approach achieves accuracy scores ranging from 0.966 to 0.994 across the datasets, with Area Under the Receiver Operating Characteristic Curve (AUC) scores consistently approaching or exceeding 0.99. These findings represent a 3% to 15% improvement over recent studies, highlighting the effectiveness of our graph-based ensemble learning method. The approach shows remarkable versatility, performing exceptionally well across diverse software domains and maintaining a balanced performance in terms of precision and recall. Future work will focus on exploring more advanced graph representation techniques, incorporating temporal information into the models, and investigating the application of explainable AI methods to enhance model interpretability. Additionally, expanding the study to a wider range of software projects and integrating the approach with existing development tools present exciting opportunities for practical application. As software systems continue to evolve in complexity, the proposed graph-based ensemble learning approach holds significant promise for advancing the field of software defect prediction and improving software quality assurance practices across the industry.
-
Integrating Graph-Based Techniques with Machine Learning for Disease Detection
1403The study explores the use of Graph Neural Networks (GNNs) for disease prediction in various medical scenarios. It proposes a methodology that transforms tabular patient data into graph-structured representations, capturing intricate linkages and patterns inherent in healthcare data. The methodology includes five essential stages: data preprocessing, graph generation, node embedding and feature extraction using GNNs, feature integration, and machine learning classification. During the graph generation step, similarity metrics like Gaussian, Jaccard, Cosine, and Spearman correlations are used to generate patient graphs that represent different aspects of patient similarities. Link prediction is used as an unsupervised learning objective to train GNN models, including Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), and GraphSAGE, to acquire significant node embeddings. The latent features obtained by GNNs are then combined with baseline preprocessed features, resulting in an enhanced feature set that incorporates both node-level and graph-level information. Machine learning classifiers such as Support Vector Machines (SVM) and Random Forest are trained using this enriched feature set. The empirical findings show that GNN-based approaches consistently surpass earlier state-of-the-art methods in all three disease categories. Graph Attention Network (GAT) shows outstanding performance in stroke prediction. The integration of GNN information with conventional classifiers leads to synergistic effects, producing highly accurate and robust prediction models. This work significantly enhances the medical informatics domain by demonstrating the remarkable capabilities of graph-based deep learning in disease prediction. It suggests that GNN-based methods can significantly increase the precision and dependability of disease prediction models, leading to earlier detection, more tailored treatment approaches, and better patient outcomes.
-
بهبود مبتنی بر گراف الگوریتمهای یادگیری ماشین پیشبینی آلزایمر
1403آلزایمر امروزه یکی از مهمترین چالشهای سلامت جهانی است که تاثیر عمیقی بر کیفیت زندگی بیماران و خانوادههای آنها دارد. طبق آمار سازمان جهانی بهداشت، بیش از 55 میلیون نفر در سراسر جهان به این بیماری مبتلا هستند و پیشبینی میشود این رقم تا سال 2050 به بیش از 150 میلیون نفر افزایش یابد و هفتمین علت مرگ و میر در جهان است و بار اقتصادی و اجتماعی قابل توجهی بر جوامع تحمیل میکند. این بیماری با از دستدادن تدریجی حافظه، اختلال در عملکردهای شناختی و تغییرات رفتاری مشخص میشود. این پژوهش یک رویکرد نوآورانه مبتنی بر گراف برای پیشبینی و تشخیص بیماری آلزایمر با استفاده از دادههای بالینی مجموعه OASIS ارائه میدهد. با ساخت شبکه شباهت بیماران و کشف ارتباطات و همبستگی بین آنها، توانستیم ویژگیهای مفیدی را استخراج کنیم که به طور قابلتوجهی متغیرهای بالینی معمول را برای طبقهبندی بیماری آلزایمر تقویت کرد. ما از پنج روش همبستگی شامل شباهت جاکارد، همبستگی اسپیرمن، همبستگی پیرسون، شباهت کسینوسی و فاصله اقلیدسی برای ایجاد این شبکه استفاده کردیم. این رویکرد به ما امکان داد تا روابط پیچیده بین عوامل مختلف را که ممکن است در روشهای سنتی نادیده گرفته شوند، شناسایی و تحلیل کنیم. نتایج ما نشان داد که ترکیب تکنیکهای پیشرفته تحلیل گراف با الگوریتمهای یادگیری ماشین میتواند به طور قابلتوجهی توانایی ما را در پیشبینی و مدیریت این بیماری پیچیده افزایش دهد. ما از هشت الگوریتم مختلف یادگیری ماشین شامل RandomForestClassifier،LogisticRegression ، SVM، KNeighborsClassifier، GradientBoostingClassifier، MLPClassifier، AdaBoostClassifier و DecisionTreeClassifier استفاده کردیم. با استفاده از روش بالانس کردن SMOTE و معیار شباهت جاکارد در ترکیب با الگوریتمهای GradientBoosting و AdaBoost، توانستیم به بالاترین دقت ۰٫۹۹۷۰ دست یابیم. همچنین در سایر معیارها نیز نتایج قابل توجهی به دست آمد، از جمله در همبستگی پیرسون و اسپیرمن با RandomForest (به ترتیب با دقت ۰٫۹۴۷۹ و ۰٫۹۴۶۴). بااینحال، روش ما محدودیتهایی نیز دارد که باید در کارهای آتی موردتوجه قرار گیرند. تعداد ویژگیهای استفاده شده در این مطالعه محدود بود و استفاده از مجموعهدادههای بزرگتر با تعداد ویژگیهای بیشتر میتواند نتایج را بهبود بخشد. همچنین، استفاده از روشهای پیشرفتهتر مانند شبکههای عصبی گرافی (GNN) میتواند در کارهای آتی مورد بررسی قرار گیرد. این روشها میتوانند به استخراج ویژگیهای پیچیدهتر و درک عمیقتر ساختار شبکه کمک کنند. علاوه بر این، اعتبارسنجی نتایج در مجموعهدادههای مستقل و بزرگتر میتواند به افزایش اطمینان از قابلیت تعمیم روش پیشنهادی کمک کند. در مجموع، این پژوهش میتواند منجر به تشخیص زودهنگام دقیقتر و بهبود مراقبت از بیمار شود و گامی مهم در جهت مقابله با چالشهای ناشی از بیماری آلزایمر باشد.
-
روشی جدید مبتنی بر تحلیل شبکه برای پیشبینی انصراف از تحصیل دانشجویان
1403انقلاب آموزشی در فضای دیجیتال با ظهور دورههای آنلاین باز گسترده (MOOCs) به مرحله جدیدی وارد شده است. این پدیده، که در سالهای اخیر رشد چشمگیری داشته، با چالشهایی مانند نرخ بالای افت تحصیلی و درصد پایین تکمیل دورهها مواجه است. پژوهش حاضر به بررسی روشهای نوین تحلیل و طبقهبندی دادههای آموزشی برای پیشبینی انصراف از تحصیل دانشجویان میپردازد. دادههای مرتبط با آموزش آنلاین شامل اطلاعات تعاملی، پیشرفت تحصیلی و محتوای دیجیتال هستند که به تحلیل کیفیت و اثربخشی مواد آموزشی کمک میکنند. مجموعه دادههای مورد استفاده از سیستم مدیریت یادگیری دانشگاه به دست آمده و شامل اطلاعات تحصیلی و رفتاری دانشجویان است. این پژوهش دقت پیشبینی را در میان دانشجویان در معرض خطر انصراف و دانشجویانی که به تحصیل ادامه میدهند، بررسی میکند. استفاده از روشهای نوین تحلیل دادهها میتواند دقت پیشبینی را بهبود بخشد. در این پژوهش، ابتدا سامانه و دادههای آموزشی آنلاین معرفی میشوند و سپس به دادهکاوی آموزشی و مسئله انصراف از تحصیل دانشجویان پرداخته میشود. اهمیت تشخیص زودهنگام دانشجویان در معرض انصراف مورد بحث قرار گرفته و دادهها به گراف تبدیل میشوند تا روابط و الگوهای پیچیده تحلیل شوند. ویژگیهای گرافی موثر برای ارائه اطلاعات درباره الگوهای رفتاری و تحصیلی دانشجویان استخراج میشوند. برای پیشبینی انصراف از تحصیل، سه روش بررسی شده است. در روش اول، از دادههای Harvard and MIT با ۲۲ ویژگی، ۶ ویژگی جدید استخراج شده است. در روش دوم، دادههای KDDCup با ۱۵ ویژگی و ۵ ویژگی محلی جدید بررسی شدهاند. در روش سوم، با تبدیل دادهها به دو مجموعه مجزا، ۵ ویژگی محلی و ۵ ویژگی سراسری جدید استخراج گردیده است. در نهایت، با معیارهای مختلف طبقهبندی، دانشجویان در معرض انصراف شناسایی میشوند و این رویکرد میتواند به شناسایی دقیقتر دانشجویان در خطر و مداخلات بهموقع کمک کند. نتایج این پژوهش نشاندهنده تاثیر مثبت رویکرد مبتنی بر گراف در تحلیل دادههای آموزشی و بهبود دقت پیشبینی انصراف از تحصیل دانشجویان است. این روش کارآمدتر از روشهای سنتی بوده و به موسسات آموزشی در شناسایی سریعتر دانشجویان در معرض خطر و اتخاذ اقدامات پیشگیرانه کمک میکند. ساختار گراف امکان بررسی روابط پیچیده بین ویژگیهای آموزشی را فراهم کرده و ویژگیهای موثرتر را استخراج میکند. در روش پیشنهادی اول، معیار InfoMap بهترین عملکرد را داشت. روش دوم دقت پیشبینی را 5.33 درصد و روش سوم دقت را 6.04 درصد بهبود بخشید و به دقت 100 درصد رسید. این یافتهها نشان میدهد که استخراج و ترکیب ویژگیهای مناسب میتواند دقت پیشبینی انصراف از تحصیل در MOOCs را به طور قابل توجهی افزایش دهد. این پژوهش با وجود نتایج مثبت، دارای محدودیتهایی نیز میباشد. یکی از چالشهای اصلی، دشواری در مدیریت و پردازش مجموعه دادههای بزرگ است که میتواند فرآیند تحلیل را زمانبر کند. برای غلبه بر این محدودیت، میتوان از روشهای گرافهای عمیق استفاده کرد که امکان تحلیل سریعتر و کارآمدتر دادهها را فراهم میکنند. در کارهای آینده، میتوان از روشهای پیشرفته تشخیص اجتماع برای استخراج ویژگیهای متعدد بهره برد و یا از کدگذاریهای مختلف برای استخراج ویژگیها استفاده کرد. این رویکردها نه تنها میتوانند به افزایش کارایی در پردازش دادههای حجیم کمک کنند، بلکه امکان کشف الگوهای پنهان و پیچیدهتر در دادههای آموزشی را نیز فراهم میآورند، که میتواند منجر به پیشبینیهای دقیقتر و جامعتر در زمینه انصراف از تحصیل دانشجویان شود.
-
تشخیص بیماری قلبی با استفاده همزمان از سیگنالهای الکتروکاردیوگرام و دادههای دموگرافیک
1403بیماریهای قلبی-عروقی یکی از اصلیترین علل مرگ و میر در جهان هستند و تشخیص به موقع و دقیق آنها میتواند نقش حیاتی در کاهش عوارض و بهبود کیفیت زندگی بیماران داشته باشد. در سالهای اخیر، پیشرفتهای چشمگیر در حوزه محاسباتی و یادگیری ماشین، افقهای جدیدی را در زمینه تشخیص بیماریهای قلبی گشوده است. روشهای محاسباتی پیشرفته، با توانایی پردازش حجم عظیمی از دادهها و شناسایی الگوهای پیچیده، امکان تشخیص سریعتر و دقیقتر را فراهم کردهاند. در این میان، استفاده از سیگنالهای الکتروکاردیوگرام (ECG) در کنار دادههای دموگرافیک، به عنوان یک رویکرد جامع، توجه بسیاری از محققان را به خود جلب کرده است. این پژوهش در راستای بهرهگیری از این پتانسیل و ارائه روشی نوین برای بهبود دقت و کارایی تشخیص بیماریهای قلبی انجام شده است. این پژوهش با هدف ارائه روشی نوین برای تشخیص بیماریهای قلبی با استفاده از گرافهای پدیداری و شبکههای عصبی گرافی انجام شده است. در این مطالعه، از مجموعه داده PTB-XL شامل اطلاعات دموگرافیک و سیگنالهای الکتروکاردیوگرام (ECG) 12 کاناله استفاده شد. روش پیشنهادی شامل مراحل پیشپردازش دادهها، تبدیل سیگنالهای ECG به گرافهای پدیداری افقی، ترکیب گرافها، استخراج ویژگی با استفاده از شبکههای عصبی گرافی (GNN)، و ادغام ویژگیهای استخراج شده با دادههای دموگرافیک هست. سه روش مختلف برای استخراج ویژگی مورد بررسی قرار گرفت: استفاده از اطلاعات سیگنال، استفاده از اطلاعات ساختاری گراف، و استفاده همزمان از اطلاعات سیگنال و ساختاری. در مرحله نهایی، از الگوریتمهای یادگیری ماشین پیشرفته مانند Bagging Classifier و Hist Gradient Boosting برای طبقهبندی استفاده شد. نتایج نشان داد که هر سه روش عملکرد قابل توجهی داشتند، با دقتهایی بالاتر از 99.8% و مقادیر AUC نزدیک به 1.0. روش ترکیبی که از هر دو نوع اطلاعات سیگنال و ساختاری استفاده میکرد، بهترین عملکرد را نشان داد. این امر نشان میدهد که ترکیب این دو نوع اطلاعات میتواند به استخراج ویژگیهای غنیتر و در نتیجه تشخیص دقیقتر بیماریهای قلبی منجر شود. استفاده از گرافهای پدیداری افقی برای نمایش سیگنالهای ECG نقش مهمی در موفقیت این رویکرد داشت، زیرا این گرافها توانستند الگوهای پیچیده موجود در سیگنالهای ECG را به شکلی قابل پردازش برای شبکههای عصبی گرافی درآورند. با وجود نتایج امیدوارکننده، این پژوهش با چالشهایی نظیر پیچیدگی محاسباتی، نیاز به منابع قوی، و محدودیت در تفسیرپذیری مدل مواجه بود. با این حال، این مطالعه گامی مهم در جهت بهبود تشخیص بیماریهای قلبی با استفاده از تکنیکهای پیشرفته محاسباتی و یادگیری ماشین و یادگیری عمیق برداشته است. انتظار میرود که با رفع محدودیتهای موجود و انجام مطالعات گستردهتر، این روش بتواند به عنوان ابزاری موثر در کنار متخصصان قلب برای تشخیص دقیقتر و سریعتر بیماریهای قلبی مورد استفاده قرار گیرد.
-
Web page Classification using Network Analysis Approach
1403Web page classification is a fundamental task in the field of web mining, playing a crucial role in organizing and managing the vast amount of information available on the internet. As the web continues to grow exponentially, the need for accurate and efficient classification methods becomes increasingly important. Proper categorization of web pages enables more effective information retrieval, enhances search engine performance, and facilitates content management across various domains. However, the dynamic nature of web content, diverse page structures, and the sheer volume of data pose significant challenges to traditional classification approaches. This thesis addresses these challenges by proposing a novel method that combines network analysis with conventional content-based techniques, aiming to improve the accuracy and robustness of web page classification systems. This thesis presents a novel approach to web page classification, addressing the challenges posed by the dynamic and complex nature of web content. By integrating graph-based features with traditional content-based methods, we develop a more robust and accurate classification system. Our methodology involves constructing network graphs from web page datasets, extracting centrality measures, and incorporating these as additional features for machine learning algorithms. We utilize the Dmoz dataset, a comprehensive web directory, to train and evaluate various classification algorithms. Our approach employs both Pearson and Spearman correlation methods to capture linear and monotonic relationships between web pages. We compare the performance of multiple machines learning algorithms, including Naive Bayes, Decision Trees, Support Vector Machines, and ensemble methods such as Random Forests and Gradient Boosting. The results demonstrate significant improvements in classification accuracy compared to existing methods. Our best-performing model, the Histogram-Based Gradient Boosting Classifier, achieves an accuracy of 77.17% using the Spearman method, outperforming previous benchmarks. We provide a comprehensive analysis of classifier performance using multiple metrics, including precision, recall, F1-score, and Area Under the Curve (AUC). This research contributes to the field of web mining by offering a more adaptable and efficient approach to web page classification. The integration of graph-based features enhances the model's ability to capture complex relationships between web pages, leading to improved classification accuracy. Our findings have important implications for various applications, including search engine optimization, content management, and information retrieval systems. The thesis concludes by discussing the limitations of the current approach and proposing future research directions, including the integration of deep learning techniques, exploration of dynamic graph analysis, and investigation of multi-modal classification methods.
-
A novel method for Multilayer link prediction using GNN
1403Graph Neural Networks (GNNs) have proven to be highly effective for various graph-related tasks, including link prediction. However, most existing GNN-based methods are designed for single-layer graphs, which include only nodes and links of a single type. This limitation poses a significant challenge, as many real-world applications, such as social networks, involve multilayer graphs with multiple types of edges between nodes. Addressing the need for effective multilayer link prediction is crucial for better performance and insights in these complex networks. To tackle this issue, we have proposed a novel method for multilayer link prediction using GNNs. Our approach begins with transformation multilayer networks into flat network by leverages three different kinds of features: graph features, community features, and embedding features. By integrating these features with the most effective GNN model, we can capture the intricacies of multilayer graphs. We employ a Multilayer Perceptron (MLP) as the decoding mechanism, which enhances the prediction process. This methodology ensures a comprehensive analysis of the multilayer graph structure, facilitating more accurate link predictions. We evaluated our proposed model on six real-world multilayer datasets, demonstrating its effectiveness in handling the complexities of multilayer link prediction. Our results show that our model outperforms other existing models, highlighting its robustness and reliability. The successful application of our method to these diverse datasets underscores its potential for broad applicability in various real-world scenarios, marking a significant advancement in the field of graph-based machine learning.
-
بهبود یافتن کراوات ضعیف توسط کشف اجتماع ناشی از خوشهبندی قله تراکم
1403امروزه شناسایی پیوندهای ضعیف به دلیل بار اطلاعاتی بالایی که دارند، اهمیت زیادی پیدا کرده است. این پدیده به ویژه در شبکههای اجتماعی و تحقیقات اجتماعی توسعه یافته است. پیوندهای ضعیف اغلب به عنوان پلهای ارتباطی بین گروهها یا جوامع مختلف عمل میکنند. این ارتباطات ضعیف، فرصتهای جدید شناختی و اجتماعی را فراهم میکنند که ممکن است به ایجاد ایدههای نوآورانه، همکاریهای پژوهشی یا حتی فرصتهای شغلی منجر شود. در این پژوهش، ما با ترکیب دو حوزه علمی، یعنی تشخیص جوامع و پیشبینی پیوند به شناسایی پیوندهای پراهمیت در شبکههای بزرگ و کوچک از پایگاهداده networkrepository پرداخته ایم. برای روش تشخیص جوامع از روش خوشهبندی قله تراکم استفاده میکنیم که از مزایای خودکار بودن در تعیین تعداد خوشهها و مستقل بودن از اندازه و شکل خوشهها بهره میبرد. یکی از چالشهای استفاده از این روش برای تشخیص اجتماعات این است که ورودی به صورت ماتریس فاصله است، در حالیکه در شبکه ورودی به صورت ماتریس مجاورت است. با این حال، با بهرهگیری از کارهای پیشین انجام شده در این زمینه، ما به موفقیت در حل این چالش دست یافتیم. پس از انجام خوشهبندی بر روی شبکه مورد نظر، پیوندهای بین خوشهها به عنوان پیوندهای ضعیف معرفی میشوند. سپس، برای مرتبسازی پیوندهای ضعیف از پراهمیتترین تا کماهمیتترین، از پیشگویی پیوند معکوس برای امتیازدهی استفاده میکنیم. در پایان، با استفاده از معیار ماژولاریتی، به ارزیابی تشخیص جوامع روش خود نسبت به یک روش رقیب پرداختیم. نتایج نشان دادند که در اکثر مجموعهدادهها، روش ما برتری داشته است. سپس، با بهرهگیری از معیار Efficiency، به بررسی اهمیت پیوندهای ضعیف شناسایی شده در این پژوهش و کارهای قبلی پرداختیم. نتایج نشان داد که در شبکههای کوچک، روش ما همواره برتری داشته ولی در شبکههای بزرگ، گاهاً در یک مورد ممکن است به علت خصوصیات خاص شبکه، مغلوب روش رقیب شویم.
-
Graph-Based Improvement of Student Performance Prediction
1403Educational data analysis faces the challenge of optimizing predictive models for student performance. While traditional statistical and machine learning methods dominate, graph-based data representations remain underexplored. Graphs offer holistic insights into students’ learning journeys, revealing patterns beyond conventional models. The surge in educational data underscores the need to harness it effectively for student outcomes. This research Graph-Based Improvement of Student Performance Prediciton (GBISPP) bridges the gap by investigating graph-based methodologies for performance prediction. These techniques make relationships among students, courses, and resources, aiming to enhance predictive accuracy. In our study, After pre-processing and converting the data to graph. Then, we started by setting a threshold of (0.75), and we used (Gaussian filter) and (Spearman correlation) similarities for our research process. Then we added graph features (Cluster Coefficient, Betweenness Centrality, Eigenvector Centrality, Degree Centrality, Closeness Centrality, Average Weighted Degree, Average Clustering, Density, and Degree). The outcomes of our study for the five algorithms employed (Random Forest, Naïve Bayes, Decision Tree, AdaBoost, and SVM) are displayed, The Random Forest recorded the highest accuracy it was (86.34). For the data analysis process we used (5000) records in the Open University Learning Analytics Dataset (OULAD) from Kaggle, we focused on ‘studentInfo’ and ‘studentAssessment’ tables. This reliable source contributes to educational research in Educational Data Mining (EDM).
-
بهبود یک سیستم توصیه گرمحصولات دنبالهدار با استفاده از گراف سهبخشی و پیش بینی لینک
1402سیستمهای توصیهگر مبتنی بر گراف سهبخشی و پیش بینی لینک، به عنوان یک رویکرد نوآورانه در زمینه توصیه محتوا به کاربران شناخته میشوند. این سیستمها از ارتباطات بین کاربران، محصولات و ویژگیها به عنوان یک گراف سهبخشی بهره میبرند و با پیش بینی لینکهای جدید در این گراف، محتواهای مناسب به کاربران توصیه میشود. پیش بینی لینک در اینجا به معنای پیش بینی احتمال وجود ارتباط بین کاربران و محصولات است. این مدلها به خوبی میتوانند پیچیدگی روابط مختلف را در گراف مدلسازی کنند و احتمال وجود اتصالات میان عناصر را محاسبه کنند. این اطلاعات به سیستم توصیهگر کمک میکنند تا محصولات مرتبط با ترجیحات کاربران را با دقت بیشتری پیشنهاد دهند. هدف از ارائه این پژوهش بهبود یک سیستم توصیهگر محصولات دنبالهدار با استفاده از گراف سهبخشی و پیش بینی لینک است، نتایج نشان دادند که سیستم توصیهگر مبتنی بر گراف سهبخشی و پیش بینی لینک بهبود قابل توجهی در دقت پیش بینی ، تنوع محتوا و ارائه محتواهای دنبالهدار نسبت به سیستمهای مبتنی بر کاربر و محصول دارند. این ارتقاءها به دلیل توانایی این سیستمها در درک ارتباطات پیچیده بین کاربران و محصولات و همچنین بهبود در پیش بینی لینکهای مهم در گراف سهبخشی است. همچنین، مشخص شد که سیستمهای توصیهگر مبتنی بر گراف سهبخشی معمولاً به دلیل بهبود پیش بینی لینکها، تنوع محتوا و ارائه محتواهای دنبالهدار، عملکرد بهتری در دقت پیش بینی و تنوع محتوا دارند. این امر به دلیل قابلیتهای منحصربهفرد این سیستمها در مدلسازی ارتباطات و ویژگیهای پیچیده است.
-
بهبود کارایی پیشبینی پیوند چندلایه با استفاده موثر از کشف اجتماع و مرکزیت
1402یکی از موضوعاتی که به شدت در تحلیل شبکه مورد مطالعه قرار گرفته است، مسئله پیشبینی پیوند است که اهمیت فراوانی در مسائل زیستی، علمی و شبکههای اجتماعی و ... دارد و عبارت است از: امتیاز دادن به یالهای غیرموجود. نوع خاصی از پیشبینی پیوند که کاربردهای زیادی دارد، پیشبینی پیوند در شبکههای چند لایه است که دو نوع اصلی از شبکههای چندلایه عبارتنداز: 1) شبکههای چندگانه که در آن تعداد و نوع گرهها در تمام لایهها یکسان بوده و پیوندهای بینلایهای که گرهها را در دو لایه بههم متصل میکند به صورت یک به یک است و در واقع گرههای با ماهیت یکسان را بههم متصل میکند و اما 2) شبکههای بههم پیوسته که در آن تعداد و نوع گرهها در لایهها لزوما یکسان نیست و همچنین پیوندهای بینلایهای غیر یک به یک بوده و گرههای با ماهیت متفاوت را بههم متصل می-کند و همچنین هر گره از هر لایه میتواند به هر گره از لایه دیگر متصل شود. پیشبینی پیوند در شبکههای چند لایه به دو صورت انجام میپذیرد: 1) پیشبینی پیوند درون لایهای که در آن پیوندهای ناموجود در درون یک لایه پیشبینی میشود و 2) پیشبینی پیوند بین لایهای که در آن پیوندهای بین لایهای ناموجود بین دو لایه مختلف پیشبینی میشود. بیشتر مطالعاتی که تاکنون انجام شده است بر پیشبینی پیوند درون لایهای تمرکز داشتهاند و مطالعه در زمینه پیشبینی پیوند بین لایهای هنوز در مراحل اولیه است و اینکه مطالعاتی که تاکنون در زمینه پیشبینی پیوند بین لایهای انجام شدهاند همگی بر روی شبکه-های چندگانه که در واقع زیر مجموعهای از شبکه چند لایه است با کمینه تعداد لایه (2 لایه) کار کردهاند، به همین دلیل در این پایاننامه ما پیشبینی پیوند بین لایهای را در شبکههای چند لایه بههم پیوسته بدون محدودیت در تعداد و نوع گرهها در لایهها، تعداد لایهها و تعداد پیوندهای بین لایهای انجام میدهیم. برای این کار از سه رویکرد: 1) تبدیل شبکه چند لایه به شبکههای مسطح 2) کاهش شبکه چند لایه به شبکههای دو بخشی و 3) بهرهگیری از کشف اجتماع و مرکزیت برای انجام پیشبینی پیوند بین لایهای کمک میگیریم. الگوریتمهای مورد استفاده در پیشبینی پیوند، الگوریتمهای پایه: همسایگان مشترک، ضریب جاکارد، پیوست ترجیحی و آدامیک آدار هستند و رویکرد کشف اجتماع استفاده شده در این کار، الگوریتم معروف گیروان-نیومن است. همچنین از معیار مرکزیت نزدیکی برای تعیین اهمیت گرهها، استفاده شده است. مجموعه دادههای استفاده شده در این کار شامل: شبکه 3 لایه برگرفته از متن فیلمنامه، فیلم معروف "The Avengers 2012" و شبکههای 3، 4 و 5 لایه سریال "Star Wars" است. در نهایت نتایج دقت رویکردهای پیشنهادی در چهار فاز: 1) پیشبینی پیوند بین لایهای از طریق شبکه مسطح، 2) پیشبینی پیوند بین لایهای از طریق شبکه دو بخشی، 3) پیشبینی پیوند بین لایهای از طریق ترکیب نتایج رویکرد اول و دوم برای بهبود نتایج دقت پیشبینی پیوند از طریق شبکه دو بخشی و 4) پیشبینی پیوند بین لایهای از طریق ترکیب نتایج رویکرد اول و دوم و سوم که بهرهگیری از کشف اجتماع و مرکزیت است، ارائه میشود که به طور کلی هدف از ارائه فاز سوم و چهارم که برای محاسبه دقت از ترکیب نتایج رویکردهای پیشنهادی استفاده میکنند، بهبود دقت نتایج فازهای اول و دوم است و با توجه به نتایج ارائه شده بهترین عملکرد مربوط به فاز سوم (پیشبینی پیوند بین لایهای از طریق ترکیب رویکرد مسطح نمودن شبکه و کاهش به شبکه دوبخشی) است. همچنین بهترین نتایج برای AUC برای شبکه چهار لایه Star Wars 3 و شبکه پنج لایه Star Wars 2 با مقدار بیش از 0.9 برای فازهای سوم و چهارم به ازای هر چهار معیار امتیازدهی پیشبینی پیوند بدست آمد.
-
تحلیل و تشخیص بیماریهای مرتبط با مغز بر اساس روشهای مبتنی بر کاوش گراف
1402دادههای مرتبط با بیماریهای مغز از روشهای مختلف و در قالبهای متنوعی تهیه میشوند که از جمله آن میتوان به دادههای بالینی و اطلاعات سلامت بیماران (EHR)، تصویربرداری مغزی، اطلاعات ژنتیکی و سریهای زمانی حاصل از ثبت علایم اشاره کرد. ثبت علایم مغز که عمدتا در قالب سریهای زمانی است، تاکنون به صورت وسیع برای تشخیص انواع بیماریها توسط روشهای یادگیری ماشین مورد بررسی قرار گرفته است. نگاه گرافی به دادههای سری زمانی مرتبط با مغز در ده سال اخیر رواج فراوانی یافته است، که رایجترین شکل آن، تبدیل سری زمانی سیگنالهای مغز به گراف پدیداری است و به این ترتیب تحلیل گراف پدیداری مغز برای بیماریهای آن، اکنون روشی کارآمد و شناخته شده به حساب میآید. این پایاننامه به بررسی روشهای نوین تحلیل و طبقهبندی سیگنالهای الکتروانسفالوگرام (EEG) به منظور تشخیص خودکار تشنج در بیماران مبتلا به صرع میپردازد. صرع یک بیماری مغزی شایع است که باعث بروز حملات تشنجی میشود. مجموعهداده استفاده شده در این پژوهش در دانشگاه بون بهدستآمده و به صورت عمومی در دسترس است. این مجموعه داده شامل پنج گروه است که ما به بررسی دقت تشخیص در بین دو گروه D و E که به ترتیب برای افراد مبتلا به صرع در فواصل بدون تشنج و تشنج است، خواهیم پرداخت. تشخیص تشنج صرع مبتنی بر EEG است که الگوهای پیچیده فعالیتهای الکتریکی مغز را ثبت میکند. تحلیل دستی EEG برای تشخیص تشنج زمانبر و خطاپذیر است. در این پژوهش ابتدا به معرفی ساختار و عملکرد مغز و نقش سیگنالهای EEG در بررسی اختلالات مغزی پرداخته میشود. سپس اهمیت تشخیص بهموقع تشنج و چالشهای موجود در تحلیل دستی EEG مورد بحث قرار میگیرد. آنگاه مجموعه داده مورد بررسی به گراف پدیداری افقی تبدیل میشود و برای افزایش کیفیت تبدیل، از پیشبینی پیوند برای بهبود ساختار شبکه ایجاد شده بهره گرفته میشود. آنگاه نسبت به شناسایی و استخراج موثرترین ویژگیهای گرافهای حاصل شده مشتمل بر جمله ضریب خوشهبندی، چگالی و شاخص پیچیدگی اقدام میشود. سپس با بهکارگیری الگوریتمهای مختلف طبقهبندی،SGD، KNN و SVM با کرنل RBF تشنج در بیماران مبتلا به صرع تشخیص داده میشود. نتایج حاکی از تاثیر مثبت بهبود ساختار شبکه با پیشبینی پیوند، قبل از اعمال روشهای طبقهبندی و حصول دقت بالاست. این شیوه نسبت به سایر روشهای تشخیص محاسباتی بیماریهای مغز دارای پیچیدگی زمانی کمتر و کارآمدی بالاتر است و میتواند به پزشکان در تشخیص سریعتر صرع و کنترل حملات تشنجی کمک کند. در نهایت با توجه به تنوع روشهای پیشبینی پیوند و انتخاب ویژگی و همچنین بیماریهای مختلف مرتبط با مغز که داده در قالب سری زمانی دارند، میتوان توسعههای آتی متنوعی برای این پژوهش تعریف نمود.
-
بهبود پیشبینی پیوند وزنی با استفاده از الگوریتمهای تشخیص اجتماع
1402پیشبینی پیوند وزندار یک مسئله در شبکههای پیچیده و پویا است که به پیشبینی ایجاد یا قطع ارتباطات بین گرهها میپردازد. این مسئله کاربردهای گستردهای در حوزههای مختلف از جمله شبکههای اجتماعی آنلاین، بازیابی اطلاعات، تجارت الکترونیک، بیوانفورماتیک و غیره دارد. برای رسیدن به این هدف، از روشهای مختلفی استفاده شده است. یکی از این روشها، استخراج ویژگیهای ساختاری شبکه (ها) است. به این معنی که یک یا چند ویژگی از ساختار شبکه برای پیشبینی ایجاد ارتباط جدید بین گرهها مورد استفاده قرار میشود. روشهای پیشبینی پیوند وزندار بدون ناظر، عمدتا مبتنی بر پردازش اطلاعات همسایگان مشترک یا تعداد آنها هستند که روشهای جاکارد، همسایگان مشترک، آدامیک/آدار و الحاق ترجیحی از رایجترین آنها به شمار میروند. با توجه به اینکه روشهای کشف اجتماع رایج نیز از اطلاعات ساختاری و همسایگی گرهها برای یافتن بیشینه شباهت آنها استفاده میکنند، تاکنون پژوهشهایی برای بهبود دقت پیشبینی پیوند با کمک کشف اجتماع صورت گرفته است. در این پژوهش با دو ایده جدید زیر، نسبت به بازتعریف روشهای پیشبینی پیوند اقدام خواهیم کرد: لحاظ کردن امتیاز بیشتر برای همسایگان مشترک دو گره که اجتماع مشترک دارند و لحاظ کردن بزرگترین اجتماع دربرگیرنده بیشترین تعداد همسایگان مشترک. بدین ترتیب تراکم همسایههای مشترک در اجتماعاتی که از روشهای رایج کشف جامعه مانند گیروان نیومن، لووین و الگوریتم انتشار برچسب ناهمزمان حاصل میشوند، سبب بهبود پیشبینی پیوند خواهند شد. پس از پیادهسازی دو ایده پیشنهادی در این پژوهش، ارزیابی مبتنی بر محاسبه AUC نشان میدهد که نتایج پیشبینی پیوند وزندار در مجموعه دادههای Animal Social، USAir، Celegans و Net Science بهبود یافته است. به عنوان مثال، در مجموعه داده Animal Social، استفاده از ترکیب روشهای آدامیک/آدار و لووین منجر به بهبود 18.5 درصدی شده است. همچنین، در مجموعه داده USAir، استفاده از ترکیب روشهای آدامیک/آدار و گیروان-نیومن بهبود 5.5 درصدی را نشان داده است. در نتیجه، در مجموعه داده Net Science، استفاده از ترکیب روشهای آدامیک/آدار و لووین نسبت به رویکرد CCNI_FCNI_DS در مقاله رقیب، بهبود 0.5 درصدی داشته است. در رویکرد تجربی که در مقاله کومار و همکاران آمده است، در دیتاست USAir، استفاده از روشهای ترکیبی به صورت میانگین منجر به بهبود 29.21 درصدی گردیده است و در دیتاست مشترک Celegans نیز استفاده از روش های ترکیبی به صورت میانگین 13.85 درصد نسبت به روش مقاله مرجع بهبود یافته است. تمامی روشهای پیشبینی پیوند وزندار و روشهای تشخیص اجتماع مورد استفاده در این تحقیق، در بهبود نتایج نقش مهمی ایفا کردهاند. روش آدامیک/آدار بیشترین بهبود را در میان روشهای پیشبینی پیوند داشته است، و روشهای لووین و گیروان-نیومن به ترتیب بیشترین بهبود را در میان روشهای تشخیص اجتماع ارائه دادهاند. توسعههای آتی این پژوهش میتواند گسترش حیطه به روشهای با ناظر یا بهرهگیری از روشهای قویتر مبتنی بر پردازش مسیر و لحاظ نمودن ویژگیهای سراسری گراف باشد. همچنین میتوان معیارهای ارزیابی بیشتری مانند مولفهای بودن یا اطلاعات متقابل را نیز مورد آزمون قرار داد. علاوه بر آن میتوان بر روی روشهایی کار کرد که پیشبینی همزمان یال و وزن آن را پوشش دهند.
-
روش جدید تشخیص وبسایتهای فیشینگ با استفاده تکنیکهای تحلیل شبکههای پیچیده
1402حملات فیشینگ یکی از مخربترین و گستردهترین تهدیدهای امنیتی در فضای مجازی امروزه محسوب میشوند که عمدتاً ایمیل، موسسات مالی، پرداختها، رسانههای اجتماعی و تجارت الکترونیک را هدف قرار میدهند. این حملات با بهرهگیری از مهندسی اجتماعی و تقلید از برندهای معتبر، کاربران را فریب میدهند تا اطلاعات حساس خود را در اختیار مهاجمان قرار دهند. طبق آمارهای ارائه شده توسط گروه کاری ضد فیشینگ، تنوع و تعداد این حملات به طور فزایندهای در حال افزایش است. با توجه به پیچیدگی و تنوع روزافزون حملات فیشینگ، نیاز به توسعه راهکارهای نوین و موثر برای تشخیص به موقع این حملات به شدت احساس میشود. روش های محاسباتی مختلفی تاکنون برای شناسایی وبسایتهای فیشینگ عرضه شده اند که عمدتا مبتنی بر شباهت یا یادگیری عمیق هستند. در این پایاننامه، روشهای مختلف ضد فیشینگ برای جمعآوری تکنیکهای مبتنی بر گراف بررسی شده است و با در نظر گرفتن محدودیتها و کمبودهای روشهای پیشین تشخیص فیشینگ که مبتنی بر گراف هستند، یک رویکرد جدید پیشنهاد شده است که شامل ایجاد دو گراف مجزای وزندار بر اساس مجموعه دادههای قانونی و فیشینگ است. این رویکرد ویژگیهای مبتنی بر URL را از دو مجموعه داده انتخاب میکند و بر اساس ضریب همبستگی بین این ویژگیها، یک گراف به ازای هر یک از مجموعه دادهها ایجاد میکند. پس از فیلترکردن یالهای ضعیف، ویژگیهای مبتنی بر تحلیل شبکه های پیچیده، مانند ضریب خوشهبندی، شاخصهای مرکزیت وغیره استخراج میشوند و مهمترین ویژگیها به عنوان ورودی برای طبقهبندی و تمایز بین وبسایتهای قانونی و فیشینگ انتخاب میشوند. علاوه بر این، معیارهای ارزیابی مانند دقت، صحت، اندازه گیری F1-Score و ROC برای کشف بهترین طبقهبند استفاده میشود. نتایج نشان میدهد روش پیشنهادی دقت 99.57% در تشخیص وبسایتهای فیشینگ دارد که بالاتر از روشهای مشابه است. همچنین قابلیت تشخیص وبسایتهای فیشینگ جدید و ناشناخته را دارد. از کارهای آتی این پژوهش میتوان به تشکیل گراف ناهمگن برای لحاظ کردن همزمان ویژگیهای مرتبط با فشینگ و قانونی وبسایتها اشاره نمود. همچنین میتوان ویژگیهای موخر یا سراسری گرافها را نیز در عملکرد طبقهبندها لحاظ نمود.
-
Improving Community Detection Using Mixed Link Prediction
1402Community detection means dividing the nodes in complex networks into different groups. Nodes within the same group are closely connected, while nodes in different groups have fewer connections. Community detection is fundamental problem in network analysis, aiming to uncover the underlying structures and organization within complex networks. Traditional methods focus on network topology, neglecting valuable information contained in different types of links. Improving the network structure purposefully can result in better outcomes in community detection. In this study, we have utilized mixed link prediction as a technique to enhance the network structure. Our goal was to eliminate any noise in the network and restore any missed links without altering the number of nodes and edges. We then proceeded to apply various community detection algorithms to compare the quality of the results. To ensure the generality of our approach, we chose the most popular community detection methods (Louvain, Giravan Newman, and Fast Greedy) and link prediction ranking formulas (Common Neighbors, Jaccard Coefficient, Adamic/Adar, Preferential Attachment, and Recourse Allocation) as the core of mixed link prediction. To evaluate the effectiveness of our proposed method, we test it on four different real-world datasets from various domains based on modularity and normalized mutual information measures. Our findings demonstrate that our novel framework for community detection using mixed link prediction improves community detection results in most cases. The success rate also depends on the network properties. Furthermore, this approach has the potential to be extended to stronger community detection and link prediction methods in future researches.
-
بهبود کیفیت تبدیل سری زمانی به گراف پدیداری نفوذپذیر محدود با ایجاد نسخه وزندار و پیشبینی پیوند
1401امروزه تحلیل سریهای زمانی از منظر شبکه پیچیده، علاقه بسیاری از پژوهشگران را برانگیخته است. برای تبدیل نوع داده سری زمانی به شبکه (گراف) روشهای مختلفی وجود دارد که رایجترین آنها استفاده از گراف پدیداری است. در یک دستهبندی کلی، خانواده الگوریتمهای گراف پدیداری شامل گراف پدیداری طبیعی(NVG)، افقی(HVG) و نفوذپذیر محدود(LPVG) است که هر یک به اقتضای نیاز پژوهشگر و موضوع مورد پژوهش میتوانند مفید واقع شوند. گرافهای پدیداری کاربردهای متعددی در شناخت و کشف ویژگیهای خاص سریهای زمانی و حتی پیشگویی مقادیر آتی آنها دارند. زمینههای انجام پژوهش در این حیطه، تحلیل رفتار سری زمانی، پیشبینی رفتار سری زمانی، بهبود کیفیت تبدیل سری زمانی و توسعه مفهوم به گرافهای پیچیدهتر است. حاصل اعمال الگوریتم گراف پدیداری بر دادههای سری زمانی، گرافی ساده است و دقت انجام چنین کاری نیز صد درصد نیست. دراین راستا، گراف پدیداری نفوذپذیر محدود(LPVG)، به عنوان یک نسخه قویتر با مقاومت بیشتر نسبت به نویز ارائه شد. همچنین گراف ساده حاصل از تبدیل، ممکن است منعکس کننده ماهیت اصلی دادههای سری زمانی نباشد و گراف غنیتری از نظر اطلاعات موجود، برای نمایش نیاز باشد. لذا تاکنون نسخه وزندار گراف پدیداری ساده نیز عرضه و کارایی آن به اثبات رسیده است. با توجه به امکان وزندار کردن گراف پدیداری نفوذپذیر محدود که تاکنون انجام نشده است و امکان بهرهبرداری از روشهای کاهش نویز در گراف مبتنی بر پیشگویی پیوند، هنوز راه برای بهبود تبدیل دادههای سری زمانی به گراف پدیداری باز است و افزایش دقت و کیفیت تبدیل، کماکان یک چالش کلیدی محسوب میشود. اولین مرحله، تبدیل نوع داده سریهای زمانی به گراف پدیداری نفوذپذیر محدود(نسخه قویتری از گراف پدیداری طبیعی) است. سپس از سه روش وزندار کردن فاصله اقلیدسی، تانژانت زاویه دید و فاصله زمانی برای ساخت گراف وزندار استفاده شده است. در مرحله بعد با اعمال پیشبینی پیوند، سعی در بهبود هرچه بیشتر کیفیت گراف شده است. برای امتیازدهی به ارتباطات در پیشبینی پیوند از معیارهای شباهت همسایگان مشترک، اتصال ترجیحی و ضریب جاکارد در نسخه وزندار پیشنهاد و ارزیابی شده است. برای اثبات اعتبار روش پیشنهادی، سه مجموعه داده سری زمانی Taiex، فروش خانه و فروش شامپو اتخاذ شده است که در آن از معیار مبتنی بر پیشبینی پیوند AUC برای ارزیابی عملکرد گراف وزندار استفاده میشود. نشان داده شده است که در گراف وزندار ساخته شده با روشهای پیشنهادی و اعمال پیشبینی پیوند، مقدار AUC حداکثر تا 0.99376 افزایش مییابد و تا حد زیادی بهتر از گراف بدون وزن به دست آمده توسط نظریه گراف پدیداری نفوذپذیر محدود عمل میکند.
-
تحلیل گراف پدیداری دادههای آموزشی
1401دادههای سری زمانی آموزش الکترونیک مانند دادههای جریان کلیک و دادههای بایگانی اهمیت زیادی در رابطه با کشف الگویهای رفتاری دانشجویان آن سامانهها دارد. شناخت و تحلیل این نوع دادهها اطلاعات باارزشی در اختیار مدیران سازمانهای مرتبط میگذارد، همانند تشخیص دانشجویان مستعدد ترک تحصیل، شناسایی دانشجویان فعال در پیگیری تکالیف علمی، گروهبندی دانشجویان براساس شباهتهای رفتاری، تصمیمگیری متناسب با الگوی رفتاری آنها، تشخیص علایق دانش آموزان به یک محتوای آموزشی خاص یا دوره تحصیلی یا یک مدرس خاص براساس فعالیتها و تعاملشان با سامانه و غیره. از طرفی تحلیل گراف پدیداری زمینهای نوظهور در تحلیل شبکه است که تاکنون در زمینههایی مانند پزشکی، اقتصاد، معماری، پردازش تصویر، زمینشناسی و برخی زمینههای دیگر مطرح شده است که خروجی این بررسیها سبب پیشبینی به موقع بیماریها جهت جلوگیری از پیامدهای خطرناک آنها، برآورد بازده بازارهای مالی با برنامهریزی استراتژیک، اصلاح مدل محاسباتی جهت کارایی هزینههای بصری و غیره بوده است. همچنین دادههای سری زمانی آموزش الکترونیک تاکنون در حوزههای پژوهشی مانند کشف دانش در سیستمهای آموزشی، شناسایی الگوهای رفتاری مختلف و پیشبینی نتایج آینده و غیره با روشهای یادگیری ماشین از جمله شبکه عصبی بازگشتی، ماشین بردار پشتیبان و شبکه عصبی مصنوعی مورد تحلیل قرار گرفتهاند. اما بیشتر پژوهشهای انجام شده تاکنون بر دادههای جریان کلیک آموزشی، مبتنی بر روشهای غیر شبکهای و مرتبط با الگوریتمهای یادگیری ماشین بوده است. با توجه به اهمیت الگوریتمهای گراف پدیداری و نقش آن در حیطه تحلیل دادههای سری زمانی، با نگاشت مناسب آن به حیطه دادههای آموزشی میتوان از این پتانسیل بهره برد. هدف این پژوهش توسعه زمینه پژوهشی تحلیل گراف پدیداری به حیله دادههای آموزشی برای اولین بار است. بدین منظور یک نمونه موردی نیز تعریف و بررسی شده است که عبارت است از تشخیص دانشجویان ضعیف از قوی براساس تحلیل گراف پدیداری دادههای جریان کلیک سامانه آموزشی براساس معیارهای تحلیل شبکه مانند مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه و غیره. داده ها از سامانه OULAD که حاوی اطلاعات تعامل کاربران با سامانه آموزشی است، انتخاب شده است. نتایج نشانگر این است که بالاتر بودن مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه در گراف پدیداری حاصل از سری زمانی کلیک دانشجویان، متمایز کننده دانشجو ممتاز از ضعیف و تاییدکننده عدم شباهت رفتاری دانشجویان براساس میانگین کلیکهایشان در سامانه است. از طرفی هر سه معیار مذکور با p-valueبسیار پایین نسبت به سایر پارامترها به صورت مشخصی توانستند دانشجویان ممتاز از ضعیف را به درستی تشخیص دهند. میانگین دقت این پارامترها با الگوریتمهای مختلف یادگیری ماشین با اعتبارسنجی متقاطع ده لایه حاصل شده است. الگوریتم درخت تصمیم با میانگین دقت 78 درصد نسبت به سایر الگوریتمها در تشخیص دانشجویان ممتاز از ضعیف بهتر عمل کرده است.
-
بیشینه کردن کارایی الگوریتم های پیش بینی پیوند بدون ناظر با ترکیب موثر روش های محلی و سراسری
1401پیش بینی پیوند مساله ای در شبکه های پیچیده است که به پیش بینی به وجود آمدن ارتباط های جدید بین گره ها می پردازد و کاربردهای مختلفی در حوزه های گوناگون از جمله شبکه های اجتماعی، بازیابی اطلاعات، تجارت الکترونیک و بیوانفورماتیک دارد. روش های متفاوتی برای تحقق این هدف استفاده شده است. یک دسته از این روش ها، مبتنی بر استخراج ویژگی های ساختاری شبکه می باشند. به این معنا که یک یا چند ویژگی از ساختار شبکه را جهت پیش بینی به وجود آمدن ارتباط جدید بین گره ها مد نظر قرار می دهند. ویژگی های محلی، بیشتر اطلاعات گره ها را در نظر می گیرند و ویژگی های سراسری، اطلاعات ساختاری گراف مانند طول مسیرها را معیار قرار می دهند. در این پایان نامه روشی ارائه شده است که ویژگی های محلی پایه مانند Common Neighbors، Jaccard ، Adamic Adar و غیره را با اطلاعات حاصل از الگوریتم های تشخیص اجتماع درگراف ترکیب می کند. ایده اصلی آن است که پس از تشخیص اجتماع با الگوریتم های Louvain، Newman-Girvan و Greedy Modularity Communication، نحوه پراکنش و تراکم همسایه های مشترک در اجتماع های کشف شده را معیار قرار می دهیم و امتیازهای همسایه های مشترک قرار گرفته در آن ها را برای الگوریتم های پایه به شیوه خاصی تقویت می کنیم. این روش بر روی مجموعه داده های معروف (کاراته کلاب، دلفین، نت ساینس، سی الگنس و ...) در حوزه پیش بینی پیوند آزمایش شده است. ارزیابی AUC و دقت محاسبات نشان می دهند که با استفاده از این شیوه، نتایج پیش بینی پیوند بر روی این مجموعه داده ها در اغلب ویژگی های محلی به طور قابل ملاحظه ای بهبود یافته است. روش استفاده شده قابلیت توسعه برای بهبود سایر الگوریتم های پیش بینی پیوند را نیز داراست.
-
رویکرد مخلوط برای شناسایی گره های اثرگذار با استفاده از ترکیب کارآمد معیارهای محلی و سراسری
1401یکی از موضوعات مهم و داغ در شبکه ها که از اهمیت نظری و عملی برخوردار است، یافتن گره های اثرگذار و با نفوذ است که روش های زیادی تاکنون برای این کار ارائه شده است. در نظریه گراف و تجزیه تحلیل شبکه، معیارهای تاثیر گره به معیارهایی گفته می شود که نوعی از رتبه بندی را بر اساس اهمیت گره در انتشار معرفی می کنند. از گره های تاثیرگذار می توان برای بیشینه کردن، کمینه کردن و حتی کنترل فرآیند انتشار بهره برد. معیارهای یافتن گره اثرگذار اغلب با شاخص های مرکزیت مرتبط هستند و عمدتا اثرگذاری را به صورت محلی یا سراسری مشخص می کنند. روش های اندکی برای لحاظ کردن همزمان تاثیر گره به صورت محلی و سراسری، پیشنهاد شده است و این مهم همچنان به صورت یک مساله باز تحت پژوهش است. همچنین معیارهای تعیین اهمیت گره ها در برخی گراف های دیگر مانند شبکه های زیستی نیز بررسی شده است که برخی از آن ها تاکنون در حیطه های گره های اثرگذار استفاده و بررسی نشده اند و این خود می تواند منجر به ایجاد پتانسیل ها و روش های جدید در این حیطه شود. ما در این پژوهش اول با ترکیب روش های محلی و سراسری یک معیار جدید به نام Hybrid را برای امتیازدهی به گره ها و یافتن اثرگذارترین گره پیشنهاد کرده ایم، که با این عمل در می یابیم با بهره گیری همزمان از معیارهای محلی و سراسری می توان ضمن کاهش پیچیدگی محاسباتی دقت الگوریتم را نیز افزایش داد و همچنین با تغییر در مقدار آلفا در رابطه ی آن جهت تنظیم مقادیر محلی و سراسری، بهینه ترین مقدار از معیار پیشنهادی را معرفی کردیم و دوم علاوه بر آن نیز از معیارهای یافتن ژن ها و پروتئین های اساسی در شبکه های زیستی بهره گرفتیم که تاکنون در شبکه های پچیده استفاده نشده اندکه در بهترین حالت منجر به یافتن گره های اثرگذار شوند. ما در آزمایشات خود از هشت شبکه واقعی و یک شبکه نمونه با ویژگی و اندازه های مختلف استفاده کردیم و نتایج بدست آمده را در قالب انواع نمودارها و جداول نمایش داده ایم. برای ارزیابی معیارها از مدل معروف و رایج شبیه سازی SIR بهره گرفتیم و عملیات آن را با میانگین هزار مرتبه اجرا درنظر گرفتیم و در نهایت تاثیرگذاری گره ها را در این شبیه سازی با درنظر گرفتن تعداد گره های بهبودیافته در زمان پایان عملیات تعیین نمودیم، سپس نتایج را به کمک ضریب همبستگی تای کندال Kendall’s tau ارزیابی کردیم و نتایج را توسط انواع نمودار و منحنی نشان دادیم.
-
بهبود تشخیص بدافزار اندروید با استفاده از تکنیک های تحلیل شبکه های پیچیده
1401سیستم عامل اندروید از محبوب ترین پلتفرم های جهان موبایل است. در حال حاضر، سهم این سیستم عامل از بازار جهانی گوشی های هوشمند %81٫7 است. با توجه به تعداد روزافزون اپلیکیشن های اندروید و پیشرفت های مداوم در تکنیک های توسعه نرم افزار، نیاز به آشکارسازهای بدافزار مقیاس پذیر و انعطاف پذیر وجود دارد که بتواند به طور موثر چالش های کلان داده را برطرف کنند. روش های محاسباتی مختلفی تاکنون برای کشف و شناسایی بدافزارهای اندرویدی عرضه شدە اند که عمدتا مبتنی بر الگوریتم های یادگیری ماشین هستند. به تازگی راهکارهای مبتنی بر تحلیل شبکه با انگیزه افزایش سرعت محاسبات، مقیاس پذیری، جامع نگری و کاهش پیچیدگی عرضه شدە اند که دقت بالایی در تشخیص بدافزار اندروید از خود نشان دادە اند. در این پایان نامه با در نظر گرفتن محدودیت ها و کمبودهای روش های پیشین کشف بدافزارهای اندرویدی که مبتنی بر تحلیل شبکە های پیچیده هستند، راهکاری عرضه شده است که با استخراج توابع و ویژگی های هر اپلیکیشن مشتمل بر مجوزها و فراخوانی های حساس، نسبت به ساخت دو گراف مجزای وزن دار ارتباط بین اپلیکیشن ها در دو حالت سالم و آلوده اقدام می شود و ویژگی های موثر ضریب خوشە بندی، شاخص های مرکزیت و مجموع وزن یال های متصل به هر گره به سایر ویژگی های موجود اضافه می شود تا مبنای طبقە بندی و تفکیک اپلیکیشن آلوده از سالم قرار گیرد. نتایج اجرای طبقە بندهای جنگل تصادفی،درخت تصمیم، رگرسیون لجستیک ،نزدیک ترین همسایه، بیز ساده و... با معیارهای ارزیابی ماتریس درهم ریختگی،حاصل از بهبود دقت کشف بدافزار تا 99 درصد بر دیتاست های Intdroid و 2018 است. علاوه بر آن روش جدید ارائه شده از نظر مقیاس پذیری و سرعت نیز کارایی بهتری دارد. برای توسعه این پژوهش می توان توانایی آن برای تشخیص بدافزارهای جدید دنیای واقعی Ⅾay−Zero را نیز لحاظ کرد و به جای دو شبکه مجزا برای برنامە های بد افزار و سالم، یک شبکه تجمیعی به صورت یک گراف ناهمگون لحاظ کرد تا از مزایای سایر روش های تحلیل شبکه مانند کشف اجتماع نیز بهره برد.
-
پیش بینی صادرات و واردات محصولات پتروشیمی با روش های تحلیل گراف
1400صنعت پتروشیمی نقش مهمی در ایجاد ارزش افزوده در منابع نفت و گاز به ویژه برای ایران دارد. پیش بینی کشورهای صادرکننده یا وارد کننده پتروشیمی به همراه نوع محصول تبادلی، کمک بزرگی به ذی نفعان این صنعت برای برنامه ریزی بهینه تجاری است. از سوی دیگر، روش های محاسباتی ویژه شبکه های اجتماعی، اکنون کاربردهای متعددی در حیطه های مختلف یافته اند. هدف این مقاله، استفاده از روش های تحلیل شبکه برای اولین بار در پیش بینی تجارت محصولات پتروشیمی در سطح جهانی است. داده های مورد بررسی از وبسایت سازمان ملل در رابطه با تبادلات تجاری به ازای صادرات و واردات محصولات رایج صنعت پتروشیمی برای سال های 2017 تا 2019 استخراج و پیش پردازش شدند. همچنین از روش های محاسباتی پیش بینی پیوند، برای پیش بینی ارتباطات سال های بعد هر کدام برمبنای سال قبل، استفاده شد. الگوریتم های مورد استفاده، روش های پایه رایج با نام های همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی هستند. ارزیابی به دو شیوه محاسباتی و مقایسه پیش بینی ها با نتایج موجود انجام شد. بهترین روش پیش بینی با بیش از 90 درصد امتیاز AUC، الحاق ترجیحی به دست آمد که بر اساس آن مقایسه با داده های واقعی نیز صورت گرفت. یافته های پژوهش، مستعدترین کشورها برای واردات را اسپانیا، اسلونی، استرالیا، نروژ و آرژانتین شناسایی کرد و خوش آتیه ترین کشورها برای صادرات برای ایران را صادرات محصول استون به اسپانیا برآورد کرد. در نهایت روش های افزایش کارایی پیش بینی ها نیز بیان شد که استفاده از الگوریتم های قوی تر مانند روش های یادگیری ماشین با ناظر و مدل سازی غنی تر شبکه از قبیل در نظر گرفتن وزن ارتباطات، از جمله موارد مهم قابل انجام است.
-
پیشگویی پیوند ترکیبی وزن دار و کاربردهای آن
1400پیشگویی پیوند یک تکنیک مهم در تحلیل شبکه است. با استفاده از آن می توان وضعیت آینده یال های شبکه را تخمین زد. البته ویرایش های جدیدتر آن می توانند یال های اضافی یا کاذب محتمل را نیز بیابند. اما برخی شبکه ها مانند شبکه بیماری ها، تغییرات همزمان حذف و اضافه را برای تبدیل شدن به مرحله بعدی دارند و نیازمند به پیشگویی پیوند ترکیبی هستند. در رابطه با پیشگویی پیوند صریح ترکیبی، که همزمان یال های اضافه و حذف شونده به شبکه را پیش بینی می کنند، تنها یک پژوهش، آن هم فقط برای گراف ساده انجام شده است. در این پژوهش، برای اولین بار دو الگوریتم پیشگویی پیوند ترکیبی صریح برای شبکه های وزن دار، عرضه شده است. بدین منظور، بخش مربوط به حذف یال ها نیازمند به ایده جدید بود. دو ایده جدید حذف معکوس یال وزن دار و حذف متمم یال وزن دار، برای این کار ارائه شد. علاوه بر آن ایده پیشگویی پیوند افزایشی نیز به همراه پیشگویی پیوند معمول، مورد آزمایش قرار گرفت. همچنین برای ارزیابی کارایی، مقایسه با پیشگویی پیوند بدون وزن از طریق معیار تطابق، بر روی داده های بیماری آلزایمر صورت گرفت. مجموعه داده که از انستیتوی تصویربرداری بیماری آلزایمر (ADNI) تهیه شد، شبکه مغز در چهار مرحله بیماری آلزایمر مشتمل بر سالم، زوال عقلی ملایم آغازین، زوال عقلی ملایم پیشرفته و بیماری آلزایمر (Normal, eMCI, lMCI, AD) است که هر مرحله نسبت به مرحله قبل، شاهد اضافه و کم شدن ارتباطات بین نواحی است. آزمون روش ارائه شده با چهار تابع امتیازدهی همسایگان مشترک (CN)، ضریب جاکارد(JC)، آدامیک/آدار (AA) و الحاق ترجیحی (PA)، انجام شد. برای انتقال از حالت Normal به eMCI، روش JC افزایشی، از حالت eMCI به lMCI روش CN افزایشی، از حالت lMCI به AD روش JC افزایشی و از حالت Normal به AD روش JC افزایشی بهترین عملکرد را داشتند. نتایج به صورت میانگین، نسبت به حالت بدون وزن، هفت درصد بهبود داشت که بیشترین افزایش آن از حالت Normal به eMCI بود. همچنین توالی تغییرات نواحی مغز، ترتیب حذف و اضافه ها، برای استفاده محققین مربوطه استخراج شد. بررسی این تغییرات ممکن است باعث درک بهتر بیماری آلزایمر شود و در کمک به درمان و یا پیشگیری آن موثر باشد. برای بهبود روش پیشنهادی می توان از سایر تابع های امتیازدهی مبتنی بر مسیر یا روش های مبتنی بر شباهت خواص گره ها، تعبیه گری و غیره استفاده کرد. همچنین می توان الگوریتم پیشنهادی را بر انواع شبکه های دارای چند مرحله تغییر حذف و اضافه ارتباطات، مانند شبکه های بیماری های دیگر اعمال کرد.
-
شناسایی گرههای تاثیرگذار در شبکه های پیچیده با استفاده از پیشگویی پیوند معکوس
1400درک وکنترل شبکه های پیچیده مختلف از اهمیت بسزایی در انتشار اطلاعات و اتصال شبکه برخوردار است. شناسایی گرههای تاثیرگذار، تعریف شده به عنوان گرههایی که بیشترین قابلیت انتشار، نسبت به سایر گره های شبکه را دارند یک مسئله مهم است که کاربردهای مهمی مانند شناخت و شبیه سازی انتشار بیماری کرونا دارد. بدین ترتیب همواره روشهای جدید و کارآمدتر برای یافتن گره های اثرگذار، پیشنهاد میشوند. در این پایان نامه، با کمک یک ایده کاربردی، استراتژی خاصی از پیشگویی پیوند به نام پیشگویی پیوند معکوس را برای امتیازدهی به گره های شبکه، مورد استفاده قرار گرفته است با روشهای امتیازدهی پایه در پیشگویی پیوند) همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی( آزموده شده است. همچنین به منظور ارزیابی کارایی روش پیشنهادی و مقایسه آن با جدیدترین روشهای برتر، از مدل اپیدمی حساس-آلوده و برای اندازهگیری همبستگی بین روش پیشنهادی و فرایند انتشار از ضریب تاوکندال در پنج مجموعه داده استاندارد، کاراته کلوب ، دلفین، فوتبال، جاز و ایمیل استفاده شده است. نتایج بدست آمده نشان دهنده آن است که روش پیشنهادی ما برای یافتن گره های اثرگذار، عملکرد خوبی را نسبت به روشهای مقایسهای در پژوهش دارد. همچنین روش پیشنهادی به دلیل دارا بودن روشهای امتیازدهی مختلف در پیشگویی پیوند، قابل اعمال به شبکه ها با ویژگیهای متفاوت جهان کوچک و مقیاس آزاد است. علاوه بر آن امکان بهبود عملکرد روش پیشنهادی با به کارگیری توابع امتیازدهی قویتر و روشهای پیشرفته تر پیشگویی پیوند، میسر است.
-
طراحی مدل شناختی محاسباتی بر اساس داده های ژنتیکی برای پیش بینی ارتباطات زیستی احتمالی مسبب اختلالات شناختی در بیماری آلزایمر
1400بیماری آلزایمر یک بیماری پیشرونده و تخریب کننده سیستم عصبی است که باعث اختلال در کارکردهای شناختی و ایجاد آسیب های روانی مختلف می شود. روند پاتوفیزیولوژیک بیماری آلزایمر قبل از تشخیص بالینی آغاز می شود و تشخیص زود هنگام آن بسیار مهم است. از آنجا که توصیف بهتر مکانیسم های سلولی و مولکولی و ارتباطات ژن-miRNAها، به درک عمیق تر از بیماری زایی آلزایمر کمک می کند، طراحی مدل های شناختی محاسباتی که به پیش بینی بیومارکرهای دخیل در این بیماری کمک می کنند، می تواند باعث تسریع در اقدامات پیشگیرانه و اصلاحی برای افراد در معرض خطر شروع بیماری آلزایمر باشد. در این مطالعه، با استفاده از سیستم های توصیه گر و استفاده از یک الگوریتم یادگیری ماشین در پالایش مشارکتی، روشی ارائه می شود تا با به کارگیری داده های ارتباطات ژن-miRNA موجود در پایگاه داده های زیستی، بتواند ارتباطات احتمالی دیگر ژن-miRNA دخیل در بیماری آلزایمر را پیش بینی کند. ما از اعتبارسنجی متقابل و محاسبه AUC برای ارزیابی عملکرد روش به کار گرفته شده استفاده می کنیم. تعداد 30 ارتباط جدید ژن-miRNA دخیل در بیماری آلزایمر پیش بینی شده و مورد ارزیابی قرار گرفت. همچنین نتایج تجربی نشان داده است که الگوریتم منتخب ما در مقایسه با الگوریتم های دیگر یادگیری ماشین مورد استفاده در پالایش مشارکتی، که در این پژوهش مورد ارزیابی قرار گرفت، با خطای RMSE=0.89 و AUC=0.97 می تواند عملکرد مطلوبی را نشان دهد. همچنین می توان استفاده از روش های ترکیبی، شبکه عصبی مصنوعی و یا یادگیری عمیق را برای مطالعات آتی مورد توجه قرار داد.
-
شناسایی بیوانفورماتیکی میکروRNAهای مرتبط با اثرات مورفین و بررسی بیان گیرنده های پورینی در مغز رت پس از القای تحمل و ترک مورفین
1399مورفین یک داروی ضددرد قوی است اما استفاده مکرر از آن موجب ایجاد تحمل، وابستگی و اعتیاد به این دارو می شود که با تغییراتی در پیام رسانی مسیرهای عصبی همراه است. هدف اول پژوهش حاضر، بررسی تغییرات بیان ژن گیرنده های پورینی p2rx4 و p2rx7 در استریاتوم و مخچه رت پس از القای تحمل به مورفین و یک ماه پس از ترک آن است. در این مطالعه، از چهار گروه رت جنس نر از نژاد ویستار استفاده شد. تحمل مورفین با تزریق مکرر مورفین دو بار در روز و به مدت 10روز ایجاد شد. گروه کنترل همزمان سرم فیزیولوژیک به جای مورفین دریافت نمود. القای تحمل به مورفین با استفاده از آزمون صفحه داغ در روز اول و دهم تزریق ها بررسی شد. دو ساعت پس از آخرین تزریق مکرر در روز دهم، نواحی استریاتوم و مخچه برای بررسی بیان ژن جداسازی شدند. دو گروه دیگر از رت ها پس از 10 روز تزریق های مکرر سالین و یا مورفین، به مدت 30 روز ترک داده شدند و مناطق مورد نظر مغز در روز سی ام ترک استخراج شدند. تغییرات بیان ژن با روش ریل-تایمPCR ارزیابی شد و مشخص شد که در رت های با تحمل به مورفین بیان ژن های p2rx4 و p2rx7در مخچه به طور قابل توجهی کاهش یافت. پس از دوره ترک مورفین، هیچ تفاوتی در بیان p2rx4 بین دو گروه کنترل و دریافت کننده مورفین مشاهده نشد، اما بیان p2rx7 به طور قابل توجهی در مقایسه با گروه کنترل افزایش یافت. نتایج بیان ژن در استریاتوم رت های با تحمل به مورفین، هیچ تفاوتی را در بیان ژن p2rx4 بین دو گروه آزمایشی نشان نداد، اما در مقایسه با گروه کنترل تیمار شده با سالین کاهش معناداری در بیانp2rx7 وجود داشت. بیان p2rx4 در استریاتوم رت ها پس از ترک به طور قابل توجهی در مقایسه با گروه کنترل افزایش یافت درحالی که هیچ تفاوتی در بیان p2rx7 بین گروه های آزمایش مشاهده نشد. می توان نتیجه گیری کرد که تحمل به مورفین به طور خاص بر بیان ژن گیرنده های P2X4 و P2X7 در مخچه و استریاتوم تاثیر می-گذارد که پس از ترک مورفین جبران می شود. نتایج حاضر برهمکنش عملکردی مهم بین سیستم پورینرژیک و تحمل و ترک مورفین را نشان می دهد. هدف دوم پژوهش، پیشگویی بیوانفورماتیکی ارتباطات محتمل در شبکه دوبخشی ای است که یک سوی آن miRNA ها و سوی دیگر آن ژن های مرتبط با اعتیاد و تحمل به مورفین در رت است که با ساختن شبکه مربوطه از مطالعات قبلی و دیتای برخط وبسایت های mirdb.org و TargetScan.org و اعمال الگوریتم های محاسباتی پیشگویی پیوند برای یافتن محتمل ترین ارتباطات ثبت نشده تاکنون، محقق شد. خوش آتیه بودن نتایج از نظر محاسباتی قابل اثبات است، اما از نظر عملی، نیاز به انجام آزمایش و بررسی تجربی بیشتر در آینده دارد.
-
بهبود انتخاب ویژگی بر پایه گراف با استفاده از پیش گویی پیوند و روش حفره های ساختاری
1399انتخاب ویژگی، یکی از راهکارهای اساسی یادگیری ماشین برای رفع مشکل پردازش داده های با ابعاد بسیار بالا است. بررسی و بکارگیری روش های کارآمدتر انتخاب ویژگی با هدف دستیابی به نتایج بهتر در انتخاب ویژگی، می تواند سبب بهبود و تسریع نتایج کارآیی الگوریتم های مرتبط با یادگیری ماشین شود. در این پژوهش یک روش شش مرحله ای برای بهبود انتخاب ویژگی بدین شرح پیشنهاد می شود. در گام اول، پیش پردازش، مجموعه داده از نظر مقادیر گم شده و تکراری، اصلاح می شود و سپس نرمال سازی می شود. همچنین یکبار امتیاز فیشر را برای همه ی ویژگی ها محاسبه می کنیم و تعداد n-Top ویژگی با بیشترین امتیاز فیشر را حفظ می کنیم و مابقی را حذف می کنیم. در گام دوم با استفاده از ضریب همبستگی پیرسون وابستگی بین رئوس محاسبه می گردد و گرافی وزن دار از ویژگی ها و مقدار وابستگی بین آن ها تشکیل و بازنمایی می گردد و به دلیل عملکرد بهتر الگوریتم خوشه بندی، یال های با مقادیر وزن کمتر از مقدار آستانه بهینه 0.5 از گراف حذف می شوند. در گام سوم برای بهبود ساختار گراف و بازیابی روابط محتمل به اشتباه حذف شده یا از قلم افتاده، با استفاده از الگوریتم های پیش گویی پیوند یال هایی را به گراف اضافه می کنیم. در گام چهارم، با استفاده از الگوریتم تشخیص جامعه لووین بدون ناظر به دلیل سادگی و سرعت اجرای بالا و شناسایی خودکار خوشه ها، جوامع را در گراف ایجاد شده می یابیم. در گام پنجم با استفاده از روش حفره های ساختاری که ارتباطات نهفته بین ویژگی ها را نیز لحاظ می کند، راس های بحرانی و مرکزی تر در هر خوشه شناسایی می شود. در نهایت، در گام ششم، در یک فرآیند تکراری برای هر خوشه، براساس روش گام قبلی، اعضای خوشه رتبه بندی می شوند سپس بصورت نزولی مرتب شده و تعداد w ویژگی ابتدای لیست را انتخاب می کند. اگر تعداد ویژگی هر خوشه کمتر از w باشد آنگاه همه آن ها انتخاب می شوند. به عبارتی دیگر، تعداد w ویژگی در هر خوشه بعنوان نماینده خوشه حفظ کرده و سایر ویژگی ها از خوشه حذف می شوند. در پایان، همه ویژگی های باقی مانده در خوشه ها را به عنوان زیر مجموعه ویژگی های نهایی بهینه گزارش می کنیم. مقایسه نتایج با استفاده از چهار طبقه بند مشهور SVM، KNN، NB و DT حاکی از کارآیی و برتری روش پیشنهادی جدید در مقایسه با روش های اخیر به ویژه در مجموعه داده های با ابعاد بسیار بزرگ و با تعداد نمونه بیشتر است.
-
انتخاب ویژگی چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه
1399طبقه بندی داده های چند برچسبه با مسائلی روبه رو است که در آن ها هر نمونه با تعدادی بیشتر از یک برچسب در ارتباط است. امروزه با توجه به پیشرفت رویکردهای دیجیتال، تعداد بسیار زیادی از کاربردهای دنیای واقعی برای داده های چند برچسبه با تعداد ابعاد بالا شکل گرفته اند که سبب کاهش کارایی طبقه بندی می شود. انتخاب ویژگی یک رویکرد موفق و شناخته شده برای کاهش ابعاد داده ها با نگه داشتن ویژگی های مفید و مرتبط و حذف ویژگی های نامربوط یا دارای شباهت به دیگر ویژگی ها است. بسیاری از روش های انتخاب ویژگی که ارائه شده اند از نوع روش های پوششی هستند که از یک طبقه بند چند برچسبه در حین عمل انتخاب ویژگی استفاده می کنند. برای حل این مشکلات، در این پایان نامه دو روش انتخاب ویژگی برای داده های چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه ارائه شده است. روش پیشنهادی اول ابتدا فضای ویژگی ها را به یک گراف تبدیل می کند که وزن های این گراف بر اساس میزان شباهت ویژگی ها است. سپس الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها اعمال می شود. نوآوری ما در این روش ارائه یک تابع شایستگی جدید و مختص داده های چند برچسبه است که هر دو معیار بیشترین ارتباط با برچسب ها و کمترین میزان شباهت با سایر ویژگی ها را در هر انتخاب در نظر می گیرد و نیز از هیچ مدل یادگیری حین عمل انتخاب ویژگی استفاده نمی کند. روش پیشنهادی دوم بر اساس استراتژی جستجوی روش پیشنهادی اول ارائه شده است. در روش دوم، از رویکردی جدید در ساخت گراف ویژگی ها استفاده می کنیم که بر مبنای ارتباط ویژگی ها با مجموعه برچسب ها می باشد. سپس از یک رویکرد خوشه بندی گراف به منظور دسته بندی ویژگی های مشابه استفاده شده و در نهایت نیز از الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها استفاده می شود. عملکرد روش پیشنهادی اول و دوم را با شش روش جدید و شناخته شده انتخاب ویژگی داده های چند برچسبه بر روی مجموعه داده های چند برچسبه مختلف، مقایسه شده است. همچنین از معیار های ارزیابی متنوع طبقه بندی چند برچسبه و نیز انواع گوناگونی از آزمایش ها در این تحقیق استفاده شده است. نتایج به دست آمده، برتری روش های ارائه شده را در توانایی تشخیص و انتخاب ویژگی های مرتبط و مفید و در نتیجه دقت بالای این روش ها را نشان می دهند.
-
روشی جدید برای تشخیص ناهنجاری یال بر اساس پیشگویی پیوند
1399تشخیص ناهنجاری در داده ها یک کار بسیار مهم و حیاتی است و کاربرد های زیادی در حوزه های مختلف از جمله امنیت، سلامت، امور مالی، مراقبت های بهداشتی و اجرای قانون دارد. در سال های اخیر روش های زیادی برای تشخیص ناهنجاری یا داده های پرت در مجموعه های بدون ساختار داده های چند بعدی ارائه شده است که بعضی از این روش ها روی ساختار گراف متمرکز شده اند. در این پایان نامه بر روی تشخیص ناهنجاری یال در گراف کار شده و دو روش بر اساس پیشگویی پیوند منفی برای تشخیص ناهنجاری یال پیشنهاد شده است. روش اول برای گراف های بدون وزن و روش دوم برای گراف های وزن دار ارائه شده و بر اساس عملکرد این روش ها، یال های ناهنجار در گراف با الگوریتم پیشگویی پیوند منفی تشخیص داده شده است. در دو روش پیشنهادی، از چهار الگوریتم پیشگویی پیوند، شاخص جاکارد، پیوست امتیازدهی، همسایه های مشترک و آدمیک-آدر به صورت بدون نظارت و مجزا استفاده شده است. همچنین از چهار مجموعه داده استاندارد دلفین، جاز، ایمیل و ترینیتی برای گراف های بدون وزن و از چهار مجموعه داده لسمیس ، پادشاه جیمز ، شبکه علمی و نوجوان برای گراف های وزن دار استفاده شده است. به منظور ارزیابی و کارایی روش پیشنهادی اول، چند درصد از کل یال های گراف، یال ناهنجار به گراف ها اضافه شد و با استفاده از روش پیشنهادی و هشت الگوریتم دیگر سعی شده که یال های ناهنجار تشخیص و نتایج روش ها باهم مقایسه گردد. نتیاج با معیاری های صحت، دقت، فراخوانی و معیار F1 ارزیابی شده است. برای روش پیشنهادی دوم، سعی شده است که با حذف یال های ناهنجار جوامع بهتری به وجود بیاید و جهت ارزیابی دو الگوریتم برچسب گذاری نامتقارن و الگوریتم وزن دار بهینه سازی شده گروین- نیومن مورد استفاده قرار گرفته است. سپس برای تعیین بهبود جوامع از سه تابع کیفیت اجتماعات، ماژولاریتی، کارایی و کاوریج ، استفاده می شود البته نیاز به ابداع روشی برای پیشگویی پیوند منفی در گراف های وزن دار و همچنین روشی برای اضافه کردن یال های ناهنجار به گراف های بدون وزن نیز وجود داشت که انجام شد.
-
به سوی یک معیار ارزیابی بهتر برای پیشگویی پیوند وزن دار
1399پیشگویی پیوند تغییراتی که در آینده در یال های یک شبکه صورت می گیرد را پیش بینی می کند و یکی از موضوعات با اهمیت در علم شبکه محسوب می شود. پژوهش های بسیاری بر الگوریتم های پیشگویی پیوند در گراف های ساده متمرکز شده اند. با این وجود شبکه های بسیاری در دنیای واقعی با استفاده از گراف های وزن دار مدل می شوند. سنجش دقت پیشگویی پیوند، چه در شبکه های ساده و چه وزن دار، صرفاً معطوف به درستی پیشگویی وجود یال بوده است و بر اساس شناخت و بررسی پژوهشگران مرتبط با این پایان نامه، تاکنون وزن یال ها در پیشگویی پیوند وزن دار، در محاسبه دقت پیشگویی، در نظر گرفته نشده است. در این پایان نامه، روشی برای لحاظ نمودن امتیاز پیشگویی پیوند هر الگوریتم، در پیش بینی وزن همان پیوند ارائه می شود. طبق پژوهش این پایان نامه، روشی در پیشگویی پیوند وزن دار، برتر است که همزمان با پیشگویی وجود یا عدم وجود پیوند، وزن آن را نیز با بیشترین میزان دقت پیشگویی کند. برای تست این روش از الگوریتم های پیشگویی پیوند وزن دار پایه مبتنی بر همسایگی از قبیل همسایه های مشترک، ضریب جاکارد، الصاق ترجیحی، آدامیک-آدار و تخصیص منابع استفاده می شود. در عین حال از امتیاز محاسبه شده برای پیشگویی پیوند در هر کدام از الگوریتم ها، برای پیشگویی وزن آن نیز استفاده خواهد شد. بدین منظور برای همسان سازی امتیاز پیشگویی پیوند جهت استفاده در پیشگویی وزن، از روش های نرمال سازی نمایی منفی، لجستیک و خطی بهره برده می شود. دیتاست های مورد استفاده Lesmis، Celegans، Netscience و Airport هستند. از معیارهای AUC و Precision برای ارزیابی پیشگویی پیوند و از PCC و RMSE برای ارزیابی پیشگویی وزن، استفاده خواهد شد. با توجه به معیارهای ارزیابی، در اکثر دیتاست ها الگوریتم تخصیص منابع بهترین نتیجه را برای پیشگویی همزمان پیوند و وزن آن داشت. نرمال سازی خطی برای PCC و نرمال سازی لجستیک برای RMSE بهتر جواب داد. برای توسعه و افزایش دقت یافته های این پژوهش می توان از سایر الگوریتم های قابل استفاده در پیشگویی پیوند وزن دار مانند روش های مبتنی بر مسیر یا مبتنی بر یادگیری ماشین بهره برد. همچنین راهکارهای برای تطبیق وزن پیشگویی شده نرمال شده با توجه به شبکه مورد استفاده نیز ارائه کرد.
-
غلبه بر محدودیت پیشگویی پیوند در شبکه های خلوت با کمک خوشه بندی
1398پیشگویی پیوند سعی دارد تا پیوندهای گم شده یا پیوندهایی که ممکن است در آینده با توجه به ساختار شبکه یا ویژگی های گره به وجود بیاید را تشخیص دهد. پیشگویی پیوند در بسیاری از حوزه ها مانند شبکه های اجتماعی، آزمایشات زیستی، شبکه های جرم شناسی و غیره کاربرد دارد. روش های پایه از ساختار شبکه و ویژگی های مسیر و اطلاعات همسایگی برای پیشگویی استفاده کرده اند. روش های زیادی برای بهبود روش های پایه ارائه شده، اما یک چالش اساسی در همه این روش ها آن است که بسیاری از شبکه های موجود خلوت هستند و این سبب حجم زیادی از افزونگی در محاسبات، زمان پردازش بیشتر، حافظه ذخیره سازی بیشتر و نتایج ضعیف تر می شود. این پژوهش به ارائه روشی جدید و متمایز برای پیشگویی پیوند براساس خوشه بندی در شبکه های خلوت مقیاس بزرگ می پردازد. در روش پیشنهادی از خوشه بندی مانند کارهای گذشته فقط برای بهبود نتایج استفاده نشده است، بلکه علاوه بر آن، از خوشه بندی برای پرهیز از محاسبات اضافی نیز بهره گرفته است. در این پژوهش ابتدا به تشخیص خوشه ها در شبکه پرداخته می شود، سپس درون هرخوشه یافت شده عمل پیشگویی پیوند با استفاده از روش های مبتنی بر همسایگی (AA,CN,JC,PA,RA) انجام می شود. سپس برای استفاده از حداکثر ظرفیت شبکه، پیشگویی پیوند در بین خوشه های یافت شده، با لحاظ کردن موارد مهمی انجام می شود. برای ارزیابی روش پیشنهادی از دو معیار دقت و زمان محاسبات در این پژوهش استفاده شده است. نتایج بر روری مجموعه داده های مختلف نشان می دهد، علاوه بر اینکه از افزونگی از طریق حذف بسیاری از درایه هایی که از نظر محاسباتی قابل توجیه نیستند در محاسبات پرهیز شده است، دقت قابل قبولی نیز توسط روش پیشنهادی ارائه شده است و زمان اجرا نیز به طور چشمگیری کاهش داده شده است، همچنین در حافظه نیز صرفه جویی شده است. روش پیشنهادی برای اولین بار نسخه جدید روابط پروتئینی انسانی (HPRD) را پیشگویی نموده است. این روش خوش آتیه به نظر می رسد و می توان آن را از طریق دیگر روش های مبتنی بر مسیر و تلفیق آن با سایر روش های با ناظر و یادگیرنده بهبود داد.
-
افزایش کارایی پیش واکشی صفحات وب در اینترنت با استفاده از رویکردهای پیش بینی
1398امروزه انجام بسیاری از امور روزمره و درازمدت از قبیل خرید اینترنتی، تجارت الکترونیک، بانکداری الکترونیک ، آموزش الکترونیک و... به صورت آنلاین و آفلاین از طریق صفحات وب انجام می شود. با توجه به اینکه منابع وب و سرویس دهنده های آن ها محدود است لذا پاسخگویی به این حجم از نیازهای وبگرا باعث بروز تاخیرهای زیاد در دسترسی ستتی به خدمات و نیز کاهش کیفیت خدمات به کاربران می شود. لذا سرعت بارگذاری صفحات وب کاهش یافته و استفاده بهینه و مطلوب از منابع وب به عمل نمی آید. از دید کاربر تاخیر به وجود آمده یک موضوع بسیار مهم در بارگذاری صفحات می باشد که در سال های اخیر تلاش های بسیاری برای کاهش این تاخیر انجام گرفته است که یکی از روش های محبوب دراین زمینه پیش واکشی وب است. منظور از پیش واکشی وب، پیش بارگذاری صفحات وب است قبل ازآنکه توسط کاربر درخواست شوند. این صفحات از حافظه نهان برداشته و بارگذاری می شوند و بدین صورت سرعت بارگذاری افزایش می یابد. منظور از حافظه نهان وب یک مکانیسم برای ذخیره سازی موقت استتناد وب به منظور کاهش استفاده از پهنای باند، کاهش بار سرور و درنهایت کم شدن تاخیر بارگذاری است. به منظور رفع این تاخیر دسترسی کاربران با استفاده از پیش واکشی، از تکنیک هایی مانند زنجیره مارکوف، روش های داده کاوی و روش های مبتنی بر گراف استفاده شده است. تمرکز این پایان نامه بر استفاده از روش های پیش بینی به ویژه پیشبینی پیوند برای تحلیل و کاهش تاخیر دسترسی کاربران به صفحات وب ا ست. بدین منظور از دادههای بایگانی سرور ناسا استفاده شد. این داده ها با استفاده از یک روش ابداعی تبدیل به گراف میشوند. گره های این گراف، صفحات وب و یال های آن تعداد دفعات ورود به صفحه متناظر با گره مربوط به آن است. با توجه به اینکه قرار است صفحات وب بعدی کاربر حدس زده شود، پس نیاز است که یک سری از صفحات وبی که کاربر هنوز وارد آن نشده است به عنوان صفحات کاندید انتخاب شود. پس از آن توسط یک الگوریتم پیشنهادی وزن این صفحات محاسبه می شود. این صفحات کاندید سپس با استفاده از معیارهای AUC ،F-Score ،Recall ،Precision آن ها را مورد ارزیابی قرار داده می شود. نتایج نشان می دهد روشهای پیش بینی پیوند نتایج قابل مقایسه ای دارند و هرکدام در برخی شرایط و موارد برتری هایی نسبت به یکدیگر دارند.
-
بهبود کارایی سیستم های اطلاعاتی مدیریت آموزش با استفاده از شیوه های پیش بینی
1397ارتقای کیفیت فرآیندهای آموزشی، یکی از چالش های مهم در سال های اخیر بوده است که پیدایش و گسترش آموزش الکترونیکی در افزایش توجه به این حوزه نقش بسزایی داشته است. منظور از فرآیندهای آموزشی، تمام تعاملات میان دانشجو، درس، منبع درسی، استاد و مدیران آموزشی است. در میان این تعاملات، اخذ درس توسط دانشجو در فرآیند انتخاب واحد درسی، اخذ منابع درسی توسط دانشجو، پیشگیری از ترک تحصیل دانشجویان توسط اساتید و مدیران آموزشی، از اهمیت بالایی برخوردار است. به منظور رفع این چالش ها، تکنیک های داده کاوی، سامانه های توصیه گر، فرآیندهای تصمیم گیری مارکوف و روش های مبتنی بر گراف مورد استفاده قرار گرفتند. این تکنیک ها با تکیه بر مجموعه عظیمی از داده های ذخیره شده در سامانه های آموزشی، سعی در یافتن روابط غیرقابل مشاهده میان این مجموعه داده ها را دارند. ما در این پایان نامه برای اولین بار از الگوریتم های پیش بینی پیوند، به منظور بهبود فرآیندهای آموزشی در سامانه های آموزش الکترونیک استفاده می کنیم. هدف از این پژوهش، کشف الگوهای نهفته در فرآیند انتخاب دروس، انتخاب منابع درسی و ترک تحصیل یا انصراف از دروس توسط دانشجویان است. بدین منظور از سه مجموعه داده آموزشی Moodle، OULAD و MOOC استفاده می نماییم و روش پیشنهادی را به وسیله دو معیار Precision و AUC مورد ارزیابی قرار می دهیم. آزمایشات نشان می دهند که روش پیشنهادی، علاوه بر آنکه نتایج قابل مقایسه ای با الگوریتم های فیلترینگ مشارکتی مبتنی بر کاربر و آیتم سامانه های توصیه گر دارد، در بعضی موارد نسبت به آن ها برتری نیز دارد.