LTU Patekote į pirmąjį lietuvišką domeną. Daugiau informacijos

 

 

2025 m. rugsėjo 15 d., 13 val.

Vilnius, Akademijos g. 4, 203 kab.
Nuotoliniu būdu „MS Teams“ aplinkoje (https://bit.ly/DMSTI_2025-09-15)

 

Dalia Breskuvienė

(disertacijos pristatymas,
vadovas: prof. habil. dr. Gintautas Dzemyda)

 

„Feature Conversion for Better Financial Fraud Detection: Imbalanced Data Case“

Anotacija: Fraud detection remains a critical challenge in the financial sector, requiring innovative approaches to detect and prevent losses caused by increasingly sophisticated fraudulent activities. This research addresses several aspects of improving fraud detection: using clustering as a preprocessing step, encoding strategies for imbalanced data, and feature selection importance. Firstly, we propose a clustering-based classification method to enhance recall in credit card fraud detection. By optimizing feature selection and the number of clusters to form more homogeneous subsets for training and strategically undersampling each cluster, we improved the recall from 0.845 to 0.867, significantly reducing the number of misclassified fraudulent cases by 13.9\%. Secondly, we investigate the impact of categorical feature encoding on model performance. Through experiments on datasets with less than 1% fraud prevalence and applying six encoding methods, we find that target-based encoding, especially James-Stein and Weight of Evidence (WOE), significantly outperform alternatives like CatBoost encoding in imbalanced settings. Our results highlight the importance of careful preprocessing, especially when dealing with high-cardinality categorical features and the curse of dimensionality. Finally, we introduce FID-SOM (Feature Selection for Imbalanced Data Using SOM), a novel feature selection method tailored for highly imbalanced datasets. Leveraging Self-Organizing Maps (SOM), FID-SOM identifies and ranks features based on their contribution to best-matching units' weight vector attributes variability, enabling effective dimensionality reduction without losing critical information. Experimental results show that FID-SOM can match or surpass traditional feature selection techniques in fraud detection tasks. Our findings offer a comprehensive framework to enhance machine learning-based fraud detection in real-world, large-scale, and highly imbalanced datasets.

 

 

Dr. Tomas Baležentis

(Lietuvos socialinių mokslų centras)

 

„Tiesinio programavimo taikymas produktyvumo (augimo) analizei atsižvelgiant į nepageidaujamus gamybos rezultatus“

Anotacija: Apžvelgiami duomenų apgaubties analizės (data envelopment analysis) modeliai, skirti efektyvumo ir produktyvumo augimo vertinimui. Duomenų apgaubties analizės modeliai yra aprašomi kaip (dualios) tiesinio programavimo problemos. Taigi galima nagrinėti apgaubties ir daugiklinius modelius. Šiuos modelius papildžius nepageidaujamų rezultatų (pvz., poveikio aplinkai) kintamaisiais, galima gauti jų šešėlines kainas. Tai leidžia įvertinti situaciją ekonominėje sistemoje ir jos tobulinimo galimybes. Aptarsime pagrindinius tiesinio programavimo modelius, leidžiančius įvertinti efektyvumą ir produktyvumo augimą esant nepageidaujamiems rezultatams. Nagrinėjami empiriniai duomenų apgaubties analizės taikymai vertinant (i) šiltnamio efektą sukeliančių dujų emisijos mažinimą žemės ūkio sektoriuje ir (ii) sveikatos priežiūros sektoriaus veiklos tobulinimą.