Efficiency Comparison of Lung Cancer Risk Prediction Models using Data- mining Techniques

Authors

  • Thawatchai Lekdee Department of Thai Tradiitonal Medicine and Alternative Medicine
  • Ruthaphan Santianotai Department of Public Health, Faculty of Science and Technology, Chaing Mai Rajabhat University
  • Jadsada Udompittayason Sirindhorn College of Public Health

DOI:

https://doi.org/10.57260/stc.2024.705

Keywords:

Decision tree, Random forest, Naïve bayes, Lung cancer disease

Abstract

This research aims to create and compare the efficiency of models used for predicting the risk of lung cancer by analyzing according to the Cross-Industry Standard Process for Data Mining (CRISP-DM). The dataset comprises 310 items, divided into two groups: 270 instances with lung cancer (Class YES) and 39 instances without lung cancer (Class NO). Data balance was achieved using the Synthetic Minority Oversampling Technique (SMOTE). Four data mining techniques were employed: Decision Tree, Random Forest, and Naïve Bayes, as well as Support Vector Machine. Model performance was evaluated using metrics such as Accuracy, precision, recall, and F-measure. RapidMiner Studio Version 10.1 was utilized for model creation and data analysis. The findings reveal that the Random Forest technique outperformed others, yielding an accuracy of 94.63%, precision of 92.92%, recall of 96.67%, and an overall F-measure of 94.73%. This research suggests that the Random Forest technique is the most effective for predicting lung cancer risk, providing valuable insights for potential integration into an information system for preliminary patient screening before reaching medical professionals.

References

กฤตกนก ศรีพิมพ์สอ และ กิตติพล วิแสง. (2566). การพยากรณ์โรคเบาหวานด้วยเทคนิคเหมืองข้อมูล. วารสารวิชาการการจัดการเทคโนโลยี มหาวิทยาลัยราชภัฏมหาสารคาม, 10(1), 51-63. https://ph02.tci-thaijo.org/index.php/itm-journal/article/view/248575

กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำกลยุทธ์เสนอขายประกันต่อยอดสำหรับผู้ถือบัตรเครดิต. การประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม.

ไกรศักดิ์ เกษร. (2564). วิทยาศาสตร์ข้อมูล (Data Science). ภาควิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์มหาวิทยาลัยนเรศวร.

จิราภรณ์ เจริญยิ่ง. (2563). การพยากรณ์ผลสัมฤทธิ์ทางการเรียนด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยศรีนครินทรวิโรฒ.

จีราพร บวรอารักษ์, อริสา สิทธิโชคพันธ์, สิทธิพงศ์ รักตะเมธากูล และ พรพิศ ยิ้มประยูร. (2562). การพยากรณ์จำนวนผู้ป่วยโรคมะเร็งปอดสาหรับเพศชายและโรคมะเร็งเต้านมสาหรับเพศหญิงในประเทศไทย. การประชุมวิชาการระดับชาติ ครั้งที่ 16 มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน วันที่ 3-4 ธันวาคม 2562.

ธงไชย พ้องเสียง และ จารี ทองคำ. (2565). แบบจำลองสำหรับพยากรณ์การรักษาโรคเบาหวานและโรคความดันโลหิตสูงโดยเทคนิคเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยมหาสารคาม.

รักถิ่น เหลาหา. (2553). การพยากรณ์ความเสี่ยงการเกิดโรคมะเร็งปอดโดยใช้ทฤษฎีของการทำเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาเทคโนโลยีสารสนเทศ มหาวิทยาลัยขอนแก่น.

เพชรรัตน์ ม่วงน้อย, จักรพันธ์ พลาผล และ ภรัณยา ปาลวิสุทธ. (2564). ตัวแบบประเมินภาวะความเสี่ยงการเป็นโรคซึมเศร้าของนักศึกษาด้วยเทคนิคเหมืองข้อมูล. วารสารการประยุกต์ใช้เทคโนโลยีสารสนเทศ, 7(1), 54-63. https://ph02.tci-thaijo.org/index.php/project-journal/article/view/242196

วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และ จิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน. วารสารวิจัย มข. ฉบับบัณฑิตศึกษา, 18(3), 11-21.

ศรราม หงส์พรหม และ จันตรี ผลประเสริฐ. (2563). การทำนายระดับความยากจนจากของข้อมูลสำมะโนประชากรด้วยการเรียนรู้ของเครื่อง. สารนิพนธ์วิทยาศาสตรมหาบัณฑิต (เทคโนโลยีสารสนเทศ), มหาวิทยาลัยศรีนครินทรวิโรฒ

อุกฤษฏ์ ศรีสุข. (2564). การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับอุบัติการของผู้ป่วย. วารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม, 40(2), 157-163. https://li01.tci-thaijo.org/index.php/scimsujournal/article/view/247870

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16(1), 321-357. https://doi.org/10.1613/jair.995

Koushiki, D. C. (2023). Building Naive Bayes Classifier from Scratch to Perform Sentiment Analysis. Retrive from https://www.analyticsvidhya.com/blog/2022/03/building-naive-bayes-classifier-from-scratch-to-perform-sentiment-analysis/

Mysar, A. B. (2021). Lung Cancer. Retrive from https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer

Rojanamatin, J., Ukranun, W., Supaattagorn, P., Chaiwiriyabunya, I., Wongsena, M., Chaiwerawattana, A., Laowahutanont, P., Chitapanarux, I., Vatanasapt, P., Greater, S. L., Sangrajrang, S., & Buasom, R. (2021). Cncer in Thailand volume X 2016-2018. Bangkok Thailand: National Cancer Institute.

Schuh, G., Prote, J.-P., & Hünnekes, P. (2020). Data mining methods for macro level process planning. Procedia CIRP, 88, 48-53. https://doi.org/10.1016/j.procir.2020.05.009

Sonoo Jaiswal. (n.d.). Decision Tree Classification Algorithm. Retrive from https://www.javatpoint.com/machine-learning-decision-tree-classification-algorithm

Sonoo Jaiswal. (n.d.). Random Forest Algorithm. Retrive from https://www.javatpoint.com/machine-learning-random-forest-algorithm

Sonoo Jaiswal. (n.d.). Support Vector Machine Algorithm. Retrive from https://www.javatpoint.com/machine-learning-support-vector-machine-algorithm

Downloads

Published

2023-12-28

How to Cite

Lekdee, T., Santianotai, R., & Udompittayason, J. (2023). Efficiency Comparison of Lung Cancer Risk Prediction Models using Data- mining Techniques. Science and Technology to Community, 2(1), 22–35. https://doi.org/10.57260/stc.2024.705

Issue

Section

Research Articles