Efficiency Comparison of Lung Cancer Risk Prediction Models using Data- mining Techniques
DOI:
https://doi.org/10.57260/stc.2024.705Keywords:
Decision tree, Random forest, Naïve bayes, Lung cancer diseaseAbstract
This research aims to create and compare the efficiency of models used for predicting the risk of lung cancer by analyzing according to the Cross-Industry Standard Process for Data Mining (CRISP-DM). The dataset comprises 310 items, divided into two groups: 270 instances with lung cancer (Class YES) and 39 instances without lung cancer (Class NO). Data balance was achieved using the Synthetic Minority Oversampling Technique (SMOTE). Four data mining techniques were employed: Decision Tree, Random Forest, and Naïve Bayes, as well as Support Vector Machine. Model performance was evaluated using metrics such as Accuracy, precision, recall, and F-measure. RapidMiner Studio Version 10.1 was utilized for model creation and data analysis. The findings reveal that the Random Forest technique outperformed others, yielding an accuracy of 94.63%, precision of 92.92%, recall of 96.67%, and an overall F-measure of 94.73%. This research suggests that the Random Forest technique is the most effective for predicting lung cancer risk, providing valuable insights for potential integration into an information system for preliminary patient screening before reaching medical professionals.
References
กฤตกนก ศรีพิมพ์สอ และ กิตติพล วิแสง. (2566). การพยากรณ์โรคเบาหวานด้วยเทคนิคเหมืองข้อมูล. วารสารวิชาการการจัดการเทคโนโลยี มหาวิทยาลัยราชภัฏมหาสารคาม, 10(1), 51-63. https://ph02.tci-thaijo.org/index.php/itm-journal/article/view/248575
กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำกลยุทธ์เสนอขายประกันต่อยอดสำหรับผู้ถือบัตรเครดิต. การประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม.
ไกรศักดิ์ เกษร. (2564). วิทยาศาสตร์ข้อมูล (Data Science). ภาควิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์มหาวิทยาลัยนเรศวร.
จิราภรณ์ เจริญยิ่ง. (2563). การพยากรณ์ผลสัมฤทธิ์ทางการเรียนด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยศรีนครินทรวิโรฒ.
จีราพร บวรอารักษ์, อริสา สิทธิโชคพันธ์, สิทธิพงศ์ รักตะเมธากูล และ พรพิศ ยิ้มประยูร. (2562). การพยากรณ์จำนวนผู้ป่วยโรคมะเร็งปอดสาหรับเพศชายและโรคมะเร็งเต้านมสาหรับเพศหญิงในประเทศไทย. การประชุมวิชาการระดับชาติ ครั้งที่ 16 มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน วันที่ 3-4 ธันวาคม 2562.
ธงไชย พ้องเสียง และ จารี ทองคำ. (2565). แบบจำลองสำหรับพยากรณ์การรักษาโรคเบาหวานและโรคความดันโลหิตสูงโดยเทคนิคเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยมหาสารคาม.
รักถิ่น เหลาหา. (2553). การพยากรณ์ความเสี่ยงการเกิดโรคมะเร็งปอดโดยใช้ทฤษฎีของการทำเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาเทคโนโลยีสารสนเทศ มหาวิทยาลัยขอนแก่น.
เพชรรัตน์ ม่วงน้อย, จักรพันธ์ พลาผล และ ภรัณยา ปาลวิสุทธ. (2564). ตัวแบบประเมินภาวะความเสี่ยงการเป็นโรคซึมเศร้าของนักศึกษาด้วยเทคนิคเหมืองข้อมูล. วารสารการประยุกต์ใช้เทคโนโลยีสารสนเทศ, 7(1), 54-63. https://ph02.tci-thaijo.org/index.php/project-journal/article/view/242196
วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และ จิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน. วารสารวิจัย มข. ฉบับบัณฑิตศึกษา, 18(3), 11-21.
ศรราม หงส์พรหม และ จันตรี ผลประเสริฐ. (2563). การทำนายระดับความยากจนจากของข้อมูลสำมะโนประชากรด้วยการเรียนรู้ของเครื่อง. สารนิพนธ์วิทยาศาสตรมหาบัณฑิต (เทคโนโลยีสารสนเทศ), มหาวิทยาลัยศรีนครินทรวิโรฒ
อุกฤษฏ์ ศรีสุข. (2564). การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับอุบัติการของผู้ป่วย. วารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม, 40(2), 157-163. https://li01.tci-thaijo.org/index.php/scimsujournal/article/view/247870
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16(1), 321-357. https://doi.org/10.1613/jair.995
Koushiki, D. C. (2023). Building Naive Bayes Classifier from Scratch to Perform Sentiment Analysis. Retrive from https://www.analyticsvidhya.com/blog/2022/03/building-naive-bayes-classifier-from-scratch-to-perform-sentiment-analysis/
Mysar, A. B. (2021). Lung Cancer. Retrive from https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer
Rojanamatin, J., Ukranun, W., Supaattagorn, P., Chaiwiriyabunya, I., Wongsena, M., Chaiwerawattana, A., Laowahutanont, P., Chitapanarux, I., Vatanasapt, P., Greater, S. L., Sangrajrang, S., & Buasom, R. (2021). Cncer in Thailand volume X 2016-2018. Bangkok Thailand: National Cancer Institute.
Schuh, G., Prote, J.-P., & Hünnekes, P. (2020). Data mining methods for macro level process planning. Procedia CIRP, 88, 48-53. https://doi.org/10.1016/j.procir.2020.05.009
Sonoo Jaiswal. (n.d.). Decision Tree Classification Algorithm. Retrive from https://www.javatpoint.com/machine-learning-decision-tree-classification-algorithm
Sonoo Jaiswal. (n.d.). Random Forest Algorithm. Retrive from https://www.javatpoint.com/machine-learning-random-forest-algorithm
Sonoo Jaiswal. (n.d.). Support Vector Machine Algorithm. Retrive from https://www.javatpoint.com/machine-learning-support-vector-machine-algorithm
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 Science and Technology to Community

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
1. Articles, information, content, images, etc. that are published in "Science and Technology for Community Journal" is the copyright of science and Technology for Community Journal. Chiang Mai Rajabhat University. If any person or organization wants to distribute all or any part of it or do any action Must have written permission from the science and Technology for Community Journal, Chiang Mai Rajabhat University.
2. Content of articles appearing in the journal is the responsibility of the author of the article. The journal editor is not required to agree or take any responsibility.