การเปรียบเทียบประสิทธิภาพของแบบจำลองการทำนายความเสี่ยงโรคมะเร็งปอด ด้วยเทคนิคเหมืองข้อมูล
DOI:
https://doi.org/10.57260/stc.2024.705คำสำคัญ:
ต้นไม้ตัดสินใจ , ป่าสุ่ม , นาอีฟเบย์ , โรคมะเร็งปอดบทคัดย่อ
การวิจัยนี้มีวัตถุประสงค์เพื่อสร้างและเปรียบเทียบประสิทธิภาพของแบบจำลองที่ใช้สำหรับทำนายความเสี่ยงโรคมะเร็งปอด โดยวิเคราะห์ตามกระบวนการมาตรฐานของการทำเหมืองข้อมูล (CRISP-DM) ข้อมูลทั้งหมดมี 310 รายการ แบ่งเป็นสองกลุ่ม กลุ่มที่เป็นโรคมะเร็งปอด 270 รายการ และกลุ่มที่ไม่เป็นโรคมะเร็งปอด 39 รายการ ซึ่งถูกเรียกว่า คลาส YES และ คลาส No ตามลำดับ สมดุลข้อมูลด้วยวิธีการสังเคราะห์ข้อมูลเพิ่ม (Synthetic minority oversampling technique: SMOTE) และสร้างแบบจำลองใช้เทคนิคการทำเหมืองข้อมูล 4 เทคนิค ประกอบด้วย เทคนิคต้นไม้ตัดสินใจ เทคนิคป่าสุ่ม เทคนิคนาอีฟเบย์ และเทคนิคซัพพอรตเวกเตอรแมชชีน และเปรียบเทียบประสิทธิภาพแบบจำลองด้วยค่าความถูกต้อง (Accuracy) ค่าความแม่นยำ (Precision) ค่าความระลึก (Recall) และค่าประสิทธิภาพโดยรวม (F-measure) โดยใช้โปรแกรม RapidMiner studio version 10.1 ในการสร้างแบบจำลองและการวิเคราะห์ข้อมูล ผลการวิจัยพบว่า เทคนิคป่าสุ่มเป็นเทคนิคที่ดีที่สุด ให้ค่าความถูกต้อง 94.63% ค่าความแม่นยำ 92.92% ค่าความระลึก 96.67% และค่าประสิทธิภาพโดยรวม 94.73% ซึ่งผลการวิจัยนี้สามารถนำไปสร้างเป็นระบบสารสนเทศเพื่อพยากรณ์ผู้ป่วยมะเร็งปอด โดยเป็นการคัดกรองข้อมูลผู้ป่วยเบื้องต้นก่อนถึงมือแพทย์
References
กฤตกนก ศรีพิมพ์สอ และ กิตติพล วิแสง. (2566). การพยากรณ์โรคเบาหวานด้วยเทคนิคเหมืองข้อมูล. วารสารวิชาการการจัดการเทคโนโลยี มหาวิทยาลัยราชภัฏมหาสารคาม, 10(1), 51-63. https://ph02.tci-thaijo.org/index.php/itm-journal/article/view/248575
กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำกลยุทธ์เสนอขายประกันต่อยอดสำหรับผู้ถือบัตรเครดิต. การประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม.
ไกรศักดิ์ เกษร. (2564). วิทยาศาสตร์ข้อมูล (Data Science). ภาควิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์มหาวิทยาลัยนเรศวร.
จิราภรณ์ เจริญยิ่ง. (2563). การพยากรณ์ผลสัมฤทธิ์ทางการเรียนด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยศรีนครินทรวิโรฒ.
จีราพร บวรอารักษ์, อริสา สิทธิโชคพันธ์, สิทธิพงศ์ รักตะเมธากูล และ พรพิศ ยิ้มประยูร. (2562). การพยากรณ์จำนวนผู้ป่วยโรคมะเร็งปอดสาหรับเพศชายและโรคมะเร็งเต้านมสาหรับเพศหญิงในประเทศไทย. การประชุมวิชาการระดับชาติ ครั้งที่ 16 มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน วันที่ 3-4 ธันวาคม 2562.
ธงไชย พ้องเสียง และ จารี ทองคำ. (2565). แบบจำลองสำหรับพยากรณ์การรักษาโรคเบาหวานและโรคความดันโลหิตสูงโดยเทคนิคเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ มหาวิทยาลัยมหาสารคาม.
รักถิ่น เหลาหา. (2553). การพยากรณ์ความเสี่ยงการเกิดโรคมะเร็งปอดโดยใช้ทฤษฎีของการทำเหมืองข้อมูล. ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาเทคโนโลยีสารสนเทศ มหาวิทยาลัยขอนแก่น.
เพชรรัตน์ ม่วงน้อย, จักรพันธ์ พลาผล และ ภรัณยา ปาลวิสุทธ. (2564). ตัวแบบประเมินภาวะความเสี่ยงการเป็นโรคซึมเศร้าของนักศึกษาด้วยเทคนิคเหมืองข้อมูล. วารสารการประยุกต์ใช้เทคโนโลยีสารสนเทศ, 7(1), 54-63. https://ph02.tci-thaijo.org/index.php/project-journal/article/view/242196
วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และ จิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน. วารสารวิจัย มข. ฉบับบัณฑิตศึกษา, 18(3), 11-21.
ศรราม หงส์พรหม และ จันตรี ผลประเสริฐ. (2563). การทำนายระดับความยากจนจากของข้อมูลสำมะโนประชากรด้วยการเรียนรู้ของเครื่อง. สารนิพนธ์วิทยาศาสตรมหาบัณฑิต (เทคโนโลยีสารสนเทศ), มหาวิทยาลัยศรีนครินทรวิโรฒ
อุกฤษฏ์ ศรีสุข. (2564). การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับอุบัติการของผู้ป่วย. วารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม, 40(2), 157-163. https://li01.tci-thaijo.org/index.php/scimsujournal/article/view/247870
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16(1), 321-357. https://doi.org/10.1613/jair.995
Koushiki, D. C. (2023). Building Naive Bayes Classifier from Scratch to Perform Sentiment Analysis. Retrive from https://www.analyticsvidhya.com/blog/2022/03/building-naive-bayes-classifier-from-scratch-to-perform-sentiment-analysis/
Mysar, A. B. (2021). Lung Cancer. Retrive from https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer
Rojanamatin, J., Ukranun, W., Supaattagorn, P., Chaiwiriyabunya, I., Wongsena, M., Chaiwerawattana, A., Laowahutanont, P., Chitapanarux, I., Vatanasapt, P., Greater, S. L., Sangrajrang, S., & Buasom, R. (2021). Cncer in Thailand volume X 2016-2018. Bangkok Thailand: National Cancer Institute.
Schuh, G., Prote, J.-P., & Hünnekes, P. (2020). Data mining methods for macro level process planning. Procedia CIRP, 88, 48-53. https://doi.org/10.1016/j.procir.2020.05.009
Sonoo Jaiswal. (n.d.). Decision Tree Classification Algorithm. Retrive from https://www.javatpoint.com/machine-learning-decision-tree-classification-algorithm
Sonoo Jaiswal. (n.d.). Random Forest Algorithm. Retrive from https://www.javatpoint.com/machine-learning-random-forest-algorithm
Sonoo Jaiswal. (n.d.). Support Vector Machine Algorithm. Retrive from https://www.javatpoint.com/machine-learning-support-vector-machine-algorithm
Downloads
เผยแพร่แล้ว
How to Cite
ฉบับ
บท
License
Copyright (c) 2023 วิทยาศาสตร์และเทคโนโลยีสู่ชุมชน
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
1. บทความ ข้อมูล เนื้อหา รูปภาพฯลฯ ที่ได้รับการตีพิมพ์ใน “วารสารวิทยาศาสตร์และเทคโนโลยีสู่ชุมชน” ถือเป็นลิขสิทธิ์ของวารสารวิทยาศาสตร์และเทคโนโลยีสู่ชุมชน มหาวิทยาลัยราชภัฏเชียงใหม่ หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนหนึ่งส่วนใดไปเผยแพร่ต่อหรือกระทำการใดๆ จะต้องได้รับอนุญาตเป็นลายลักษณ์อักษรจาก วารสารวิทยาศาสตร์และเทคโนโลยีสู่ชุมชน มหาวิทยาลัยราชภัฏเชียงใหม่
2. เนื้อหาบทความที่ปรากฏในวารสารเป็นความรับผิดชอบของผู้เขียนบทความโดยตรง ซึ่งกองบรรณาธิการวารสารไม่จำเป็นต้องเห็นด้วยหรือร่วมรับผิดชอบใดๆ