Thursday 20 July 2017

หายไป ข้อมูล ใส่ร้าย ไบนารี ตัวเลือก


16 1 2 หลักการทั่วไปในการจัดการกับข้อมูลที่ขาดหายไปมีเอกสารขนาดใหญ่เกี่ยวกับวิธีการทางสถิติสำหรับการจัดการกับข้อมูลที่ขาดหายไปที่นี่เราทบทวนแนวคิดสำคัญบางอย่างและเสนอคำแนะนำทั่วไปสำหรับผู้เขียน Cochrane ข้อคิดเห็นสำคัญที่ต้องคิดว่าทำไมข้อมูลอาจหายไป นักสถิติมักจะใช้เงื่อนไขที่หายไปอย่างสุ่มและไม่หายไปอย่างสุ่มเพื่อแสดงสถานการณ์ที่แตกต่างกันข้อมูลกล่าวว่าสูญหายโดยอัตโนมัติหากข้อเท็จจริงที่ว่าหายไปจะไม่เกี่ยวข้องกับค่าที่แท้จริงของข้อมูลที่หายไปตัวอย่างเช่นถ้าคุณภาพบางส่วนของ - ชีวิตแบบสอบถามหายไปในระบบไปรษณีย์นี้จะไม่น่าจะเกี่ยวข้องกับคุณภาพชีวิตของผู้เข้าร่วมการทดลองที่กรอกแบบฟอร์มในบางกรณีสถิติแยกแยะระหว่างข้อมูลหายไปอย่างสุ่มและข้อมูลหายไปอย่างสมบูรณ์แบบสุ่มแม้ว่าใน บริบทของการทบทวนอย่างเป็นระบบความแตกต่างไม่น่าเป็นประเด็นสำคัญข้อมูลที่สูญหายไปแบบสุ่มอาจไม่สำคัญการวิเคราะห์ตาม ข้อมูลที่มีอยู่จะมีแนวโน้มที่จะเป็นกลางแม้ว่าจะขึ้นอยู่กับขนาดของกลุ่มตัวอย่างที่มีขนาดเล็กกว่าชุดข้อมูลเดิมข้อมูลจะกล่าวได้ว่าจะไม่หายไปแบบสุ่มถ้าความจริงที่พวกเขาขาดหายไปเกี่ยวข้องกับข้อมูลที่หายไปจริงตัวอย่างเช่นใน การทดลองภาวะซึมเศร้าผู้เข้าร่วมที่มีอาการกำเริบของภาวะซึมเศร้าอาจมีโอกาสน้อยที่จะเข้าร่วมการสัมภาษณ์ติดตามผลครั้งสุดท้ายและมีแนวโน้มที่จะมีข้อมูลผลลัพธ์ที่หายไปข้อมูลดังกล่าวไม่สามารถละเลยได้เนื่องจากความสามารถในการวิเคราะห์ข้อมูลที่มีอยู่เพียงอย่างเดียว โดยทั่วไปแล้วจะลำเอียงอคติในการตีพิมพ์และความลำเอียงในการรายงานข้อมูลที่เลือกนำโดยความหมายไปยังข้อมูลที่ไม่ได้หายไปอย่างเป็นแบบสุ่มและการขัดสีและการยกเว้นของบุคคลภายในการศึกษามักทำด้วยตัวเลือกหลักสำหรับการจัดการกับข้อมูลที่หายไปคือ 1 การวิเคราะห์เฉพาะข้อมูลที่มีอยู่เท่านั้น คือการละเลยข้อมูลที่ขาดหายไป 2 นำข้อมูลที่ขาดหายไปไปใช้แทนที่ค่านิยมและปฏิบัติต่อไปเช่นเดียวกับที่สังเกตได้เช่นการสังเกตการณ์ครั้งสุดท้ายที่นำมาซึ่งการสันนิษฐาน สมมติว่าผลลัพธ์ทั้งหมดเป็นผลลัพธ์ที่ไม่ดีโดยการกำหนดค่าเฉลี่ยโดยอิงตามค่าที่คาดการณ์ไว้จากการวิเคราะห์การถดถอย 3 กำหนดข้อมูลที่ขาดหายและการบัญชีสำหรับข้อเท็จจริงที่ว่าสิ่งเหล่านี้ถูกกำหนดด้วยความไม่แน่นอนเช่นการแปลงหลายวิธีการแปลงง่ายเป็นจุดที่ 2 ข้อผิดพลาดมาตรฐาน 4 โดยใช้แบบจำลองทางสถิติเพื่อให้ข้อมูลที่หายไปทำให้สมมติฐานเกี่ยวกับความสัมพันธ์กับข้อมูลที่มีอยู่ข้อควรพิจารณา 1 อาจเหมาะสมเมื่อข้อมูลสามารถสันนิษฐานได้ว่าหายไปในตัวเลือกสุ่ม 2 ถึง 4 คือความพยายามที่จะแก้ไขข้อมูลที่ไม่สูญหาย ในทางเลือกที่ 2 เป็นไปได้ในทางปฏิบัติในสถานการณ์ส่วนใหญ่และใช้กันอย่างแพร่หลายในการทบทวนระบบอย่างไรก็ตามไม่สามารถยอมรับความไม่แน่นอนในค่าที่ได้รับและผลลัพธ์โดยทั่วไปในช่วงความเชื่อมั่นที่แคบเกินไปตัวเลือกที่ 3 และ 4 ต้องการการมีส่วนร่วมของนักสถิติที่มีความรู้ ข้อเสนอแนะทั่วไปสำหรับการจัดการกับข้อมูลที่ขาดหายไปใน Cochrane มีดังต่อไปนี้ ผู้ตรวจสอบต้นฉบับเพื่อขอข้อมูลที่ขาดหายไปใช้สมมติฐานที่ชัดเจนของวิธีการใด ๆ ที่ใช้ในการรับมือกับข้อมูลที่หายไปตัวอย่างเช่นข้อมูลถือว่าหายไปแบบสุ่มหรือค่าที่หายไปถือว่าเป็นค่าเฉพาะเช่นผลลัพธ์ที่ไม่ดี ดำเนินการวิเคราะห์ความไวเพื่อประเมินผลที่มีความละเอียดอ่อนต่อการเปลี่ยนแปลงที่สมเหตุสมผลในสมมติฐานที่ได้ทำไว้ในบทที่ 9 ตอนที่ 9 7. เพิ่มผลกระทบที่อาจเกิดขึ้นจากข้อมูลที่หายไปจากผลการตรวจสอบในหัวข้ออภิปรายการอนุมานหลายครั้งใน Stata Imputing นี่คือส่วนที่สี่ของการทับซ้อนกันหลายแบบในชุดข้อมูล Stata สำหรับรายการหัวข้อที่ครอบคลุมโดยซีรีส์นี้ให้ดูที่บทนำหัวข้อนี้จะพูดถึงคุณผ่านรายละเอียดของกระบวนการแปลงข้อมูลให้แน่ใจว่าคุณได้อ่านอย่างน้อยส่วนก่อนหน้านี้การสร้าง Imputation โมเดลเพื่อให้คุณทราบว่าปัญหาใดมีผลต่อความถูกต้องของผลการทดสอบของคุณตัวอย่างข้อมูลอย่างไรเพื่อแสดงขั้นตอนนี้เราจะใช้ชุดข้อมูลประดิษฐ์ e ส่วนตัวอย่างชุดข้อมูลนี้ถูกออกแบบมาให้มีความคล้ายคลึงกับโลกแห่งความจริงข้อมูล binary. race ส่วนแบ่งประเภทสามค่า binary. edu ค่า binary. edu สั่งสี่ประเภท value. exp continuous. wage continuous. Missingness ค่าของตัวแปรทั้งหมด ยกเว้นผู้หญิงมีโอกาสหายตัวไป 10 ครั้งโดยบังเอิญ แต่แน่นอนว่าในโลกแห่งความเป็นจริงที่เราไม่เคยรู้ว่าเป็น MCAR ก่อนเวลาเราจะตรวจสอบว่า MCAR หรือ MAR MNAR ไม่สามารถตรวจสอบได้โดยดูที่ข้อสังเกต ข้อมูลโดยใช้ขั้นตอนที่ระบุไว้ในการตัดสินใจที่จะ Impute. unab numvars unab missvars ค่าเงินเมือง misstable ค่าเทอม gen miss. foreach var ของ missvars local local cvars numvars - var newline แสดง 3 logout missingness ของ var บน covars logit miss var covars foreach nvar of covars ท้องถิ่นแสดงบรรทัดใหม่ 3 ttest ของ nvar โดยขาดหายไปของ var ttest nvar โดยพลาด var ดูไฟล์บันทึกสำหรับ results. Our เป้าหมายของเราคือการถอยหลังค่าจ้างเกี่ยวกับเพศเชื้อชาติระดับการศึกษาและประสบการณ์ในการดูคำตอบที่ถูกต้องเปิด th e ทำไฟล์ที่สร้างชุดข้อมูลและตรวจสอบคำสั่ง gen ที่กำหนดรหัส Wageplete สำหรับกระบวนการ imputation สามารถพบได้ในทำต่อไปนี้กระบวนการ imputation สร้างจำนวนมากออกเราจะใส่ไฮไลท์ในหน้านี้ แต่ที่สมบูรณ์ ไฟล์บันทึกรวมถึงกราฟที่เกี่ยวข้องสามารถพบได้ที่นี่ส่วนต่างๆของบทความนี้จะมีลิงก์ไปยังส่วนที่เกี่ยวข้องของบันทึกคลิกย้อนกลับในเบราว์เซอร์เพื่อกลับไปที่หน้านี้ขั้นตอนแรกในการใช้คำสั่งไมล์คือการตั้งค่าข้อมูลของคุณ นี้ค่อนข้างคล้ายกับ svyset tsset หรือ xtset คำสั่ง mi set บอก Stata ว่าควรจัดเก็บ imputations เพิ่มเติมที่คุณจะสร้างเราขอแนะนำให้ใช้รูปแบบกว้างเนื่องจากมันเร็วขึ้นเล็กน้อยในทางกลับกัน mlong ใช้ memory. To เล็กน้อย Stata ใช้โครงสร้างข้อมูลกว้างชนิดเพื่อให้ Stata ใช้โครงสร้างข้อมูลขนาดเล็กระยะยาวประเภทกว้างยาวและยาวคำศัพท์ที่ยืมมาจากการก่อร่างใหม่และโครงสร้างที่คล้ายกัน แต่ก็ไม่เท่ากันและคุณ woul อย่าใช้รูปทรงแปลกใหม่เพื่อเปลี่ยนโครงสร้างข้อมูลที่ใช้โดยไมล์แทนพิมพ์ mi แปลงกว้างหรือ mi เพิ่ม mlong เพิ่มล้างข้อมูลถ้ายังไม่ได้รับการบันทึกตั้งแต่ change. Most ครั้งสุดท้ายที่คุณ don t ต้องกังวลเกี่ยวกับวิธีการ imputations จะถูกเก็บไว้คำสั่ง mi จะคิดออกโดยอัตโนมัติว่าจะใช้อะไรก็ตามที่คุณทำกับการใส่ใจแต่ละครั้ง แต่ถ้าคุณต้องการจัดการข้อมูลในแบบที่ mi ไม่สามารถทำเพื่อคุณได้คุณจะต้องเรียนรู้เกี่ยวกับรายละเอียดของโครงสร้างที่คุณต้องการอีกครั้ง การใช้คุณจะต้องระมัดระวังมากหากคุณสนใจในสิ่งต่างๆเช่น flong และ flongsep ที่ไม่ค่อยใช้งานจะเรียกใช้ไฟล์นี้และอ่านความคิดเห็นที่มีในขณะที่ตรวจสอบเบราว์เซอร์ข้อมูลเพื่อดูว่าข้อมูลมีลักษณะเป็นอย่างไรในแต่ละครั้ง form. Registering Variables. The คำสั่ง mi รับตัวแปรสามชนิดตัวแปรที่ไม่สามารถเรียกใช้ได้คือตัวแปรที่มีการกำหนดหรือมีตัวแปร imputed ตัวแปรแบบตัวแปรคือตัวแปรที่ mi ไม่ได้กำหนดโดยไม่มีการเลือกหรือเนื่องจากไม่มีค่าใด ๆ es. Passive ตัวแปรคือตัวแปรที่ถูกกำหนดโดยตัวแปรอื่น ๆ ตัวอย่างเช่นค่าจ้างเข้าสู่ระบบถูกกำหนดโดยค่าจ้างหรือตัวบ่งชี้สำหรับโรคอ้วนอาจถูกกำหนดโดยการทำงานของน้ำหนักและความสูงเงื่อนไขการโต้ตอบยังเป็นตัวแปร passive แม้ว่าคุณจะใช้ Stata s โต้ตอบคุณได้รับ t ต้องประกาศเป็นตัวแปร Passive ดังกล่าวมักจะเป็นปัญหาตัวอย่างใน transformations ไม่ใช่เชิงเส้นและปฏิสัมพันธ์แสดงว่าใช้พวกเขาอย่างไม่เหมาะสมสามารถนำไปสู่ประมาณการลำเอียงถ้าตัวแปร passive กำหนดโดยตัวแปรปกติแล้วจะสามารถ จะถือว่าเป็นตัวแปรปกติเนื่องจากไม่จำเป็นต้องแปลงเป็นตัวแปร Passive ต้องได้รับการปฏิบัติเช่นนี้ถ้าขึ้นอยู่กับตัวแปรที่กำหนดเอาไว้การลงทะเบียนตัวแปรบอก Stata ว่าตัวแปรชนิดใดเป็นตัวแปร Imputed ต้องเป็น register. mi ลงทะเบียน varified varified ที่ varlist ควรถูกแทนที่ด้วยรายการที่แท้จริงของตัวแปรที่จะ imputed. Regular ตัวแปร don t มักจะต้องลงทะเบียน แต่ มัน sa ความคิดที่ดีลงทะเบียนปกติ varlist. Passive ตัวแปรต้องลงทะเบียน register. mi ลงทะเบียน varifive passive อย่างไรก็ตามตัวแปร passive มักจะถูกสร้างขึ้นหลังจากที่ imputing ทำเช่นนั้นกับ passive ไมล์และพวกเขาจะได้รับการจดทะเบียนเป็น passive โดยอัตโนมัติในตัวอย่างข้อมูลของเรา, ตัวแปรทั้งหมดยกเว้นเพศหญิงจะต้องมีการระบุไว้คำสั่งการลงทะเบียนที่เหมาะสมของไมล์ที่ลงทะเบียนการแข่งขันค่าจ้าง is. mi โปรดทราบว่าคุณไม่สามารถใช้เป็นตัวแปรของคุณแม้ว่าคุณจะต้องกำหนดตัวแปรทั้งหมดของคุณเพราะที่จะรวมถึงตัวแปรระบบที่เพิ่มโดยไมล์ตั้งเพื่อติดตามโครงสร้าง imputation การลงทะเบียนหญิงเป็นปกติเป็นตัวเลือก แต่ idea. mi ดี ลงทะเบียนแบบปกติ female. Checking รุ่น Imputation ขึ้นอยู่กับประเภทของตัวแปรที่เห็นได้ชัดวิธีการ imputation are. race เด็ดขาดสามค่า mlogit. urban binary logit. edu สั่งเด็ดขาดสี่ค่า ologit. exp regress. wage ต่อเนื่องถอยหลังอย่างต่อเนื่อง หญิงไม่จำเป็นต้องถูก imputed แต่ควรจะรวมอยู่ในรูปแบบ imputation ทั้งสองเพราะอยู่ในรูปแบบการวิเคราะห์และเนื่องจากมีแนวโน้มที่จะเกี่ยวข้องก่อนที่จะดำเนินการเพื่อ impute เราจะตรวจสอบแต่ละรูปแบบ imputation ทำงานทุกครั้งของคุณ รูปแบบการแปลงเป็นรายบุคคลนอก mi กำหนดการคอนเท็กซ์เชนเพื่อดูว่าพวกเขามาบรรจบกันและตราบเท่าที่เป็นไปได้ตรวจสอบว่ามีการระบุอย่างถูกต้องโค้ดเพื่อเรียกใช้แต่ละรุ่นเหล่านี้คือ rmlogit r ace exp ค่าจ้าง logit exp exp ค่า ologit exp ค่าจ้าง regress ค่า exp ค่าจ้างถอยหลัง exp โปรดทราบว่าเมื่อตัวแปรเด็ดขาดสั่งหรือไม่ปรากฏเป็นตัวแปรร่วมฉันขยายลงในชุดตัวแปรตัวบ่งชี้ที่เราจะเห็นในภายหลังผลลัพธ์ของ mi impute เชนคำสั่งรวมถึงคำสั่งสำหรับแต่ละรูปแบบที่จะทำงานดังนั้นทางลัดที่มีประโยชน์โดยเฉพาะอย่างยิ่งถ้าคุณมีจำนวนมากตัวแปรที่จะกำหนดคือการตั้งค่าไมล์ของคุณกำหนดคำสั่งล่ามด้วยตัวเลือก dryrun เพื่อป้องกันไม่ให้ทำ imposition ใด ๆ ที่เกิดขึ้นจริงเรียกใช้ มันแล้วคัดลอกคำสั่งจากการส่งออกเป็นไฟล์ของคุณทำสำหรับการทดสอบปัญหาความเบื่อหน่ายสิ่งแรกที่ต้องทราบก็คือว่าทุกรุ่นเหล่านี้ทำงานได้ประสบความสำเร็จแบบจำลองที่ซับซ้อนเช่น mlogit อาจล้มเหลวในการบรรจบกันถ้าคุณมีจำนวนมากของตัวแปรเด็ดขาด, เนื่องจากที่มักนำไปสู่ขนาดเซลล์ขนาดเล็กเพื่อตรึงสาเหตุของปัญหาให้ลบตัวแปรส่วนใหญ่ตรวจดูให้แน่ใจว่าโมเดลทำงานร่วมกับสิ่งที่เหลือจากนั้นเพิ่มตัวแปรกลับหนึ่งครั้งหรือในขนาดเล็ก กลุ่มจนกว่าจะหยุดทำงานกับการทดลองบางอย่างคุณควรจะสามารถระบุตัวแปรปัญหาหรือการรวมกันของตัวแปรได้ ณ จุดนี้คุณจะต้องตัดสินใจว่าคุณสามารถรวมหมวดหมู่หรือวางตัวแปรหรือทำการเปลี่ยนแปลงอื่น ๆ เพื่อที่จะสร้างรูปแบบที่สามารถทำงานได้หรือไม่ Prediction. Perfect ทำนายเป็นปัญหาที่ต้องทราบกระบวนการ imputation ไม่สามารถเพียงแค่ปล่อยการสังเกตที่คาดการณ์ไว้อย่างสมบูรณ์ทาง logit สามารถคุณสามารถวางพวกเขาก่อน imputing แต่ที่ดูเหมือนว่าจะพ่ายแพ้วัตถุประสงค์ของการใส่หลาย ๆ ทางเลือกคือการเพิ่มการเพิ่มหรือเพียงแค่ aug ตัวเลือกในวิธีการที่ได้รับผลกระทบนี้จะบอกว่ามุ้ง imputed ล่ามเพื่อใช้วิธีการถดถอยที่เพิ่มขึ้นซึ่งจะเพิ่มการสังเกตการณ์ปลอมที่มีน้ำหนักต่ำมากในลักษณะที่พวกเขามีผลกระทบเล็กน้อยต่อผล แต่ป้องกันการคาดการณ์ที่สมบูรณ์แบบสำหรับรายละเอียดดูที่ส่วนประเด็นของ การคาดการณ์ที่สมบูรณ์แบบในระหว่างการแปลงข้อมูลที่มีความเป็นไปได้ในเอกสารข้อมูล Stata MI การตรวจสอบสำหรับการระบุข้อมูลผิดพลาดคุณ sh ould ยังพยายามที่จะประเมินว่ารูปแบบถูกระบุอย่างถูกต้องการอภิปรายเต็มรูปแบบของวิธีการตรวจสอบว่ารูปแบบการถดถอยถูกระบุอย่างถูกต้องหรือไม่ดีกว่าขอบเขตของบทความนี้ แต่ใช้สิ่งที่เครื่องมือที่คุณพบว่าเหมาะสมนี่เป็นตัวอย่างบางส่วน พล็อตค่า Plots. For ตัวแปรอย่างต่อเนื่องที่เหลือ vs พล็อตพล็อตติดตั้งได้อย่างง่ายดายด้วย rvfplot จะมีประโยชน์หลายตัวอย่างใช้พวกเขาในการตรวจสอบปัญหาพิจารณาพล็อตสำหรับประสบการณ์ expres ค่าจ้าง exprvotote ทราบว่าจำนวนจุดที่มีการจัดกลุ่มตาม บรรทัดด้านล่างซ้ายและไม่มีจุดอยู่ด้านล่างนี้แสดงให้เห็นถึงข้อ จำกัด ว่าประสบการณ์ต้องมีค่าน้อยกว่าศูนย์ซึ่งหมายความว่าค่าติดตั้งต้องมีค่ามากกว่าหรือเท่ากับส่วนที่เหลือหรือเท่ากับว่าส่วนที่เหลือจะต้องมากกว่า มากกว่าหรือเท่ากับค่าลบของค่าที่ติดตั้งถ้ากราฟมีขนาดเท่ากันทั้งสองแกนเส้นข้อ จำกัด จะเป็นเส้น 45 องศาหากทุกจุดมีค่าต่ำกว่าศรี บรรทัด milar มากกว่าข้างต้นนี้จะบอกคุณว่ามีขอบเขตบนมากกว่าตัวแปรที่ต่ำกว่าผูกพัน y ตัดของสายข้อ จำกัด บอกคุณขีด จำกัด ในทั้งสองกรณีคุณสามารถมีทั้งลดล่างและ ข้อ จำกัด ด้านบนทำให้จุดทั้งหมดอยู่ในกลุ่มระหว่างพวกเขารูปแบบที่ชัดเจนถอยหลังไม่เหมาะสมสำหรับประสบการณ์เพราะได้รับรางวัล t ใช้ข้อ จำกัด นี้ยังไม่เหมาะสมสำหรับค่าจ้างด้วยเหตุผลเดียวกัน Alternatives รวม truncreg ll 0 และ PMM เราจะใช้ ในตัวอย่างนี้ดูเหมือนว่าน่าจะเป็นไปได้ว่าความสัมพันธ์ระหว่างตัวแปรอาจแตกต่างกันไประหว่างเชื้อชาติเพศและกลุ่มชนบทในชนบทดังนั้นวิธีหนึ่งในการตรวจสอบความผิดพลาดคือการเพิ่มเงื่อนไขการโต้ตอบกับโมเดลและดูว่าพวกเขากำลังทำอะไรอยู่หรือไม่ เป็นสิ่งที่สำคัญตัวอย่างเช่นเราจะเปรียบเทียบค่าแรง exp ที่ชัดเจนกับ model. regress. with หนึ่งที่มี expres interactions. regress เราจะเรียกใช้การเปรียบเทียบที่คล้ายกันสำหรับรุ่นของตัวแปรอื่น ๆ ซึ่งจะสร้างการจัดการที่ดี output ดังนั้นดูล็อกไฟล์เพื่อผลลัพธ์การโต้ตอบระหว่างตัวแปรหญิงกับตัวแปรอื่น ๆ มีความสำคัญในรูปแบบของค่าจ้าง exp edu และ urban มีปฏิสัมพันธ์ที่สำคัญระหว่างการแข่งขันหรือตัวแปรเมืองและตัวแปรอื่น ๆ แต่ไม่มากเท่าที่ควรและทราบว่า มีค่าสัมประสิทธิ์จำนวนมากที่เราคาดหวังว่าผลบวกปลอมจำนวนหนึ่งจะใช้ระดับนัยสำคัญของ 05 ดังนั้นเราจึงแยกชายและหญิงต่างหากต่างหากนี่เป็นทางเลือกที่ดีสำหรับชุดข้อมูลนี้เนื่องจากผู้หญิงไม่เคยหายไปถ้าเป็นเช่นนั้นแล้วเราต้องลดลง ข้อสังเกตที่ขาดหายไปเนื่องจากเพศหญิงไม่สามารถอยู่ในกลุ่มใดกลุ่มหนึ่งหรืออีกนัยหนึ่งคำสั่ง imputation นี้หมายถึงการเพิ่มตัวเลือกหญิงเมื่อโมเดลการทดสอบหมายถึงการเริ่มต้นคำสั่งด้วยคำนำหน้าหญิงและนำหญิงออกจากรายการของ รูปแบบการแปลงค่าที่เพิ่มขึ้นจึงเป็นอัตราค่าจ้างผู้หญิงที่ถูกหักจากค่าหญิงหญิงที่ถูกหักจากค่าหญิงหญิงที่ถูกหักค่าจ้างโดยผู้หญิง p wage. pmm ตัวเองไม่สามารถเรียกใช้นอกบริบท imputation แต่เนื่องจากมันขึ้นอยู่กับการถดถอยคุณสามารถใช้การถดถอยปกติในการทดสอบแบบจำลองเหล่านี้ควรจะทดสอบอีกครั้ง แต่เราจะละเว้นขั้นตอนที่กระบวนการ syntax ขั้นพื้นฐานสำหรับ mi impute ล่ามโซ่ is. mi impute chained method1 varlist1 method2 varlist2 regvars. Each method ระบุวิธีการที่จะใช้สำหรับ imputing varlist ต่อไปนี้ความเป็นไปได้สำหรับวิธีการคือถอยหลัง pmm truncreg intreg logit ologit mlogit poisson และ nbvregvars เป็นรายการของตัวแปรปกติที่จะใช้เป็น ความแปรปรวนร่วมในรูปแบบการแปลง แต่ไม่ได้ระบุอาจไม่มีตัวเลือกใด ๆ ที่เป็นไปตามขั้นตอนคือ N rseed R traceetal tracefile แทน N คือจำนวน imputations ที่จะเพิ่มลงในชุดข้อมูล R คือเมล็ดที่จะใช้สำหรับการสุ่ม หากคุณไม่ได้ตั้งค่านี้คุณจะได้รับ imputations ที่แตกต่างกันเล็กน้อยในแต่ละครั้งที่มีการเรียกใช้คำสั่ง tracefile เป็นชุดข้อมูลที่ mi impute เชนจะเก็บข้อมูลเกี่ยวกับกระบวนการ imputation เราจะเรา e ชุดข้อมูลนี้เพื่อตรวจสอบการบรรจบกันข้อความที่เกี่ยวข้องกับวิธีการใดวิธีการหนึ่งไปกับวิธีการในวงเล็บ แต่ต่อไปนี้จุลภาคเช่น mlogit, aug ตัวเลือกที่เกี่ยวข้องกับกระบวนการ imputation โดยรวมเช่นผู้หญิงไปที่ท้าย หลังจากเครื่องหมายจุลภาคตัวอย่างของเราคำสั่งจะมีผลบังคับใช้ในการเข้าร่วมการล่าสัตว์ในเมือง mlogit การแข่งขัน ologit edu pmm ค่าจ้างเพิ่ม 5 เรเซ่ 4409 โดย female. Note ว่านี้ไม่รวมตัวเลือก savetrace ในฐานะของการเขียนนี้โดยและ savetrace ไม่สามารถใช้งานได้ในเวลาเดียวกันสันนิษฐานเนื่องจากจะต้องใช้ไฟล์การสืบค้นกลับสำหรับแต่ละกลุ่ม Stata ตระหนักถึงปัญหานี้และเราหวังว่านี่จะมีการเปลี่ยนแปลงในเร็ว ๆ นี้สำหรับวัตถุประสงค์ของบทความนี้เราจะนำตัวเลือกออกโดยใช้เมื่อมาถึง หากมีปัญหาเกิดขึ้นในการวิจัยของคุณพูดคุยกับเราเกี่ยวกับการทำงานรอบ ๆ การเลือกจำนวน Imputations. There มีความไม่เห็นด้วยบางอย่างในหมู่เจ้าหน้าที่เกี่ยวกับจำนวน imputations มีเพียงพอบางพูด 3-10 ในเกือบ สถานการณ์ทั้งหมดเอกสาร Stata แนะนำอย่างน้อย 20 ในขณะที่ White, Royston และ Wood อ้างว่าจำนวน imputations ควรจะประมาณเท่ากับเปอร์เซ็นต์ของกรณีที่มีค่าหายไป แต่เราไม่ทราบอาร์กิวเมนต์ที่เพิ่มจำนวน การเพิ่มจำนวน imputations ในการวิเคราะห์ของคุณจะเป็นหลักไม่ทำงานในส่วนของคุณเพียงแค่เปลี่ยนหมายเลขในตัวเลือกเพิ่มเพื่อสิ่งที่ใหญ่กว่าในทางกลับกันก็สามารถเป็น งานจำนวนมากสำหรับคอมพิวเตอร์หลาย imputation ได้แนะนำนักวิจัยจำนวนมากเข้าสู่โลกของงานที่ต้องใช้เวลาหลายชั่วโมงหรือหลายวันทำงานโดยทั่วไปคุณสามารถสมมติได้ว่าระยะเวลาที่กำหนดจะเป็นสัดส่วนกับจำนวน imputations ที่ใช้เช่นถ้าไฟล์ทำ สองชั่วโมงในการทำงานกับห้า imputations ก็อาจจะใช้เวลาประมาณสี่ชั่วโมงในการทำงานกับ imputations สิบดังนั้นนี่เป็นข้อเสนอแนะของเราเริ่มต้นด้วยห้า im สมมติว่าโครงการวิจัยของคุณมีความถูกต้องถูกต้องถูกต้องถูกต้องโครงการวิจัยของคุณจนกว่าคุณจะมีความมั่นใจว่าคุณมีการวิเคราะห์ในรูปแบบสุดท้ายโปรดแน่ใจว่าได้ทำทุกอย่างพร้อมกับทำไฟล์เพื่อให้คุณสามารถเรียกใช้งานได้อีกครั้งที่ will. Note กระบวนการใช้จากการแปลงเป็นครั้งสุดท้ายการวิเคราะห์พิจารณาว่าคุณมีเวลาเท่าไรและตัดสินใจว่าคุณจะสามารถดำเนินการได้มากแค่ไหนโดยใช้กฎของหัวแม่มือที่ต้องใช้เป็นสัดส่วนกับจำนวนการจัดสรรหากเป็นไปได้ให้กำหนดจำนวน imputations ประมาณร้อยละของกรณีที่มีข้อมูลที่หายไปประมาณการสิ้นสูงของสิ่งที่จำเป็นต้องใช้เวลาที่จะกู้คืนหากสิ่งที่ผิดไปตามที่พวกเขาทำโดยทั่วไปเพิ่มจำนวนของ imputations ในไฟล์ของคุณทำและเริ่มต้น it. Do อย่างอื่นในขณะที่ ไฟล์ทำทำงานเช่นเขียนบทความของคุณการเพิ่ม imputations ไม่ควรเปลี่ยนผลของคุณอย่างมีนัยสำคัญและในกรณีที่ไม่น่าสนใจที่พวกเขาทำพิจารณาตัวเองโชคดีที่ได้พบว่าออกก่อนเผยแพร่.Sededin g up กระบวนการ Imputation หลายนัยได้แนะนำนักวิจัยจำนวนมากเข้าสู่โลกของงานที่ต้องใช้เวลาหลายชั่วโมงหรือแม้กระทั่งสัปดาห์ที่จะเรียกใช้มักจะไม่คุ้มค่าการใช้จ่ายเวลาของคุณเพื่อให้รหัส Stata ทำงานได้เร็วขึ้น แต่หลาย imputation สามารถยกเว้น ใช้คอมพิวเตอร์ที่เร็วที่สุดสำหรับคุณสำหรับสมาชิก SSCC ซึ่งหมายถึงการเรียนรู้เพื่อเรียกใช้งานใน Linstat กลุ่มคอมพิวเตอร์ Linux ของ SSCC Linux ไม่ใช่เรื่องยากเท่าที่คุณอาจจะคิดว่าการใช้ Linstat มีคำแนะนำการใส่ใจหลายครั้งเกี่ยวข้องกับการอ่านและเขียนข้อมูลลงดิสก์มากกว่า คำสั่ง Stata ส่วนใหญ่บางครั้งรวมถึงการเขียนไฟล์ชั่วคราวในไดเร็กทอรีการทำงานปัจจุบันใช้พื้นที่ว่างในดิสก์ที่เร็วที่สุดที่มีให้คุณทั้งสำหรับชุดข้อมูลและไดเร็กทอรีการทำงานโดยทั่วไปเนื้อที่ดิสก์ในเครื่องจะเร็วกว่าพื้นที่ดิสก์เครือข่ายและบน Ramstat ไดเรกทอรีที่เก็บจริงในแรมจะเร็วกว่าเนื้อที่ดิสก์ในเครื่องอื่น ๆ ในทางกลับกันคุณจะไม่ต้องการจัดเก็บชุดข้อมูลไว้อย่างถาวร แต่ต้องใช้ netwo rk disk space ดังนั้นให้พิจารณาว่าไฟล์ทำของคุณจะทำในสิ่งที่ต้องการต่อไปนี้ Windows Winstat หรือ PC ของคุณเองซึ่งจะใช้เมื่อคุณใช้ข้อมูลที่อ้างถึงอีกด้วยหากข้อมูลของคุณมีขนาดใหญ่พอที่จะใช้งานได้หลังจากการแปลงข้อมูลช้า ขั้นตอนอาจช่วยได้การตรวจสอบสำหรับ Convergence. MICE เป็นกระบวนการที่ซ้ำในแต่ละการทำซ้ำ, mi impute chained แรกประมาณรูปแบบการใช้โดยใช้ทั้งข้อมูลที่สังเกตและข้อมูล imputed จากการทำซ้ำก่อนหน้านี้แล้วดึงค่าใหม่ imputed จากการกระจายผลหมายเหตุ ที่เป็นผลให้การย้ำแต่ละคนมีความสัมพันธ์กับการ imputation ก่อนหน้านี้ซ้ำครั้งแรกจะต้องเป็นกรณีพิเศษในนั้น mi impute ล่ามแรกประมาณแบบจำลองการสันนิษฐานสำหรับตัวแปรที่มีค่าน้อยที่สุดหายไปขึ้นอยู่เฉพาะในข้อมูลที่สังเกตและจับ ค่าที่กำหนดสำหรับตัวแปรนั้นจากนั้นประมาณแบบจำลองสำหรับตัวแปรที่มีค่าน้อยกว่าถัดไปที่ขาดหายไปโดยใช้ทั้งค่าที่สังเกตได้และค่าที่กำหนด f ตัวแปรแรกและดำเนินการในทำนองเดียวกันสำหรับส่วนที่เหลือของตัวแปรดังนั้นการทำซ้ำครั้งแรกมักผิดปรกติและเนื่องจากการทำซ้ำมีความเกี่ยวพันกันสามารถทำซ้ำตามมาได้ผิดปกติเช่นกันเพื่อหลีกเลี่ยงสิ่งนี้ mil impute chained โดยค่าเริ่มต้นจะผ่านการทำซ้ำสิบครั้งสำหรับ แต่ละชุดข้อมูลที่กำหนดซึ่งคุณต้องการบันทึกเฉพาะผลลัพธ์ของการทำซ้ำซ้ำที่สิบครั้งการวนซ้ำเก้าครั้งแรกเรียกว่าระยะเวลาการเผาไหม้โดยปกติแล้วนี่เป็นเวลาที่ผลกระทบของการทำซ้ำครั้งแรกจะกลายเป็นไม่สำคัญและสำหรับกระบวนการที่จะมาบรรจบกันเป็น stationary state อย่างไรก็ตามคุณควรตรวจสอบการลู่เข้าและเพิ่มจำนวนการทำซ้ำหากจำเป็นเพื่อให้แน่ใจว่ามันใช้ตัวเลือก burnin ทำเช่นนั้นตรวจสอบแฟ้มการสืบค้นกลับที่บันทึกไว้โดย mil impute chained มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของตัวแปรที่กำหนดแต่ละครั้งใน ซ้ำแต่ละเหล่านี้จะแตกต่างกันแบบสุ่ม แต่ไม่ควรแสดงแนวโน้มใด ๆ วิธีง่ายๆในการตรวจสอบคือกับ tsline แต่ต้องปรับข้อมูลใหม่ก่อนที่เราต้องการ รูปแบบการใช้งานใช้โดยไม่สามารถบันทึกไฟล์การสืบค้นกลับได้ดังนั้นเราจึงจะลบข้อมูลออกไปในขณะนี้นอกจากนี้เราจะเพิ่มตัวเลือก burnin เป็น 100 ดังนั้นจึงง่ายต่อการดูว่าการติดตามข้อมูลที่มีเสถียรภาพมีลักษณะเป็นอย่างไรเราจะใช้รูปทรงการใหม่และไทม์เพื่อตรวจสอบ convergence. preserve mi impute chained logit เมือง mlogit การแข่งขัน ologit edu pmm ค่าจ้างผู้หญิง exp, เพิ่ม 5 rseed 88 savetrace extrace แทนที่ burnin 100 ใช้ extrace แทนที่ reshape wide mean sd i iter jm tsset iter tme ไลน์ expmean ชื่อ Mean of Imputed Values ​​of ประสบการณ์การทำงานแต่ละบรรทัดมีไว้สำหรับตำนานการอ้างสิทธิ์หนึ่งอันจากการส่งออกกราฟแทน expsd tsline, ความเบี่ยงเบนมาตรฐานของค่าที่ถูกต้องของประสบการณ์ note แต่ละบรรทัดมีไว้สำหรับตำนานการอ้างสิทธิ์หนึ่งรายการจากการส่งออกกราฟแทนการคืนค่ากราฟผลลัพธ์จะไม่แสดงปัญหาที่เห็นได้ชัดหากคุณ ไม่เห็นสัญญาณว่ากระบวนการอาจไม่ได้แปรสภาพหลังจากที่เริ่มต้นซ้ำสิบครั้งเพิ่มจำนวนซ้ำทำก่อนที่จะบันทึกค่า imputed กับตัวเลือก burnin ถ้าคอนเวอร์เจนซ์ไม่เคย achi eved นี้บ่งชี้ว่าปัญหาที่เกิดขึ้นกับรูปแบบการปันส่วนการตรวจสอบค่า Imputed หลังจาก imputing คุณควรตรวจสอบเพื่อดูว่าข้อมูล imputed คล้ายกับข้อมูลที่สังเกตไม่มีการทดสอบอย่างเป็นทางการเพื่อตรวจสอบสิ่งที่ s ปิดเพียงพอแน่นอนถ้าข้อมูลเป็น MAR แต่ไม่ MCAR ข้อมูลที่ imputed ควรจะเป็นระบบที่แตกต่างจากข้อมูลที่สังเกตแดกดันค่าที่หายไปน้อยลงที่คุณต้องกำหนดรูปแบบมากขึ้นคุณจะเห็นระหว่างข้อมูล imputed และข้อมูลที่สังเกตและระหว่าง imputations. For ตัวแปรไบนารีและเด็ดขาด, การเปรียบเทียบค่าเฉลี่ยและความเบี่ยงเบนมาตรฐานเป็นตัวแปรที่มีการเปลี่ยนแปลงอย่างต่อเนื่องซึ่งเป็นจุดเริ่มต้นที่ดี แต่คุณควรพิจารณารูปร่างโดยรวมของการแจกแจงด้วยเช่นกันเราขอแนะนำให้ใช้กราฟความหนาแน่นของเมล็ดหรือ histograms ดูที่การแปลงแต่ละครั้งแยกกันมากกว่าการรวมทั้งหมด ค่า imputed เพื่อให้คุณสามารถดูว่ามีคนใดคนหนึ่งผิดพลาดคำนำหน้า xe รถ mi xeq บอก Stata เพื่อใช้คำสั่งต่อไปเพื่อ im แต่ละ putation แต่ละนอกจากนี้ยังนำไปใช้กับข้อมูลเดิม zeroth imputation Thus. mi xeq tab race. will ให้หกตารางความถี่หนึ่งสำหรับข้อมูลเดิมและหนึ่งสำหรับแต่ละ imputations. However เราต้องการเปรียบเทียบข้อมูลที่สังเกต เพียงข้อมูล imputed ไม่ชุดข้อมูลทั้งหมดนี้จะต้องเพิ่มเงื่อนไขหากคำสั่งแท็บสำหรับ imputations แต่ไม่ข้อมูลที่สังเกตเพิ่มจำนวนหรือ numlist มีการกระทำ mi xeq ใน imputations. mi โดยเฉพาะ xeq 0 tab race mi xeq 1 5 แท็บแข่งถ้า missrace. This สร้างตารางความถี่สำหรับค่าที่สังเกตจากการแข่งขันและจากนั้นค่า imputed ในทั้งห้า imputations. If คุณมีจำนวนมากของตัวแปรในการตรวจสอบคุณสามารถวนรอบ them. foreach var ของ varlist เมือง การแข่งขัน edu mi xeq 0 แท็ก var mi xeq 1 5 แท็บ var ถ้าพลาด var. For ผลเห็นล็อกไฟล์สถิติการสรุปการทำงานบนตัวแปรต่อเนื่องตามกระบวนการเดียวกัน แต่การสร้างกราฟความหนาแน่นของเมล็ดเพิ่มภาวะแทรกซ้อนที่คุณต้องการทั้งบันทึก กราฟหรือให้ตัวเองมีโอกาสที่จะมองไปที่พวกเขา mi xeq สามารถดำเนินการคำสั่งหลายสำหรับการปันส่วนแต่ละเพียงวางไว้ในบรรทัดเดียวกับอัฒภาคที่ส่วนท้ายของแต่ละนี้จะไม่ทำงานถ้าคุณได้เปลี่ยนคำสั่งทั่วไปของคำสั่ง คั่นด้วยเครื่องหมายอัฒภาคคำสั่ง Sleep จะบอก Stata ให้หยุดชั่วคราวในช่วงเวลาที่ระบุซึ่งวัดได้จาก milliseconds. mi xeq 0 การเรียกเก็บเงินค่าความหนาแน่น 1000 ไมล์รถบรรทุก 1 5 ค่าความหนาแน่นหากพลาดการนอนหลับ 1000.Again ทั้งหมดนี้สามารถทำได้โดยอัตโนมัติ ค่าจ้าง varlist exp ไมล์รถทั้งหมด 0 รวม var mi xeq 1 5 รวม var ถ้าพลาด var mi xeq 0 ความหนาแน่นของการนอนหลับ 1000 ไมล์รถเก๋ง 1 5 kdensity var ถ้าพลาด var นอน 1000 การจัดเก็บกราฟจะเปลี่ยนเป็นบิตยากกว่าเพราะคุณต้องการ เพื่อให้กราฟจากการปันส่วนแต่ละชื่อไฟล์ที่แตกต่างกันขออภัยคุณไม่สามารถเข้าถึงหมายเลข imputation ภายใน mi xeq อย่างไรก็ตามคุณสามารถทำวง forvalues ​​เหนือตัวเลข imputation แล้วมีการกระทำ xe รถ mi each ใน them. forval i 1 5 ไมล์ xeq i exp kdensity ถ้ากราฟส่งออก missexp. Integ การให้คะแนนนี้กับรุ่นก่อนหน้าให้ค่าต่างๆของค่าจ้าง varlist exp ไมล์รถพ่วง 0 รวม var ยานพาหนะ 1 5 รวม var ถ้าพลาด var mi xeq 0 การส่งออก var graph var แทน forval i 1 5 ไมล์รถ q i var kdensity var if miss var export export แทนผลเพื่อดู log file. It s troublesome ว่าใน imputations ทั้งหมดค่าเฉลี่ยของค่า imputed ค่าจ้างสูงกว่าค่าเฉลี่ยของค่าสังเกตของค่าจ้างและค่าเฉลี่ยของค่า imputed ของ exp ต่ำกว่าค่าเฉลี่ย จากค่าที่สังเกตได้ของ exp เราไม่พบหลักฐานว่าข้อมูลเป็น MAR แต่ไม่ใช่ MCAR ดังนั้นเราจึงคาดหวังว่าวิธีการของข้อมูล imputed จะคลัสเตอร์รอบวิธีการของข้อมูลที่สังเกตไม่มีการทดสอบอย่างเป็นทางการที่จะบอกเราอย่างชัดเจนว่า นี่เป็นปัญหาหรือไม่อย่างไรก็ตามควรเพิ่มความสงสัยและหากผลลัพธ์สุดท้ายกับข้อมูลที่อ้างถึงเหล่านี้แตกต่างจากผลลัพธ์ของการวิเคราะห์กรณีที่สมบูรณ์จะทำให้เกิดคำถามว่าความแตกต่างนี้เกิดขึ้นจากปัญหาเกี่ยวกับรูปแบบการอ้างเหตุผลหรือไม่ แก้ไข 8 23 2555A วิธีใหม่ imputation สำหรับข้อมูลไบนารีไม่สมบูรณ์.Munevver Mine Subasi a. Ersoy Subasi b. Martin Anthony c. Peter L Hammer 1.a ภาควิชาคณิตศาสตร์ฟิสิกส์สถาบันเทคโนโลยี 150 W University Blvd เมลเบิร์น 32901 USA. b RUTCOR , ศูนย์วิจัยการดำเนินงาน Rutgers, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c ภาควิชาคณิตศาสตร์ลอนดอนสกูลออฟ Economics and Political Sciences, Houghton Street, London WC2A 2AE, สหราชอาณาจักรรับทราบ 17 ตุลาคม 2009, ปรับปรุง 28 August 2010, ยอมรับเมื่อวันที่ 31 มกราคม 2554 พร้อมใช้งานออนไลน์ 21 มีนาคม 2011. ในปัญหาการวิเคราะห์ข้อมูลซึ่งข้อมูลแสดงด้วยเวกเตอร์ของตัวเลขจริงมักเป็นกรณีที่จุดข้อมูลบางจุดจะไม่มีค่าซึ่งหมายความว่าหนึ่งหรือมากกว่า รายการของเวกเตอร์ที่อธิบายถึงจุดข้อมูลไม่เป็นที่สังเกตในเอกสารฉบับนี้เราเสนอแนวทางใหม่ในการกำหนดค่าไบนารีที่หายไปเทคนิคที่เราแนะนำให้ใช้มาตรการความคล้ายคลึงกันที่นำมาใช้โดยแอนโธนีและค้อน 20 06 1 เปรียบเทียบผลการปฏิบัติงานของเทคนิคของเรากับเทคนิคที่ใช้วิธีวัดระยะ Hamming ตามปกติและการวัดความคล้ายคลึงกันของหลาย ๆ ส่วนของการวัดความคล้ายคลึงกันของบทคัดย่อ 1 ความรู้เบื้องต้นเกี่ยวกับการเรียนรู้ด้วยเครื่องคอมพิวเตอร์หรือปัญหาการวิเคราะห์ข้อมูลที่ใช้ในการวิเคราะห์ข้อมูลประกอบด้วยเวกเตอร์ของจริง หมายเลขมักจะเป็นกรณีที่บางจุดข้อมูลจะมีค่าที่ขาดหายไปซึ่งหมายความว่าอย่างน้อยหนึ่งรายการของเวกเตอร์ที่อธิบายจุดข้อมูลไม่เป็นที่รู้จักเป็นธรรมชาติที่จะพยายามที่จะกรอกหรือกำหนดค่าเหล่านี้หายไป ค่าเพื่อให้มากกว่าหนึ่งมีข้อมูลที่สมบูรณ์ในการทำงานจากนี้อาจเป็นสิ่งที่จำเป็นเช่นเพื่อให้ข้อมูลที่สามารถใช้ในการเรียนรู้จากการใช้เทคนิคการเรียนรู้ทางสถิติหรือเครื่องนี้เป็นปัญหาทางคณิตศาสตร์คลาสสิกและการเรียนรู้เครื่องและเทคนิคจำนวนมากได้รับการจ้าง ตั้งแต่ในชีวิตจริงการประยุกต์ใช้ข้อมูลที่ขาดหายไปเป็นความรำคาญมากกว่าเน้นหลักวิธีการใส่กับคุณสมบัติที่ดีสามารถเป็นที่นิยมหนึ่งที่มีความซับซ้อน เพื่อใช้และมีประสิทธิภาพมากขึ้น แต่มีปัญหาเฉพาะบางวิธีการจัดการข้อมูลที่ขาดหายไปก็ไม่สนใจหรือลบจุดที่ไม่สมบูรณ์วิธีคลาสสิกของประเภทนี้มีการลบรายการที่ชาญฉลาด LD และการลบคู่ PD เนื่องจากความเรียบง่ายของพวกเขาใช้กันอย่างแพร่หลายดู เช่น 15 และมีแนวโน้มที่จะเป็นค่าเริ่มต้นสำหรับแพคเกจสถิติส่วนใหญ่อย่างไรก็ตามการประยุกต์ใช้เทคนิคเหล่านี้อาจทำให้เกิดการสูญเสียการสังเกตซึ่งอาจทำให้ชุดข้อมูลมีขนาดเล็กเกินไปหากเศษของค่าที่ขาดหายไปสูงและ ลิตเติ้ลและรูบิน 13 แสดงให้เห็นว่าวิธีการใส่ผิดที่ไร้เดียงสาหรือไม่ถูกต้องอาจก่อให้เกิดปัญหามากกว่าที่พวกเขาจะแก้ปัญหา เทคนิคการแปลงข้อมูลมากที่สุดคือการแปลงค่าเฉลี่ยหมายถึงการแปลงค่าเฉลี่ยโดยไม่มีเงื่อนไข, การอ้างถึงการถดถอย RI ยังหมายถึง เป็นข้อนัยที่มีนัยสำคัญการใส่ความร้อน HDI และการใส่ใจหลาย MI เราสังเกตว่าการใส่ความหมายและวิธีการที่คล้ายคลึงกันไม่เหมาะสมในความหมายของ Rubin 16 และด้วยเหตุนี้จึงไม่แนะนำในสถานการณ์ส่วนใหญ่เทคนิคง่ายๆในการจัดการกับข้อมูลที่หายไปเช่น วิธีการวิเคราะห์กรณีสมบูรณ์ LD และ PD โดยรวม MI และวิธีการบ่งชี้ที่หายไปให้ผลลัพธ์ลำเอียงตามเอกสารใน 5 12 16 18 และ 21 เทคนิคที่ซับซ้อนมากขึ้น MI ให้ผลดียิ่งขึ้น 5 12 16 18 และ 21.MI 16 เป็นสถิติ เทคนิคที่แต่ละค่าที่ขาดหายไปจะถูกแทนที่ด้วยค่า kk หลายอันทำให้ kk เสร็จสมบูรณ์ชุดข้อมูลสำหรับการวิเคราะห์ความแตกต่างระหว่างชุดข้อมูลเหล่านี้สะท้อนถึงความไม่แน่นอนของค่าที่หายไปแต่ละชุดข้อมูลที่อ้างถึงจะได้รับการวิเคราะห์โดยใช้ขั้นตอนมาตรฐานที่สมบูรณ์แบบ ละเว้นความแตกต่างระหว่างค่าจริงและ imputed ผลลัพธ์ kk จะรวมกันแล้วในลักษณะที่ความแปรปรวนเนื่องจากการปันส่วนอาจรวมอยู่เมื่อทำอย่างถูกต้อง ผลของการวิเคราะห์รวมกันเหล่านี้ไม่เพียง แต่นำเสนอค่าประมาณที่เป็นกลางสำหรับพารามิเตอร์เท่านั้น แต่ยังรวมถึงความไม่แน่นอนที่เกี่ยวข้องเนื่องจากข้อมูลที่หายไป ได้แก่ การประมาณค่าความแปรปรวนที่ถูกต้องของค่าพารามิเตอร์เหล่านี้ Rubin 16 ให้การรักษา MI อย่างครอบคลุมและระบุถึงการใช้ประโยชน์ technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.

No comments:

Post a Comment