Задача 2: РекодиранеЗадача 2: Рекодиране ... Missing System 178 17,8...
Transcript of Задача 2: РекодиранеЗадача 2: Рекодиране ... Missing System 178 17,8...
| 1
Задача 2: Рекодиране
Работен файл: Изследване на корупцията.
Дадена е променливата: D15a: Общ месечен доход на домакинството.
Задача: Условие 1: Като се използва процедурата RECODE INTO DIFFERENT VARIABLES да се
рекодира променливата D15a, така че да се образуват 10 групи. Във всяка група да попаднат около 10% от респондентите.
Условие 2: Като се използва процедурата RECODE INTO DIFFERENT VARIABLES да се рекодира променливата D15a, така че да се образуват 4 групи. Първите две групи да разделят интервалът под средните доходи на две равни части (от най ниския до средата на интервала под средния доход и от средата на интервала до средния доход). Вторите две групи да разделят на половина интервалът над средния доход (от средния до средата на интервала и от средата на интервала до най-високия доход.
Условие 3: Като се използва процедурата RECODE INTO DIFFERENT VARIABLES да се рекодира променливата D15a като се образуват 4 групи така, че интервалът от най-ниския до най-високия доход да бъде разделен на 4 равни части.
Решението на задачата преминава през следните стъпки:
1. Първичен оглед на едномерното разпределение (frequencies) на променливата.
Резултатите от едномерното разпределение са представени в Таблица 1. Целта на огледа е да се открият „нетипични” стойности, които могат да бъдат резултат от грешки, или представляват кодове на незначещи стойности на променливата (кодове, показващи един или друг вид липсваща информация). Най-често подобни стойности се намират в началото и края на разпределението.
Таблица 1 d15a Приблизителен месечен брутен доход на домакинство.
Frequency Percent Valid Percent Cumulative
Percent 36 1 ,1 ,1 ,1 55 1 ,1 ,1 ,2 60 3 ,3 ,4 ,6 62 1 ,1 ,1 ,7 63 1 ,1 ,1 ,9 65 1 ,1 ,1 1,0 70 1 ,1 ,1 1,1 80 4 ,4 ,5 1,6 85 6 ,6 ,7 2,3 86 1 ,1 ,1 2,4
Valid
88 1 ,1 ,1 2,6
| 2
90 6 ,6 ,7 3,3 91 1 ,1 ,1 3,4 95 3 ,3 ,4 3,8 96 1 ,1 ,1 3,9 97 1 ,1 ,1 4,0 98 2 ,2 ,2 4,3 99 1 ,1 ,1 4,4 100 25 2,5 3,0 7,4 102 2 ,2 ,2 7,7 104 1 ,1 ,1 7,8 106 2 ,2 ,2 8,0 107 1 ,1 ,1 8,2 108 3 ,3 ,4 8,5 109 1 ,1 ,1 8,6 110 5 ,5 ,6 9,2 112 2 ,2 ,2 9,5 116 1 ,1 ,1 9,6 120 11 1,1 1,3 10,9 123 1 ,1 ,1 11,1 125 3 ,3 ,4 11,4 128 1 ,1 ,1 11,6 129 1 ,1 ,1 11,7 130 9 ,9 1,1 12,8 136 1 ,1 ,1 12,9 140 2 ,2 ,2 13,1 150 15 1,5 1,8 15,0 160 10 1,0 1,2 16,2 165 1 ,1 ,1 16,3 169 1 ,1 ,1 16,4 170 5 ,5 ,6 17,0 172 1 ,1 ,1 17,2 174 1 ,1 ,1 17,3 175 1 ,1 ,1 17,4 180 11 1,1 1,3 18,7 183 1 ,1 ,1 18,9 185 2 ,2 ,2 19,1 190 6 ,6 ,7 19,8 195 1 ,1 ,1 20,0 196 1 ,1 ,1 20,1 199 3 ,3 ,4 20,4 200 39 3,9 4,7 25,2 206 1 ,1 ,1 25,3 208 1 ,1 ,1 25,4 210 3 ,3 ,4 25,8 214 1 ,1 ,1 25,9 218 1 ,1 ,1 26,0 220 10 1,0 1,2 27,3 230 11 1,1 1,3 28,6 231 1 ,1 ,1 28,7 235 1 ,1 ,1 28,8 236 1 ,1 ,1 29,0
| 3
237 1 ,1 ,1 29,1 238 1 ,1 ,1 29,2 240 6 ,6 ,7 29,9 245 1 ,1 ,1 30,0 250 27 2,7 3,3 33,3 255 1 ,1 ,1 33,5 260 9 ,9 1,1 34,5 270 5 ,5 ,6 35,2 280 21 2,1 2,6 37,7 282 1 ,1 ,1 37,8 285 2 ,2 ,2 38,1 290 6 ,6 ,7 38,8 295 1 ,1 ,1 38,9 300 57 5,7 6,9 45,9 310 2 ,2 ,2 46,1 320 4 ,4 ,5 46,6 330 4 ,4 ,5 47,1 340 3 ,3 ,4 47,4 350 24 2,4 2,9 50,4 360 15 1,5 1,8 52,2 365 1 ,1 ,1 52,3 370 1 ,1 ,1 52,4 380 9 ,9 1,1 53,5 390 5 ,5 ,6 54,1 399 1 ,1 ,1 54,3 400 44 4,4 5,4 59,6 410 4 ,4 ,5 60,1 420 6 ,6 ,7 60,8 430 2 ,2 ,2 61,1 440 2 ,2 ,2 61,3 448 1 ,1 ,1 61,4 450 26 2,6 3,2 64,6 460 1 ,1 ,1 64,7 470 1 ,1 ,1 64,8 480 5 ,5 ,6 65,5 485 1 ,1 ,1 65,6 490 1 ,1 ,1 65,7 499 1 ,1 ,1 65,8 500 44 4,4 5,4 71,2 510 1 ,1 ,1 71,3 520 10 1,0 1,2 72,5 530 2 ,2 ,2 72,7 540 1 ,1 ,1 72,9 550 22 2,2 2,7 75,5 560 3 ,3 ,4 75,9 565 1 ,1 ,1 76,0 570 1 ,1 ,1 76,2 580 7 ,7 ,9 77,0 590 1 ,1 ,1 77,1 599 1 ,1 ,1 77,3 600 35 3,5 4,3 81,5
| 4
620 4 ,4 ,5 82,0 630 1 ,1 ,1 82,1 650 17 1,7 2,1 84,2 670 1 ,1 ,1 84,3 680 4 ,4 ,5 84,8 690 6 ,6 ,7 85,5 700 11 1,1 1,3 86,9 705 1 ,1 ,1 87,0 706 1 ,1 ,1 87,1 720 1 ,1 ,1 87,2 728 1 ,1 ,1 87,3 730 1 ,1 ,1 87,5 740 1 ,1 ,1 87,6 750 7 ,7 ,9 88,4 760 2 ,2 ,2 88,7 778 1 ,1 ,1 88,8 780 1 ,1 ,1 88,9 790 3 ,3 ,4 89,3 800 11 1,1 1,3 90,6 840 1 ,1 ,1 90,8 850 6 ,6 ,7 91,5 860 1 ,1 ,1 91,6 880 2 ,2 ,2 91,8 900 14 1,4 1,7 93,6 950 3 ,3 ,4 93,9 960 1 ,1 ,1 94,0 970 1 ,1 ,1 94,2 980 1 ,1 ,1 94,3 1000 11 1,1 1,3 95,6 1100 1 ,1 ,1 95,7 1200 3 ,3 ,4 96,1 1400 4 ,4 ,5 96,6 1500 5 ,5 ,6 97,2 1700 2 ,2 ,2 97,4 2000 1 ,1 ,1 97,6 99998 Няма доход 20 2,0 2,4 100,0 Total 822 82,2 100,0
Missing System 178 17,8 Total 1000 100,0
В конкретното разпределение подобна е стойността 99998=няма доход. Тази стойност може да се изключи от по-нататъшния анализ на данните, тъй като не носи конкретна информация за доходите на домакинството. За целта стойност 99998 може да бъде дефинирана като USER MISSING или рекодирана като SYSTEM MISSING.
| 5
Дефиниране на стойност 99998 като USER MISSING:
В прозорец SPSS Data Editor > Variable View намираме променливата D15a. В колона Missing кликваме [..] В отворилия се диалогов прозорец (Фигура 1), в полето Discrete missing values въвеждаме 99998 и потвърждаваме с ОК.
Фигура 1
Рекодиране на стойност 99998 като SYSTEM MISSING:
Това рекодиране може да се извърши чрез процедурата:
Transform>Recode>Into same variables
След избора на променливата D15a от списъка на променливи, в диалоговия прозорец “Old and New Values” като Old Value се въвежда 99998, а като New Value – System missing. Потвърждава се с Add и Continue (Фигура 2).
| 6
Фигура 2
Новото разпределение на променливата е показано в Таблица 2. В сравнение с разпределението от Таблица 1 броят на SYSTEM MISSING стойностите е нараснал от 178 на 198: респондентите със стойности 99998 на променливата D15a са преминали в категорията SYSTEM MISSING, т.е. превърнали са се в случаи, за които нямаме конкретна информация.
Таблица 2 d15a Приблизителен месечен брутен доход на домакинство.
Frequency Percent Valid Percent Cumulative
Percent 36 1 ,1 ,1 ,1 55 1 ,1 ,1 ,2 60 3 ,3 ,4 ,6 62 1 ,1 ,1 ,7 63 1 ,1 ,1 ,9 65 1 ,1 ,1 1,0 70 1 ,1 ,1 1,1 80 4 ,4 ,5 1,6 85 6 ,6 ,7 2,4 86 1 ,1 ,1 2,5 88 1 ,1 ,1 2,6
Valid
90 6 ,6 ,7 3,4
| 7
91 1 ,1 ,1 3,5 95 3 ,3 ,4 3,9 96 1 ,1 ,1 4,0 97 1 ,1 ,1 4,1 98 2 ,2 ,2 4,4 99 1 ,1 ,1 4,5 100 25 2,5 3,1 7,6 102 2 ,2 ,2 7,9 104 1 ,1 ,1 8,0 106 2 ,2 ,2 8,2 107 1 ,1 ,1 8,4 108 3 ,3 ,4 8,7 109 1 ,1 ,1 8,9 110 5 ,5 ,6 9,5 112 2 ,2 ,2 9,7 116 1 ,1 ,1 9,9 120 11 1,1 1,4 11,2 123 1 ,1 ,1 11,3 125 3 ,3 ,4 11,7 128 1 ,1 ,1 11,8 129 1 ,1 ,1 12,0 130 9 ,9 1,1 13,1 136 1 ,1 ,1 13,2 140 2 ,2 ,2 13,5 150 15 1,5 1,9 15,3 160 10 1,0 1,2 16,6 165 1 ,1 ,1 16,7 169 1 ,1 ,1 16,8 170 5 ,5 ,6 17,5 172 1 ,1 ,1 17,6 174 1 ,1 ,1 17,7 175 1 ,1 ,1 17,8 180 11 1,1 1,4 19,2 183 1 ,1 ,1 19,3 185 2 ,2 ,2 19,6 190 6 ,6 ,7 20,3 195 1 ,1 ,1 20,4 196 1 ,1 ,1 20,6 199 3 ,3 ,4 20,9 200 39 3,9 4,9 25,8 206 1 ,1 ,1 25,9 208 1 ,1 ,1 26,1 210 3 ,3 ,4 26,4 214 1 ,1 ,1 26,6 218 1 ,1 ,1 26,7 220 10 1,0 1,2 27,9 230 11 1,1 1,4 29,3 231 1 ,1 ,1 29,4 235 1 ,1 ,1 29,6 236 1 ,1 ,1 29,7 237 1 ,1 ,1 29,8
| 8
238 1 ,1 ,1 29,9 240 6 ,6 ,7 30,7 245 1 ,1 ,1 30,8 250 27 2,7 3,4 34,2 255 1 ,1 ,1 34,3 260 9 ,9 1,1 35,4 270 5 ,5 ,6 36,0 280 21 2,1 2,6 38,7 282 1 ,1 ,1 38,8 285 2 ,2 ,2 39,0 290 6 ,6 ,7 39,8 295 1 ,1 ,1 39,9 300 57 5,7 7,1 47,0 310 2 ,2 ,2 47,3 320 4 ,4 ,5 47,8 330 4 ,4 ,5 48,3 340 3 ,3 ,4 48,6 350 24 2,4 3,0 51,6 360 15 1,5 1,9 53,5 365 1 ,1 ,1 53,6 370 1 ,1 ,1 53,7 380 9 ,9 1,1 54,9 390 5 ,5 ,6 55,5 399 1 ,1 ,1 55,6 400 44 4,4 5,5 61,1 410 4 ,4 ,5 61,6 420 6 ,6 ,7 62,3 430 2 ,2 ,2 62,6 440 2 ,2 ,2 62,8 448 1 ,1 ,1 63,0 450 26 2,6 3,2 66,2 460 1 ,1 ,1 66,3 470 1 ,1 ,1 66,5 480 5 ,5 ,6 67,1 485 1 ,1 ,1 67,2 490 1 ,1 ,1 67,3 499 1 ,1 ,1 67,5 500 44 4,4 5,5 72,9 510 1 ,1 ,1 73,1 520 10 1,0 1,2 74,3 530 2 ,2 ,2 74,6 540 1 ,1 ,1 74,7 550 22 2,2 2,7 77,4 560 3 ,3 ,4 77,8 565 1 ,1 ,1 77,9 570 1 ,1 ,1 78,1 580 7 ,7 ,9 78,9 590 1 ,1 ,1 79,1 599 1 ,1 ,1 79,2 600 35 3,5 4,4 83,5 620 4 ,4 ,5 84,0
| 9
630 1 ,1 ,1 84,2 650 17 1,7 2,1 86,3 670 1 ,1 ,1 86,4 680 4 ,4 ,5 86,9 690 6 ,6 ,7 87,7 700 11 1,1 1,4 89,0 705 1 ,1 ,1 89,2 706 1 ,1 ,1 89,3 720 1 ,1 ,1 89,4 728 1 ,1 ,1 89,5 730 1 ,1 ,1 89,7 740 1 ,1 ,1 89,8 750 7 ,7 ,9 90,6 760 2 ,2 ,2 90,9 778 1 ,1 ,1 91,0 780 1 ,1 ,1 91,1 790 3 ,3 ,4 91,5 800 11 1,1 1,4 92,9 840 1 ,1 ,1 93,0 850 6 ,6 ,7 93,8 860 1 ,1 ,1 93,9 880 2 ,2 ,2 94,1 900 14 1,4 1,7 95,9 950 3 ,3 ,4 96,3 960 1 ,1 ,1 96,4 970 1 ,1 ,1 96,5 980 1 ,1 ,1 96,6 1000 11 1,1 1,4 98,0 1100 1 ,1 ,1 98,1 1200 3 ,3 ,4 98,5 1400 4 ,4 ,5 99,0 1500 5 ,5 ,6 99,6 1700 2 ,2 ,2 99,9 2000 1 ,1 ,1 100,0 Total 802 80,2 100,0
Missing System 198 19,8 Total 1000 100,0
| 10
Условие 1: Рекодиране на дохода на домакинството в 10 групи, във всяка от които попадат приблизително по 10% от респондентите
Изпълнението на тази процедура изисква да се определят стойностите на дохода на домакинството (D15a), които ще разделят респондентите на децилни групи. За целта се използва колона Cumulative Percent в Таблица 2. Търсим стойността на дохода, до която се „събират” съответно 10% от респондентите, вторите 10% и т.н. Съответните редове в таблицата са оцветени и показват че схемата на рекодиране ще се базира на следните стойности: 116, 190, 238, 295, 350, 400, 499, 599, 740. Схемата за рекодиране ще бъде следната:
Таблица 3
Old Value New Value
До 116 1
117 – 190 2
191 – 238 3
239 – 295 4
296 - 350 5
351 - 400 6
401 - 499 7
500 - 599 8
600 - 740 9
Над 741 10
Като се използва процедурата Transform > Recode > Recode into Different Variables в диалоговия прозорец Recode into Different Variables се въвежда името и етикета на новата променлива, която ще бъде създадена (d15aa). След въвеждането им следва да се натисне и бутон Change.
В диалогов прозорец Recode into Different Variables: Old and New Values се въвеждат началните и крайните точки на интервалите 1, 2, 3 ...., 10 (Фигура 3). За първия и последния интервал може да се използват и опциите “Lowest through” и “Highest through”.
| 11
Фигура 3
След преобразуването за новата променлива е необходимо да бъдат въведени етикети за стойностите на новата променлива. В прозорец Data Editor > Variable View в реда на променлива d15aa се натиска бутон [..] в колона Values и в прозорец Value Labels се въвеждат новите етикети (Фигура 4).
Резултатите от преобразуването са показани в Таблица 4. Тъй като рекодирането се основава на валидните стойности (само те се извеждат в колона Cumulative Percent на едномерните разпределения), то в колона Valid Percent може са се види, че във всяка подоходна група попадат приблизително около 10% от респондентите. Отклоненията се дължат на изходното разпределение.
Фигура 4
| 12
Таблица 4 d15aa Рекодиран доход на домакинство (децили)
Frequency Percent Valid Percent Cumulative
Percent 1,00 до 116 79 7,9 9,9 9,9 2,00 117-190 84 8,4 10,5 20,3 3,00 191-238 77 7,7 9,6 29,9 4,00 239-295 80 8,0 10,0 39,9 5,00 296-350 94 9,4 11,7 51,6 6,00 351-400 76 7,6 9,5 61,1 7,00 401-499 51 5,1 6,4 67,5 8,00 500-599 94 9,4 11,7 79,2 9,00 600-740 85 8,5 10,6 89,8 10,00 над 741 82 8,2 10,2 100,0
Valid
Total 802 80,2 100,0 Missing System 198 19,8 Total 1000 100,0
| 13
Условие 2: Рекодиране на дохода на домакинството в 4 групи. Първите две разделят доходите под средните на два интервала, а вторите две групи – доходите над средните на два интервала
За изпълняване на това условие на рекодиране е необходимо първо да се изчисли средния доход на домакинството. За целта може да се използва процедурата Frequencies, като се изведе само средна стойност без да се извежда списък на всички наблюдавани честоти (Фигура 5). Необходимо е опцията Display frequency tables да не бъде маркирана.
В диалогов прозорец Frequencies: Statistics да се маркира Means в групата Central Tendency. С оглед пресмятането на интервалите за формиране на изискваните 4 групи освен това са необходими минималната и максималната стойност на разпределението. За целта се маркират и опциите Minimum и Maximum в група Dispersion.
Резултатите от изпълнението на тази процедура са изведени в Таблица 5.
Таблица 5 Statistics d15a Приблизителен месечен брутен доход на домакинство.
Valid 802N Missing 198
Mean 404,62Minimum 36Maximum 2000
| 14
Фигура 5
Средата на подоходното разпределение под средния доход на домакинство (404 лв.) е:
184 = (404-36) /2, а средата на разпределението над средния доход е:
798 = (2000-404) /2.
На тази основа стойностите, които маркират необходимите 4 групи са следните:
1-ви интервал: от 36 до 184 лв.
2-ри интервал: от 184,01 до 404 лв.
3-ти интервал: от 404,01 до 798 лв.
4-ти интервал: от 798,01 до 2000 лв.
Рекодирането, необходимо за получаване на това разпределение технически се извършва по същия начин както при Условие 1, но се използват различни стойности за дефиниране на интервалите: виж Таблица 6 и Фигура 6. Бележка: за стойностите на новосъздадената променлива (d15bb) е необходимо също така да се въведат етикети (виж пример на Фигура 4).
| 15
Таблица 6 d15bb Рекодиран доход на домакинство (4 групи)
Frequency Percent Valid Percent Cumulative
Percent 1,00 36-184 155 15,5 19,3 19,3 2,00 184,01-404 335 33,5 41,8 61,1 3,00 404,01-798 244 24,4 30,4 91,5 4,00 798,01-2000 68 6,8 8,5 100,0
Valid
Total 802 80,2 100,0 Missing System 198 19,8 Total 1000 100,0
Фигура 6
| 16
Условие 3: Рекодиране на дохода на домакинството в 4 групи така, че интервалът от най-ниския до най-високия доход да бъде разделен на 4 равни части
Интервалите, който дефинират необходимите 4 групи се изчисляват като размахът (max – min) се раздели на необходимия брой интервали: (2000 – 36) / 4 = 491. Стойностите за интервалите са съответно:
Интервал 1: от 36 до 491
Интервал 1: от 491,01 до 982
Интервал 1: от 982,01 до 1473
Интервал 1: от 1473 до 2000
Процедурата за рекодиране и полученият резултат са показани във Фигура 7 и Таблица 7.
Фигура 7
| 17
Таблица 7 d15cc Рекодиран доход на домакинство (4 групи)
Frequency Percent Valid Percent Cumulative
Percent 1,00 36-491 540 54,0 67,3 67,3 2,00 491,01-982 235 23,5 29,3 96,6 3,00 982,01-1473 19 1,9 2,4 99,0 4,00 1473,01-2000 8 ,8 1,0 100,0
Valid
Total 802 80,2 100,0 Missing System 198 19,8 Total 1000 100,0