VI. APLICACIONES DEL MUESTREO EN EL CENSO DE POBLACIÓN Y VIVIENDAS

 

VI.1. Encuesta de evaluación de la calidad de la distritación, segmentación y Registro previo

VI.2. Encuesta de evaluación de la cobertura censal

VI.3. Aspectos generales y algunos resultados de la encuesta de evaluación de la calidad del contenido censal

VI.4. Evaluación de la calidad de las carpetas censales a través de las técnicas de muestreo

VI.5. La atracción o rechazo de dígitos en la declaración de edades

 

Por las características del trabajo censal y fundamentalmente debido al hecho de que cada etapa del censo tiene sus tareas específicas, en cada una de ellas pueden aparecer errores de carácter muy particular. Por ejemplo, en la etapa precensal, se pueden cometer errores en la confección del registro previo, desarrollo de la distritación y segmentación, elaboración de la metodología, cuestionarios, seminarios, etc. Durante el levantamiento censal y en la etapa posterior, pueden surgir errores fundamentalmente en la captación de la información, en los procesos de revisión, codificación, digitación, verificación y validación y en el procesamiento automatizado de los datos obtenidos.

La utilidad de los resultados finales del censo, está estrechamente vinculada con la exactitud y veracidad de las cifras que se emitan, por lo que resulta necesario medir y evaluar los errores que se cometen, de manera que se les pueda brindar a los usuarios elementos sobre la calidad de la información, para un mejor uso de ella. Para realizar esta evaluación de una manera económica y rápida, se aplican las técnicas de muestreo.

 

Las evaluaciones más frecuentes que se realizan en los censos están dirigidas a evaluar los errores de cobertura y los errores de contenido. La evaluación de cobertura va encaminada a determinar el grado en que se ha cubierto la población investigada, y comprende las omisiones, duplicaciones e inclusiones erróneas de personas o viviendas. Los errores de contenido o de calidad son los provocados por deficiencias en la comunicación entre los entrevistados y los entrevistadores, ya sea por equivocaciones de los enumeradores al formular las preguntas del Censo o por imperfecciones en las instrucciones o capacitación del personal de campo, o equivocaciones de la población al responder y otras causas. Existen otros tipos de errores de contenido que surgen en el trabajo de oficina y de procesamiento, y que llevan sus propios mecanismos de control y evaluación de la calidad.

 

La aplicación del muestreo en el Censo de Población y Viviendas de Cuba del 2002 se concibió como parte inseparable de la organización censal en todas sus etapas. Para ello se creó el Grupo Nacional de Evaluación de la Calidad del Censo que formó parte integrante del Grupo Técnico Nacional, en este último se aprobó la realización de las investigaciones para evaluar y controlar la calidad censal.

 

A continuación se relacionan las investigaciones realizadas en cada etapa censal.

 

Etapa pre-censal:  

 

Ø      Encuesta de evaluación de la calidad de la distritación, segmentación y registro previo.

 

Etapa post-censal:

 

Ø      Encuesta de evaluación de la cobertura censal.

Ø      Encuesta de evaluación de la calidad del contenido censal.

Ø      Evaluación de la calidad de las carpetas censales en la fase de revisión y codificación del Censo.

 

Estas investigaciones tuvieron como antecedentes las realizadas en Cuba en los anteriores censos de Población y Viviendas en 1970 y 1981. Los proyectos de las encuestas de evaluación de la cobertura y de la calidad del contenido censal se sometieron a prueba en el Ensayo Nacional del Censo en el municipio Candelaria en el año 2001, donde se visitaron en la encuesta de evaluación de la cobertura

 

1 039 viviendas ubicadas en cinco segmentos urbanos y tres distritos rurales, y en la encuesta de evaluación de la calidad del contenido censal, 160 viviendas ubicadas en cinco distritos urbanos y tres rurales.

 

Los resultados del ensayo permitieron identificar los aspectos organizativos que podían perfeccionarse en las encuestas para el levantamiento definitivo.

 

Organización del trabajo de campo

 

En las encuestas post-censales se seleccionaron por métodos probabilísticos 2 381 distritos censales, que representaron el 2,5 % de la población, y alrededor de 88 000 viviendas, las que fueron visitadas por un personal de campo especialmente contratado para ello, de aproximadamente 2 830 personas entre enumeradores, supervisores y oficinistas, sin contar el personal de dirección en cada territorio.

 

La organización del trabajo de campo de estas encuestas quedó integrada dentro de la organización censal, aunque con sus propias características para garantizar el trabajo en las fases donde las mismas debían intervenir.

 

Se garantizó que todo el personal que participaría en las encuestas y su reserva fuera seleccionado en la etapa previa al Censo, que recibiera la capacitación censal y trabajara en alguna de las tareas del levantamiento censal antes de ser capacitados para trabajar en las encuestas; muchos de ellos fungieron como supervisores u oficinistas durante el levantamiento censal.

 

Correspondió al Grupo Nacional de Evaluación de la Calidad el envío de la muestra seleccionada para las encuestas de cobertura y calidad a los Departamentos Provinciales del Censo al día siguiente de finalizado el levantamiento censal (17 de septiembre); se evitaba así el conocimiento previo de los distritos y segmentos que se evaluarían, lo que podría llevar a un trabajo más cuidadoso en estos y, por consiguiente, a un sesgo en las estimaciones de las encuestas.

 

Conforme a lo previsto en el cronograma inicial del Censo de Población y Viviendas correspondiente al año 2002, las encuestas de evaluación de la cobertura censal y de la calidad del contenido censal se efectuaron seis días después de concluido el levantamiento del Censo de Población y Viviendas. El período de levantamiento de las encuestas se inició el 22 de septiembre y concluyó el 5 de octubre.

 

Los seminarios de capacitación sobre las actividades relacionadas con la aplicación del muestreo al personal de dirección siguió una ruta combinada con los seminarios generales al personal de dirección, técnico, de campo y de oficina, en específico en la fase de adiestramiento directo. Para estas encuestas se celebraron estos seminarios los días 18 y 19 de septiembre en cada territorio, supervisados por el Grupo Nacional.

  

Procesamiento de las encuestas

 

El procesamiento de la información se concibió en tres fases:

 

Ø     Entrada, verificación y validación de la información

El Grupo de Procesamiento de la Dirección Nacional del Censo diseñó, dentro del propio sistema de procesamiento censal, un módulo para procesar la encuesta de evaluación de la calidad del contenido censal y otro módulo para la encuesta de cobertura, los cuales contenían la entrada, verificación y validación de la información. La digitación se realizó a nivel de provincia, donde una vez digitada la información de los cuestionarios, esta se verificó al 100 %.

 

Ø     Asignación del factor de expansión

Conformadas en la Nación las bases de datos de personas y viviendas, se les volvió a realizar un chequeo para descartar cualquier error que pudiera quedar y posteriormente a ello se procedió a asignarle a la encuesta de la calidad del contenido censal los factores de expansión mediante el sistema FACTORY utilizado regularmente con este propósito. A la encuesta de evaluación de la cobertura censal se le asignaron dichos factores mediante un programa desarrollado especialmente para esta encuesta por especialistas de la Dirección de Informática de la Oficina Nacional de Estadísticas, debido a la imposibilidad de usar el sistema FACTORY, que se emplea para muestras autoponderadas.

 

Ø     Edición de las tablas

 

Una vez listas y validadas las bases de datos de personas y viviendas que a nivel nacional recopilaban la información de las encuestas, se procedió a editar los tabulados.

 

VI.1. Encuesta de evaluación de la calidad de la distritación, segmentación y Registro previo

 

La encuesta de evaluación de la calidad de la distritación, segmentación y registro previo se aplicó con el objetivo de evaluar por muestreo el registro previo y poder contar con criterios nacionales sobre la precisión de las cifras de este en cuanto a viviendas particulares, locales de trabajo y colectividades; también para evaluar la documentación existente en la carpeta de cada segmento seleccionado: guía de visita, derrotero y plano o mapa del distrito, así como la partición de todo el territorio municipal en distritos sin que quedaran lugares omitidos en alguna unidad censal.

 

El método de muestreo empleado fue por conglomerados monoetápico estratificado sobre una muestra de 507 distritos que contenían aproximadamente 90 000 viviendas, los que representaron el 3 % de la población del país. Las visitas fueron realizadas por el personal contratado para trabajar en las oficinas del Censo en los diferentes niveles en cada territorio.

Esta evaluación permitió corroborar las diferencias esperadas respecto a la población y viviendas, a nivel nacional y territorial, y tomar medidas en los municipios donde se detectaron problemas –en la confección de las guías o en los planos o mapas, derroteros o en la identificación de los distritos– para que quedaran subsanados antes del levantamiento censal.

VI.2. Encuesta de evaluación de la cobertura censal

VI.2.1. Aspectos generales de la encuesta de evaluación de la cobertura censal

Para el desarrollo de la encuesta, se seleccionó una muestra de segmentos en la parte urbana y de distritos en la parte rural, los que se recorrieron de manera exhaustiva una vez finalizado el Censo, a fin de detectar errores u omisiones ocurridas en el transcurso de este. Durante el recorrido se enumeraron de nuevo todas las viviendas particulares y además se tomaron algunos datos de sus residentes, todos referidos al momento censal. Posteriormente esta información fue sometida a un cotejo minucioso a nivel de oficina con el propósito de precisar las posibles diferencias entre el cuestionario censal y los modelos de evaluación de la cobertura del censo. En ocasiones fue necesario realizar nuevas visitas a fin de verificar in situ las incongruencias encontradas.

 

VI.2.2. Estrategia muestral

La estrategia muestral estuvo estructurada en dos partes: la primera dedicada al diseño muestral de la encuesta y la segunda a los estimadores empleados.

 

Ø      Diseño muestral

 

·        Alcance y población objeto de estudio

El diseño muestral comprendió todo el territorio nacional. Como objeto de estudio se consideraron las provincias, zonas de residencia urbana y rural, y en ellas se investigaron todas las viviendas particulares independientemente de la situación de ocupación. La población analizada fue la residente permanentemente en viviendas particulares.

·        Marco muestral

Se seleccionó la muestra del registro previo elaborado para el levantamiento del Censo de Población y Viviendas del 2002. Este marco muestral estaba constituido por los distritos censales, clasificados en las siguientes categorías: urbano llano, urbano montañoso, rural llano (clasificado en concentrado, mixto o disperso), y rural montañoso (también clasificado en concentrado, mixto o disperso). Estas unidades están organizadas según la división político-administrativa vigente en el país.

·        Estratificación

Se consideraron como estratos las zonas de residencia urbana y rural de los municipios. En resumen, la muestra quedó distribuida en 294 estratos, 164 en la zona urbana y 130 en la zona rural, dado que no todas las zonas de residencia de los municipios participaron en la muestra.

·        Diseño de la encuesta y probabilidades de selección

Por las dificultades en reconocer los límites físicos de los segmentos en la zona rural, se hizo necesario definir diseños muestrales distintos en las zonas urbana y rural.

Para la zona urbana se empleó un muestreo por conglomerados bietápico con las siguientes unidades de muestreo:

Unidades de primera etapa: Distritos censales, seleccionados con Probabilidad Proporcional al Tamaño.

Unidades de segunda etapa: Segmentos censales (uno por distrito), seleccionados con Probabilidad Proporcional al Tamaño.

Para la zona rural se empleó un muestreo por conglomerados monoetápico, donde las unidades de muestreo las constituyeron los distritos censales completos, seleccionados con Probabilidad Proporcional al Tamaño.

Para ambas zonas la medida de tamaño considerada fue el total de viviendas particulares de cada unidad de muestreo.

·        Período de enumeración y momento de referencia

La enumeración de la encuesta de evaluación de la cobertura censal se comenzó seis días después de concluido el levantamiento censal, y tuvo como duración diez días.

El momento de referencia fue el «momento censal», que estaba definido como el 6 de septiembre a las 12:00 a.m.

·        Afijación de la muestra

La distribución de la muestra por estratos (provincias, municipios y zonas de residencia urbana y rural) se realizó con una Afijación de Compromiso entre la Afijación Uniforme y la Proporcional.

·        Tamaño de la muestra

El tamaño de la muestra se determinó teniendo en cuenta el nivel de precisión y los recursos disponibles, entre otros aspectos. El tamaño teórico para Cuba fue de aproximadamente el 2% de las viviendas particulares, y fueron seleccionados 372 segmentos urbanos y 170 distritos rurales.

 

Finalmente participaron en la encuesta 365 segmentos urbanos y 150 distritos rurales, dadas las caídas de muestra por el paso de los huracanes Lily e Isidore por la provincia de Pinar del Río y la Isla de la Juventud. Esto provocó en Pinar del Río que no fueran levantados los segmentos de la zona urbana de los municipios Sandino, Mantua, San Luis, San Juan y Martínez y Guane; tampoco fueron levantados los distritos de la zona rural de los municipios (también pinareños) Sandino, Mantua, Minas de Matahambre, Viñales, Bahía Honda, Candelaria, Los Palacios, Consolación del Sur, Pinar del Río, San Luis, San Juan y Martínez y Guane. Se produjo también una caída de un segmento urbano en la provincia de Sancti Spíritus por haberse levantado en su lugar otro que no se encontraba en la muestra y otras en la Isla de la Juventud.

En cuanto a las viviendas se lograron visitar en total 61 848, de las cuales 28 979 se encontraban en la zona urbana y 32 869, en la rural. Esto representó el 1,80% del total de las viviendas particulares censadas en Cuba, el 1,11% de las censadas en la zona urbana y el 3,93% de las censadas en la zona rural.

 

Ø      Estimadores

Dada la utilización de distintos diseños muestrales para las zonas urbana y rural, se hizo necesario distinguirlos en el proceso de estimación.

·        Estimadores para la zona urbana

-   Estimador del total

El estimador utilizado para el total de una característica X en la zona urbana de la provincia-municipio fue del tipo Horvitz – Thompson y su expresión es:

 

 

 

 

 

y el estimador utilizado para el total urbano provincial fue:

 

 

 

 

 donde:

i=1,2, ..., Vs denota la identificación de la vivienda i-ésima del segmento s-ésimo de la zona urbana de la provincia- municipio,

s=1,2, ..., nu denota la identificación del segmento s-ésimo de la zona urbana de la provincia-municipio,

u denota la identificación del municipio u-ésimo con muestra en la zona urbana de la provincia,

xsi es el valor de la característica X en la vivienda i del segmento s-ésimo de la zona urbana de la provincia-municipio,

 

 

 

denota la probabilidad de selección de la vivienda i- ésima del segmento s-ésimo de la zona urbana de la provincia- municipio,

Vs denota el total de viviendas en la muestra del segmento s-ésimo de la zona urbana de la provincia- municipio,

Vd denota el total de viviendas en la muestra del distrito d al cual pertenece el segmento s-ésimo de la zona urbana de la provincia-municipio,

Vu denota el total de viviendas en la muestra de la zona urbana de la provincia-municipio, y

nu denota el total de segmentos en la muestra de la zona urbana de la provincia-municipio.

 

-   Estimador de la varianza

El Estimador utilizado para la varianza del total de una característica X en la zona urbana de la provincia-municipio fue:

 

 

 

 

 

  

 donde:

 

 

 

 

y el estimador utilizado de la varianza del total urbano provincial fue:

 

 

 

·        Estimadores utilizados para la zona rural

-         Estimador del total

El estimador utilizado para el total de una característica X en la zona rural de la provincia, municipio fue del tipo Horvitz – Thompson y su expresión es:

 

 

 

 


 

  y el estimador utilizado para el total rural provincial fue:

 

 

 


 

  donde:

i=1,2, ..., Vd denota la identificación de la vivienda i-ésima del distrito d-ésimo de la zona rural de la provincia-municipio,

d=1,2, ..., nr denota la identificación del distrito d-ésimo de la zona rural de la provincia- municipio,

r denota la identificación del municipio r-ésimo con muestra en la zona rural de la provincia,

xdi es el valor de la característica X en la vivienda i del distrito d-ésimo de la zona rural de la provincia- municipio,

 

 

 

 


 

denota la probabilidad de selección de la vivienda i- ésima del distrito d-ésimo de la zona rural de la provincia-municipio,

Vd denota el total de viviendas en la muestra del distrito d-ésimo de la zona rural de la provincia-municipio,

Vr denota el total de viviendas en la muestra de la zona rural de la provincia-municipio, y

nr denota el total de distritos en la muestra de la zona rural de la provincia-municipio.

-        Estimador de la varianza

El estimador utilizado para la varianza del total de una característica X en la zona rural de la provincia, municipio fue:

 

 

 

 

 


 

donde:

 

 

 


 

y el estimador utilizado de la varianza del total rural provincial fue:

 

 

 

·        Intervalo de confianza

 

El intervalo de confianza al 95% de confiabilidad de una estimación , tanto en la zona urbana como en la rural, se calculó mediante la expresión

 

 

donde:

t = 1.96, es el correspondiente percentil de la distribución normal y

 

                              

 

 

es el error estándar estimado.

 

VI.2.3. Principales resultados de la encuesta de evaluación de la cobertura censal

Ø      Cobertura de viviendas de Cuba

Fueron consideradas como viviendas erróneamente incluidas aquellas que fueron censadas y que según las definiciones metodológicas no eran viviendas particulares o no estaban dentro de los límites del segmento o distrito. Dentro de estas se contaron las viviendas duplicadas. Las causas de la inclusión errónea de las viviendas fueron: existe pero no es vivienda (no está dedicada a vivienda), en ruinas o en construcción, duplicada y no existe (no está ubicada) en el segmento o distrito. A su vez, fueron consideradas como viviendas omitidas aquellas que según las definiciones metodológicas debieron ser censadas en el segmento o distrito y no lo fueron.

De esta manera puede conocerse cuántas viviendas fueron correctamente censadas, al calcular la diferencia entre las viviendas censadas y las erróneamente incluidas. También se puede hallar cuántas viviendas debían ser censadas (censables) mediante la suma de las viviendas correctamente censadas con las omitidas.

La diferencia neta es la medida que indica cuántas viviendas existen de más o de menos en los datos censales con respecto a la encuesta; ésta se calcula hallando la diferencia entre las viviendas censadas y las censables. La diferencia bruta por su parte define cuántos errores de cobertura de viviendas en total fueron cometidos en el Censo, es decir, es la suma de las viviendas erróneamente incluidas con las omitidas.

A continuación se presenta un cuadro resumen con los principales resultados de la cobertura de viviendas para Cuba.

 

Errores estimados de la cobertura de viviendas para Cuba

 

Viviendas

Total

Porcentaje

Censadas

3 428 667 *

100.00

 

Correctamente censadas

3 422 972

99.83

 

Erróneamente incluidas

5 695

0.17

 

Censables según recenso

3 425 687

99.91

 

Omitidas

2 715

0.08

 

Diferencia neta entre Censo y recenso

2 980

0.09

 

Diferencia bruta entre Censo y recenso

8 410

0.25

 

  * Excluye las viviendas de los territorios señalados con anterioridad que no fueron objeto

 de la encuesta de cobertura por los efectos de fenómenos atmosféricos.

 

Como se aprecia en el cuadro anterior, la cobertura de viviendas particulares fue estimada en un 99,83 % de viviendas correctamente censadas. En todas las provincias este indicador se estimó mayor a un 99,8 %, con excepción de Ciudad de La Habana que fue de 99,34 %. La diferencia neta para Cuba fue del 0,09 % a favor del Censo y la diferencia bruta de 0,25 %. Todo esto indica que para las viviendas particulares se logró una cobertura excelente, al ser esta prácticamente total.

 

Ø      Cobertura de personas de Cuba

Se consideraron como personas erróneamente incluidas aquellas que fueron censadas y según las definiciones metodológicas no eran residentes permanentes de una vivienda particular o que fueron censadas en una vivienda erróneamente incluida. Dentro de éstas fueron contadas las personas duplicadas. A su vez, fueron consideradas como personas omitidas aquellas que según las definiciones metodológicas eran residentes permanentes en una vivienda particular y no fueron censadas en ella, o que eran residentes permanentes de una vivienda omitida. Tanto a las personas erróneamente incluidas como a las omitidas se les preguntó en una segunda visita si habían sido censadas o no en otra vivienda.

La diferencia neta es la medida que indica cuántas personas existen de más o de menos en los datos censales; ésta se calcula hallando la diferencia entre las personas erróneamente incluidas y las omitidas. La diferencia bruta por su parte, define cuántos errores de cobertura de personas en total fueron cometidos en el Censo, es decir, es la suma de las personas erróneamente incluidas con las omitidas.

De esta manera puede hallarse cuántas personas fueron correctamente censadas, hallando la diferencia entre las personas censadas y las erróneamente incluidas. También se puede hallar cuántas personas debían ser censadas (censables), lo cual se obtiene mediante la suma de las personas correctamente censadas con las omitidas.

 

Con respecto a la encuesta de evaluación de la cobertura censal del año 1981, la del Censo de Población y Viviendas del 2002 introdujo una nueva pregunta (denominada verificación) que debían contestar las personas que luego del cotejo fueran clasificadas como erróneamente incluidas o como omitidas. La pregunta en cuestión era si la persona declaraba haberse censado en otra vivienda.

 

  Errores estimados de la cobertura de personas para Cuba

 

Personas

Total

Porcentaje

Censadas

10 815 579 *

100.00

 

Correctamente censadas

10 790 213

99.77

 

Erróneamente incluidas

25 366

0.23

 

Censables según recenso

10 844 630

100.27

 

Omitidas

54 417

0.50

 

Diferencia neta entre Censo y recenso

-29,051

-0.27

 

Diferencia bruta entre Censo y recenso

79 783

0.73

 

 * Excluye la población de los territorios señalados con anterioridad que no fueron objeto de la Encuesta de Cobertura por los efectos de fenómenos atmosféricos y otros conjuntos poblacionales que tampoco lo fueron.

 

Como se aprecia en el cuadro anterior, la cobertura de personas residentes permanentes en viviendas particulares fue estimada en un 99,77 % de personas correctamente censadas. En todas las provincias la estimación de este indicador fue mayor a un 99,7 %, tanto para la zona urbana como para la rural. La diferencia neta para Cuba se estimó en un 0,27 % a favor del recenso y la diferencia bruta en 0,73 %. Ello indica que para las personas, al igual que en el caso de las viviendas particulares, se logró una cobertura excelente.

 

 

VI.3. Aspectos generales y algunos resultados de la encuesta de evaluación de la calidad del contenido censal

 

Técnica de encuesta

 

La técnica de encuesta desarrollada consistió en recensar una muestra de viviendas junto con todos los hogares y las personas residentes permanentes en ellos, a partir de una guía de visitas previamente elaborada. A dicha muestra se le aplicó un cuestionario diseñado a partir de una selección de preguntas del cuestionario censal sin información previa del Censo, aunque sí con casillas concebidas para incorporar esa información a posteriori. Luego de recensadas las viviendas se realizó en oficina un cotejo entre la información suministrada en la encuesta y la del correspondiente cuestionario censal y le indicó a los supervisores la verificación, de nuevo en campo, de las preguntas con discrepancias. Posteriormente la información censal se registró en el cuestionario de la encuesta, para luego ser digitadas y validadas de forma conjunta.

 

 

Instrumento aplicado

 

El instrumento utilizado fue un cuestionario muy similar al del Censo, confeccionado a partir de una selección de preguntas del cuestionario censal sobre datos de vivienda y de personas, y en el cual se previó incluir algunas preguntas de control e incorporar unas casillas, debajo de cada pregunta, para relacionar en ellas la respuesta censal luego del cotejo realizado en las oficinas con las carpetas censales.

 

El haber fijado como período de referencia el mismo que en el levantamiento censal y haber aplicado la encuesta a la mayor brevedad posible luego de la conclusión del Censo, garantizó que los cambios demográficos naturales (nacimientos, defunciones y migraciones), unidos a los sesgos de memoria de los declarantes no incidieran de forma significativa en la comparación estadística.

 

Organización y características de la encuesta

 

A lo largo de todo el territorio nacional, la encuesta se realizó a partir de la selección probabilística, de una muestra de viviendas particulares censadas y ocupadas por residentes permanentes en el momento censal. Estas viviendas se visitaron nuevamente –por un personal previamente entrenado, seleccionado de entre los que trabajaron en el levantamiento del Censo, pero además con el requisito de que los distritos en que trabajaran en la encuesta fueran diferentes a los que censaron durante el levantamiento censal–, para aplicarles un cuestionario confeccionado a partir de una selección de preguntas del cuestionario censal, que debía llenarse con información referida a ese momento.

 

Posteriormente en las áreas censales u oficinas municipales, se compararon estos cuestionarios con los cuestionarios censales correspondientes, y en los casos en que se detectó discrepancias en algunas de las preguntas evaluadas, se realizó una nueva visita a la vivienda con el propósito de verificar la respuesta. De esta forma se fueron captando los errores cometidos durante la enumeración censal para finalmente, realizar un diagnóstico sobre la calidad de las respuestas de las preguntas que se incluyeron en el cuestionario de la encuesta.

 

VI.3.1. Estrategia muestral

 

La estrategia muestral se presenta estructurada en dos partes, una dedicada al diseño muestral de la encuesta y la otra a los estimadores empleados para realizar las inferencias estadísticas.

 

La estructura muestral en cuanto a su alcance, población objetivo, tipo de muestreo, unidades y marco muestral, presenta similares características que las descritas para la encuesta de cobertura.

 

Ø      Diseño muestral

 

·        Tamaño y afijación de la muestra.

Consecuente con las características de la encuesta, los recursos disponibles y los antecedentes de este estudio, referidos a la encuesta de evaluación de la calidad del Censo de Población y Viviendas de Cuba del año 1981, y el ensayo censal realizado en el municipio Candelaria de la provincia de Pinar del Río en el año 2001, donde se consideró también el ensayo de la encuesta, se determinó una muestra general de 18 380 viviendas,aproximadamente el 0,5 % del total de viviendas estimadas para el país según información del registro previo. Ello permitió obtener resultados con una precisión adecuada a nivel de provincia/parte urbana y rural.

 

La distribución de la muestra por estratos (provincias/municipios/parte) se realizó mediante una afijación de compromiso entre una distribución proporcional al tamaño, dada la medida de tamaño por el total de viviendas particulares existentes en cada estrato según el registro previo, y una distribución uniforme. Ello bajo el principio de que la muestra debía ser comparable entre provincias y suficientemente grande dentro de cada una como para garantizar estimaciones con la precisión adecuada a ese nivel.

En resumen se seleccionaron nacionalmente 1 838 distritos, 1 838 segmentos (uno pordistrito) y 18 380 viviendas (10 por cada segmento) repartidas entre 322 estratos.

·        Comportamiento de la muestra

De las 18 380 viviendas correspondientes a la muestra teórica se lograron levantar 17 833 y dentro de ellas un total de 56 500 personas.

A modo de resumen se pudiera plantear que se levantó el 97,02 % de la muestra prevista, lo que equivale a decir que se dejaron de recensar 547 viviendas de las cuales el 86 % corresponden a los territorios de Pinar del Río y la Isla de la Juventud, que fueron los más afectados por los huracanes Lily e Isidore impidiendo el levantamiento de la encuesta en esa parte del país, al igual que sucedió en la encuesta de cobertura.

 

Ø      Estimadores

 

A partir de los 322 estratos de ponderación (provincia/municipio/parte) considerados para estimar a las personas y las viviendas, se aplicaron estimadores de razón que utilizan como variables auxiliares el Total de Población y el Total de Viviendas por provincia, municipio, parte. Dichos totales se obtuvieron de los resultados del Censo de Población y Vivienda del año 2002.

·   Probabilidad de inclusión

Atendiendo al diseño muestral empleado, la probabilidad de que un elemento pertenezca a la muestra se obtiene a partir de la siguiente ecuación:

    

                              donde: a : cantidad de distritos seleccionados en el estrato de ponderación h

       cantidad de viviendas en el estrato de ponderación h.

   : cantidad de viviendas en el distrito i seleccionado.

 : cantidad de viviendas en el segmento j seleccionado.

 

Como resultado, todas las viviendas dentro de cada estrato tienen la misma probabilidad de ser seleccionadas.

La expresión de los estimadores de totales y de razón empleados es la siguiente:

1.     Estimador del total de estrato h:

 

 


 

                                                          

  donde:

 

 

, es el inverso de la probabilidad de selección (factor de inflación) en el estrato h.

 

2. Estimador del total:

  donde: Y es la variable a estudiar y X la variable auxiliar,

h=1, 2, ..., L, la identificación del estrato (provincia, municipio, parte),

i=1,2, ..., nh, la identificación del cluster (distrito) dentro del estrato,

j=1, 2, ..., mhi, la identificación del elemento (vivienda o individuo) dentro del cluster,

Yhij, la observación de la variable Y en el individuo hij-ésimo,

Xhij, la observación de la variable X en el individuo hij-ésimo,

 

En el caso de la encuesta la variable auxiliar X que se empleó para estimar los datos de personas fue la población cubana residente en viviendas particulares, mientras que para las viviendas se consideró el total de viviendas particulares, ambos por provincia, municipio, parte.    

Como consecuencia el estimador del total de viviendas, utilizando el estimador de razón y la variable auxiliar antes mencionada queda de la siguiente manera:

  

  donde:  es la cantidad de viviendas del estrato h.

 

A partir de estos estimadores se calcularon los coeficientes de variación, las desviaciones típicas o estándar y los efectos de diseño de algunos de los principales indicadores utilizando el sistema STATA 7.0.

·        Estimador de la varianza del total.

 El estimador del total tiene la forma siguiente:

 El estimador de la varianza de sería:

 

 donde ,

 es la fracción de muestreo para el estrato h, es el número de clusters (unidades primarias de muestreo) en el h-ésimo estrato, es el número de elementos del hi-ésimo cluster.

 

·        Precisión de los resultados

 

La precisión de los resultados se evaluó a través del Coeficiente de Variación que se define para cada indicador como el cociente entre la desviación estándar y la estimación del indicador.

-       La interpretación del Coeficiente de Variación (C.V.) de las estimaciones se realizó de la siguiente forma:

-         Coeficiente de Variación (C.V.) menor del 5%, la estimación del indicador es muy Buena.

-         Coeficiente de Variación (C.V.) entre el 5% y el 10%, la estimación del indicador es Buena.

-         Coeficiente de Variación (C.V.) entre el 10% y el 15%, la estimación del indicador es Aceptable.

-         Coeficiente de Variación (C.V.) entre el 15% y el 20%, la estimación hay que utilizarla con precaución.

-         Coeficiente de Variación (C.V.) mayor del 20%, la estimación del indicador NO es buena y sólo se tomará como cifra indicativa para el análisis del indicador obtenido en momentos distintos.

A partir de los coeficientes de variación calculados, fue posible construir los intervalos de confianza de las estimaciones obtenidas empleando la fórmula:

 

  

donde t es el percentil de la distribución normal, que a un nivel del 95% de confiabilidad toma el valor de 1.96.

Vale destacar que las estimaciones de las encuestas no están referidas a valores puntuales, sino a valores que se mueven dentro de un intervalo de confianza como el descrito anteriormente, lo que significa que la muestra se diseñó de forma tal que si se tomaran 100 muestras de igual tamaño y diseño, en 95 de ellas el verdadero valor del indicador quedaría dentro de ese intervalo.

Para la presentación y el análisis de la calidad del Censo se obtuvieron a partir de las informaciones procesadas varios índices, de los cuales se presentan dos, que son:

 

Índice de Consistencia Global

ICG = 100 (a/n)

 

El Índice de Consistencia Global (ICG) refleja, a nivel de preguntas, qué proporción de viviendas (personas) del total respondieron de forma idéntica en el Censo y la encuesta, e indica cuán consistente ha sido la respuesta a dicha pregunta.

 

Índice de Idénticamente Clasificados

IIC = 100 (a/a+b)

El Índice de Idénticamente Clasificados (IIC) refleja la estabilidad en la respuesta en cada modalidad, es decir, indica la proporción de respuestas que coincidieron de forma idéntica en el Censo y la encuesta.

Según se refleja en la tabla 1 (Índice de Consistencia Global), la información del Censo que se evaluó a través de la encuesta, y que no es más que la referida en las preguntas comprendidas en las secciones III y IV del cuestionario censal, puede ser en general, utilizada por los diferentes usuarios sin mayores reservas, dada su consistencia y calidad.

 

Sección III Datos de la vivienda particular

 

En específico las preguntas correspondientes a los datos de la vivienda particular para Cuba (ver gráfico) ilustran que los datos originales y los obtenidos por la encuesta coincidieron en ocho de las nueve preguntas en más del 94,7 %, es decir salvo para la pregunta 6A «Cantidad de piezas que tiene la vivienda», en el resto, de cada 100 entrevistas realizadas, en 95 de ellas o más las respuestas captadas por las dos fuentes de datos fueron idénticas.

  

Cuba. Índice de Consistencia Global de preguntas de la sección III “Datos de la Vivienda Particular”

 

 

En general, aunque con algunas fluctuaciones entre territorios, se puede concluir que la consistencia de las respuestas a las preguntas relacionadas con la vivienda fue buena, ya que incluso en la pregunta 6A (cantidad de piezas de la vivienda) donde se encontró un mayor número de discrepancias, en el 89 % de los casos coincidieron a nivel nacional las respuestas del Censo y las reentrevistas.

 

Sección IV Datos de la persona

 

Los hallazgos más relevantes asociados a la calidad de las preguntas de esta sección IV (ver gráfico), indican cómo a nivel nacional las respuestas dadas a todas las preguntas pueden ser calificadas de altamente consistentes si se tiene en cuenta que los datos originales y los obtenidos por la encuesta coincidieron en más del 90 % de las personas en todas las preguntas incluidas en el cuestionario de la encuesta. Es decir, de cada 100 entrevistas realizadas, en 95 de ellas o más las respuestas captadas por las dos fuentes de datos fueron idénticas.


 

Cuba. Índice de Consistencia Global de preguntas de la sección IV “Datos de la Persona”

 

_____________________________________________________________________

 

 

A continuación se presentan cuadros resúmenes con el Índice de Consistencia Global e Índice de Idénticamente Clasificados que ilustran los comentarios anteriores respecto a la calidad del Censo.

 

 

Índice de Consistencia Global según sección y preguntas por provincias

Territorios

ICG

Cuba

Pinar del Río

La Habana

C. de La Habana

Matanzas

Villa Clara

Cienfuegos

Santi Spíritus

Ciego de Ávila

Camaguey

Las Tunas

Holguín

Granma

Stgo de Cuba

Guantánamo

Isla de la Juv.

Sección III

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Preg. 1

98.2

99.1

99.1

94.9

99.4

99.5

99.1

99.3

99.3

97.9

98.1

96.9

98.3

98.2

98

100

Preg. 4A

96.3

97.9

94.5

95.6

98.9

98.9

98.9

99.0

99.6

96.1

96.7

93.9

96.8

92.6

90.5

99.4

Preg. 4B

97.6

97.8

98.1

98.0

99.0

98.3

99.6

97.2

99.9

98.0

97.3

96.0

96.3

96.6

95.3

99.4

Preg. 4C

97.7

97.9

97.9

99.3

99.5

97.9

99.0

98.5

99.3

96.9

96.5

95.4

97.0

96.3

96.4

100

Preg. 6A

89.1

86.0

87.7

82.1

97.8

96.9

96.4

91.9

99.4

89.3

88.1

82.3

86.5

84.8

83.3

98.8

Preg. 6B

94.8

94.2

94.8

92.4

99.0

97.9

97.9

96.3

99.4

94.4

94.7

90.3

92.8

92.7

92.6

98.2

Preg. 6C

95.5

96.1

95.1

93.6

98.7

97.1

98.2

97.1

99.0

95.0

95.2

92.1

94.1

92.7

94.6

100

Preg. 10

95.8

93.0

94.6

96.2

98.9

96.9

98.6

94.6

99.1

95.9

96.3

94.2

95.4

95.5

92.5

95.2

Preg. 13

99.3

99.7

99.6

100

99.6

99.8

99.9

99.7

99.7

98.5

99.6

97.2

98.8

99.2

98.4

100

Sección IV

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Preg. 4

99.6

99.6

99.2

99.6

99.8

99.8

99.8

99.6

99.8

99.6

99.6

99.8

99.8

99.5

99.5

99.6

Preg. 8

98.2

98.1

95.8

97.9

99.8

99.7

99.4

98.7

100

98.3

98.0

97.0

98.1

98.0

97.3

100

Preg. 12

96.9

96.2

95.1

96.2

99.6

99.3

97.9

97.3

99.8

97.1

96.9

95.4

96.3

94.8

96.0

99.4

Preg. 16

91.5

92.6

91.1

86.0

92.3

92.4

96.3

92.3

97.8

87.6

95.6

89.7

88.1

93.0

91.4

94.4

Preg. 17

96.1

96.3

94.8

95.8

99.6

98.2

98.5

97.2

99.7

96.4

95.7

92.9

95.3

93.5

92.7

99.0

 

 Nota: Ver en el cuestionario censal (Capítulo IV) el número de la pregunta y su significado.


 

 

Índice de Idénticamente Clasificadas por preguntas seleccionadas. Cuba.

 

Sección III. Datos de la Vivienda Particular.

 

Casa

Apartamento

Hab. en Cuartería

Bohío

Improvisada

Otra

Pregunta 1

99.0

96.3

89.5

96.9

81.3

100

 

Placa o Loza

Teja

Plancha de Fibrocemento

Madera y papel Embreado

Guano

Otra

Pregunta 4A

99.3

94.5

94.1

84.1

98.9

77.8

 

 

 

Losa, Granito Mosaico

Cemento

Madera

Tierra

Otra

Pregunta 4B

98.5

97.2

82.6

97.2

64.7

 

Hormigón, Mampostería

Madera

Yagua o Tabla de Palma

Adobe o Embarre

Otra

Pregunta 4C

99,4

95.3

95.1

94.2

79.7

 

 

Cantidad de Piezas de la Vivienda

 

1

2

3

4

5

6

7

8

9

10

11

12

13 y más

Pregunta 6A

89.5

87.7

89.4

89.7

89.1

89.4

87.1

84.3

87.9

88.5

71.4

100.0

100.0

 

 

de las anteriores cuántas se utilizan para dormir

 

1

2

3

4

5

6

7

8

Pregunta 6B

95.3

95.2

93.9

83.6

85.7

100.0

100.0

100.0

 

  

 

Cuántas son cuartos

 

0

1

2

3

4

5

6

7

8

9

10

Pregunta 6C

86.2

95.1

96.2

95.5

91.9

88.0

100.0

100.0

100.0

-

100.0

 

    Sistema de desagüe

 

Alcantarillado

Fosa o tanque séptico

Otra

Pregunta 10

97.2

93.9

96.7

  

     Fuente de energía

 

Unión Eléctrica

Planta Industrial

Luz brillante

Mini Hidroeléctrica

Paneles solares

Pregunta 13

99.8

92.3

93.5

97.2

100.0

 

Biogás

Planta propia

Otra

 

 

100.0

66.7

75.6

 

 

Sección IV Datos de la Persona.

     Sexo

 

Varón

Hembra

Pregunta 4

99.7

99.6

 

   Residencia en el Municipio

 

Siempre ha vivido en el Municipio

No siempre ha vivido en el Municipio

Pregunta 8

98.7

96.8

 

     Nivel Educacional

 

Ninguno

Primaria

Secundaria

Obrero Calificado

 Pregunta 12

98.7

97.2

97.3

88.1

 

Preuniversitario

Técnico Medio

Pedagógico Nivel Medio

Superior o Universitaria

 

94.3

96.2

88.1

98.1

    

Estado civil o conyugal

 

Casado (a)

Unido (a)

Divorciado (a)

Separado (a)

Viudo (a)

Soltero (a)

Pregunta 16

91.8

86.5

89.2

80.3

96.8

97.4

 

    Situación Económica

 

Trabajó

Tenía trabajo pero no trabajó

Buscaba trabajo por primera vez

Buscaba trabajo por que lo había perdido

Jubilado o pensionado

Rentista o recibe ayuda Económica

Pregunta 17

97.3

84.9

88.9

86.7

95.9

83.3

 

Quehaceres del hogar

Estudiantes

Incapacitados para el trabajo

No realiza ninguna actividad

En Hospital Asilo

Otra situación

 

97.5

97.3

85.1

90.7

79.2

88.0

 

 

VI.4. Evaluación de la calidad de las carpetas censales a través de las técnicas de muestreo

 

Además de la encuesta de evaluación de la cobertura y la encuesta de evaluación de la calidad del contenido censal, entre las aplicaciones del muestreo al Censo de Población y Viviendas estuvo el cálculo del tamaño de muestra óptimo para determinar si una carpeta censal era considerada como «aceptable» para ser procesada.

 

Durante el proceso de revisión y codificación del Censo de Población y Viviendas se presentó la siguiente problemática: debido a la gran cantidad de carpetas y cuestionarios censales y de acuerdo al personal con que se contaba en esta etapa, era imposible realizar una revisión pormenorizada de todos y cada uno de los cuestionarios censales dentro de cada una de las carpetas.

 

A tenor de lo anterior se presentó la necesidad de tratar de encontrar un tamaño de muestra óptimo, de tal manera que permitiera aceptar o rechazar una carpeta, con un margen de error preestablecido.

Para ello se estableció un procedimiento matemático que partiendo de una muestra de tamaño n, se determinara qué proporción de cuestionarios era correcta para considerar una carpeta como buena

 

En todos los casos se aceptaba una carpeta o era considerada como buena si de 100 cuestionarios dentro de la carpeta 80 estaban correctos (no tuvieron errores en la sección correspondiente), o sea que el 80% o más de los cuestionarios dentro de la carpeta estuvieran totalmente correctos.

Su desarrollo matemático conllevó al siguiente ejemplo de aplicación:

 

 

 donde π es la proporción real (desconocido) de cuestionarios correctos dentro de la carpeta.

Se pretende calcular una p (proporción de cuestionarios correctos en muestra) que permita rechazar la hipótesis H0 (dar la carpeta como buena) en más del 90% de las carpetas.

El tamaño de muestra utilizado para la prueba anterior fue de 10 cuestionarios por cada carpeta (n=10), y un nivel de significación de 0,10 (ά=0,10) y se pretendía encontrar, de esos 10 cuestionarios seleccionados la cantidad necesaria para considerar una carpeta como «buena».

 

Para el test, la región crítica sería:

 

 

 

Para el test utilizado como ejemplo se requería dar los diez cuestionarios seleccionados como correctos para aceptar la carpeta. Con el criterio anterior se lograba, al final del trabajo, que el 90% de las carpetas estuvieran bien clasificadas.

Al cambiar se obtuvieron diferentes variantes que fueron sometidas a un proceso de evaluación, en el proceso de revisión y codificación del Censo de Población y Viviendas de 2002. De acuerdo a la disponibilidad de personal con que se contaba se consideró la variante:

 como la más adecuada.

 

El proceso de verificación se realizó sobre el 100 % de las carpetas revisadas-codificadas. Cada verificador tenía una norma mínima diaria de 16 carpetas y en cada una de ellas se chequeó la carátula, así como 10 cuestionarios, seleccionados de forma aleatoria, con todas sus secciones y preguntas.

 

Para dar una carpeta como válida y aceptarla como lista para el procesamiento, el verificador tuvo en cuenta que nueve de cada diez cuestionarios seleccionados, no podían tener ningún tipo de error y se le orientó rechazar la carpeta si sucedía lo contrario, o sea, si tenía al menos dos de los diez cuestionarios seleccionados con algún tipo de error.

 

VI.5. La atracción o rechazo de dígitos en la declaración de edades

 

Relacionado con la calidad de la información censal en uno de los atributos fundamentales de la población, la edad, se encuentra el cálculo de la atracción o rechazo por determinados dígitos en las declaraciones de la población censada; para ello no se utiliza la información obtenida por muestreo sino la base total de datos del censo.

 

Para evitar lo anterior existen determinados controles, por ejemplo preguntar la fecha de nacimiento y cotejarla con la edad declarada, en la recogida de la información y en los procesos de revisión codificación, como se hizo en el Censo del 2002. Dada la gran importancia del indicador señalado, es altamente conveniente medir, evaluar y publicar los resultados de ese proceso.

 

Para ello se recomienda internacionalmente realizar el cálculo de dos Índices, el de «Myer» y el de «Whipple», en alusión a los apellidos de los demógrafos que lo crearon.

 

Con el Índice de Myer se estima la calidad censal, con respecto a la edad, dando a conocer la atracción o el rechazo hacia cada uno de los dígitos, ya que algunas personas al declarar su edad, muestran tendencia al empleo de ciertos números, preferiblemente terminados en cero y cinco, o números pares y rechazan los impares. Según una clasificación propuesta por la División de Población (CELADE) de la Comisión Económica para América Latina y el Caribe (CEPAL),[1] el nivel de atracción de los dígitos es bajo, si los valores del índice van de 0 a 5; mediano de 5.1 a 15; alto de 15.1 a 30 y muy alto de 30.1 y más.

El resultado del índice para Cuba, 1.46, ratifica la alta calidad de la información censal, al ser el valor del índice y por tanto la atracción de dígitos bajo.

 

El otro Índice, el de Whipple,[2] mide igualmente la atracción o preferencia por los dígitos cero y cinco en la declaración de la edad de las personas comprendidas entre los 23 y 62 años inclusive. El resultado oscila entre un mínimo de 100, en el caso de que no haya ninguna concentración, y un máximo de 500, en el caso de no haberse registrado cifra alguna para las edades que no terminan en cero ni cinco; es decir el valor 100 significa que las edades terminadas en cero o cinco se declararon con la misma frecuencia que las edades terminadas en otros dígitos.

 

El valor de 102.23 alcanzado en este índice a nivel nacional, también demuestra la alta consistencia de la información censal, al ser muy baja la atracción por dígitos de cero y cinco entre las edades mencionadas.

 


 

[1] Joseph Kempe: La declaración de la edad en los Censos de Población de la América Latina, Serie C. No. 1004, CELADE, Santiago de Chile, 1976.

[2] Naciones Unidas. Métodos para Evaluación de Calidad de los Datos Básicos destinados a los Cálculos de Población. Manual II, st /50A / Serie A, No. 23, New York, 1989. p. 45.