Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Avertissement Consulter la version la plus récente.

Contenu archivé

L'information indiquée comme étant archivée est fournie aux fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

4.  Estimation basée sur l'échantillon du recensement

4.1  Considérations d'ordre opérationnel
4.2  Considérations d'ordre théorique
4.3  Élaboration d'une méthode d'estimation pour l'échantillon du recensement
4.4  Estimateur de régression pseudo-optimale en deux étapes
4.5  Traitement à deux passages
4.6  Différences entre les chiffres de population et les estimations pondérées finales
4.7  Les différents univers

Tout échantillonnage nécessite l'application d'une méthode d'estimation pour rapporter les données-échantillon à l'échelle de la population totale. La méthode d'estimation est généralement choisie en fonction d'exigences d'ordre opérationnel et théorique. Sur le plan opérationnel, cette méthode doit être compatible avec le système de dépouillement auquel elle s'intègre, tandis que sur le plan théorique, elle doit minimiser l'erreur d'échantillonnage des estimations produites. Les sections 4.1 et 4.2 décrivent les considérations opérationnelles et théoriques qui régissent le choix des méthodes d'estimation à partir de l'échantillon du recensement. Les sections 4.3 et 4.4 présentent certaines des méthodes utilisées pour établir les poids du recensement. Les autres sections portent sur les univers de données utilisés dans le processus de pondération et expliquent brièvement pourquoi des écarts peuvent survenir entre les chiffres de population et les estimations pondérées.

4.1  Considérations d'ordre opérationnel

Une méthode d'estimation peut être décrite mathématiquement à l'aide d'une formule algébrique, ou d'un estimateur, qui indique comment l'estimation de la population est calculée en fonction des valeurs observées dans l'échantillon. Quand il s'agit de petites enquêtes qui ne portent que sur une ou deux caractéristiques, ou lorsque la formule d'estimation est très simple, il est possible de calculer les estimations-échantillon en appliquant cette formule aux données-échantillon pour chaque estimation requise. Toutefois, dans le cas d'une enquête ou d'un recensement portant sur une gamme étendue de caractéristiques, ou lorsque la formule d'estimation est assez complexe, il n'est pas possible d'appliquer une formule séparément pour chaque estimation désirée. Par exemple, une application distincte de la formule d'estimation serait nécessaire pour chaque cellule de chaque tableau du recensement publié en fonction des données de l'échantillon. Par ailleurs, les diverses estimations effectuées par calcul individuel à partir d'un même échantillon du recensement ne sont pas nécessairement cohérentes.

Par conséquent, la méthode utilisée pour le recensement (et pour de nombreuses enquêtes-échantillon) consiste à décomposer le processus d'estimation en deux étapes : a) le calcul des poids, c'est-à-dire la pondération elle-même et b) la sommation des poids afin de produire des estimations des chiffres de population. Les seules difficultés mathématiques, s'il y en a, se rapportent à l'étape a) qui n'est effectuée qu'une fois, tandis que l'étape b) se limite à un simple processus de sommation des poids au moment où une totalisation est extraite. Il faut noter que, comme le poids relié à une unité de l'échantillon est le même quelle que soit la totalisation effectuée, la cohérence entre les diverses estimations basées sur les données-échantillon est assurée.

4.2  Considérations d'ordre théorique

Selon la théorie de l'échantillonnage, il est possible de déterminer, à partir d'un plan d'échantillonnage particulier et d'une procédure d'estimation donnée, les chances qu'un certain intervalle contienne la valeur (inconnue) que l'on veut estimer pour la population entière. Le principal objet de l'estimation est de réduire au maximum l'étendue de ces intervalles de façon que les hypothèses sur les valeurs inconnues de la population soient aussi précises que possible. La mesure courante de précision utilisée pour comparer les procédures d'estimation est appelée l'erreur type. Pourvu que certaines conditions relativement peu contraignantes soient respectées, un intervalle de plus ou moins deux erreurs types par rapport à la valeur estimée renfermera la valeur de la population pour environ 95 % de tous les échantillons possibles.

Outre la réduction au minimum de l'erreur type, le deuxième objectif relatif au choix d'une méthode d'estimation de l'échantillon du recensement est de garantir autant que possible que les estimations faites à partir de l'échantillon des caractéristiques de base (c.-à-d. 2A) soient cohérentes avec les valeurs connues de la population correspondante. Heureusement, ces deux objectifs sont généralement complémentaires, c'est-à-dire que l'erreur d'échantillonnage est habituellement réduite lorsqu'on s'assure que les estimations-échantillon de certaines caractéristiques de base sont compatibles avec les chiffres correspondants de population. Notons cependant que, bien que vrai en général, il peut arriver que le fait de forcer les estimations-échantillon de caractéristiques de base à être compatibles avec les chiffres correspondants de population pour de très petits sous-groupes puisse avoir des conséquences défavorables sur l'erreur type des estimations des caractéristiques-échantillon proprement dites.

Lorsqu'on n'a aucune information sur la population échantillonnée autre que celle qui a été recueillie pour les unités d'échantillonnage, la méthode d'estimation se limite à pondérer les unités d'échantillonnage en proportion inverse de leur probabilité de sélection; par exemple, si toutes les unités avaient une chance sur cinq d'être choisies, toutes les unités recevraient un poids de 5. En pratique, toutefois, on a généralement une certaine connaissance de la population observée, par exemple, sa taille globale et, peut-être, sa répartition en fonction d'une variable donnée (disons, par province). Ces données peuvent être utilisées pour améliorer la formule d'estimation de façon à produire des estimations qui se rapprochent davantage de la valeur inconnue de la population. Dans le cas de l'échantillon du recensement, on dispose d'un grand nombre de données très détaillées sur la population échantillonnée, soit les caractéristiques de base obtenues pour tous les ménages, à tous les niveaux géographiques. On peut se servir de cette multitude d'informations sur la population pour améliorer les estimations faites à partir de l'échantillon du recensement mais, d'autre part, ces données peuvent également occasionner des ennuis compte tenu du fait qu'il est impossible d'obtenir des estimations-échantillon des caractéristiques de base qui soient compatibles avec toutes les données sur la population à tous les niveaux géographiques. Les écarts entre les estimations-échantillon et les valeurs de la population apparaissent quand on produit un recoupement d'une variable de base et d'une variable-échantillon. La totalisation doit être fondée sur les données-échantillon; de ce fait, les totaux marginaux des variables de base sont des estimations-échantillon que l'on peut comparer avec les chiffres correspondants de population d'une autre totalisation basée sur les données intégrales. Il se peut que cette comparaison ne donne pas une concordance exacte. Ces différences sont abordées plus en détail à la section 4.6 du présent rapport.

4.3  Élaboration d'une méthode d'estimation pour l'échantillon du recensement

Étant donné qu'il faut attribuer un poids à chaque unité d'échantillonnage (personne, famille ou ménage), le plus simple serait de choisir le poids 5, puisqu'il s'agit d'un échantillon de 1 sur 5. Une telle méthode serait simple et sans biais1, et si l'on n'avait pas d'autres données que celles de l'échantillon, cela pourrait être la meilleure méthode. Or, bien qu'on sache que l'échantillon contiendra presque exactement le cinquième de tous les logements (à l'exclusion des logements collectifs et de ceux qui se trouvent dans les secteurs de recensement par interview), on ne peut pas être certain qu'il contiendra exactement un cinquième de toutes les personnes, ou un cinquième de chaque genre de ménage, ou un cinquième de toutes les femmes âgées de 25 à 34 ans, etc. Par conséquent, une telle méthode n'assurerait pas la cohérence, même pour les sous-groupes les plus importants de la population. Dans ce dernier cas, les fractions seraient très proches d'un cinquième, mais elles pourraient s'en écarter de façon sensible dans le cas des petits sous-groupes. Une autre méthode simple serait de prendre certains sous-groupes importants, par exemple les groupes d'âge-sexe par province, puis, pour chacun, compter le nombre d'unités de la population appartenant au sous-groupe (N) et le nombre d'unités appartenant à l'échantillon (n), et attribuer à chaque unité d'échantillonnage appartenant au sous-groupe un poids égal à N/n. Ces sous-groupes sont souvent appelés strates « a posteriori ».

Par exemple, si l'on recensait 5 000 hommes âgés de 20 à 24 ans à l'Île-du-Prince-Édouard, et si 1 020 de ces hommes faisaient partie des logements inclus dans l'échantillon, un poids de 5 000/1 020 = 4,90 serait attribué à chaque homme âgé de 20 à 24 ans dans l'échantillon de l'Île-du-Prince-Édouard. De cette façon, chaque fois que les groupes d'âge-sexe de cinq ans seraient recoupés avec une caractéristique-échantillon pour l'Île-du-Prince-Édouard, le total marginal pour le groupe d'âge-sexe d'hommes âgés de 20 à 24 ans concorderait avec le total de la population, soit 5 000. Ce genre de méthode d'estimation est appelée « estimation par la méthode du quotient ». Il est à noter que, dans cet exemple particulier, un poids simple de 5 donnerait une estimation-échantillon de 5 100 (1 020 x 5).

On appelle calibrage l'exercice qui consiste à ajuster les poids simples de 5 aussi peu que possible de manière à obtenir une concordance parfaite entre les estimations et les chiffres de population. Avant le Recensement de 1991, le calibrage se faisait grâce à la méthode itérative du quotient. Les estimations se rapportant aux ménages étaient produites à partir d'un poids calibré au niveau des ménages, alors que les estimations se rapportant aux personnes l'étaient à partir d'un poids calibré au niveau des personnes.

En 1991, on a adopté la méthode de la régression généralisée (estimateur GREG) en deux étapes, laquelle a permis d'obtenir une meilleure concordance entre les chiffres de population et les estimations correspondantes au niveau des secteurs de dénombrement (SD) qu'avec la méthode itérative du quotient. En outre, un seul poids calibré au niveau des ménages a pu servir à produire à la fois les estimations des ménages et celles des personnes. Par conséquent, on a pu éliminer les incohérences qui avaient été relevées dans certaines estimations d'avant 1991. L'estimateur GREG à deux étapes a également été utilisé en 1996.

En 2001 et en 2006, on a utilisé un estimateur de régression pseudo-optimale, car il permettait généralement d'obtenir une correspondance légèrement meilleure entre les chiffres et les estimations de population que l'estimateur GREG, tout en garantissant que les poids calibrés égalaient tous au moins 1. Voir Bankier (2002) pour obtenir une comparaison plus détaillée des estimateurs de régression.

Avec l'estimateur de régression pseudo-optimale, les poids initiaux d'environ 5 ont été ajustés aussi peu que possible pour chaque logement, de sorte qu'on s'assurait qu'il y avait une concordance parfaite entre les estimations et les chiffres de population pour autant de caractéristiques de base énoncées à l'annexe B que possible (celles-ci seront appelées contraintes ou variables auxiliaires). Il fallait que cette concordance parfaite soit réalisée au niveau des régions de pondération (RP). On retrouve plus d'information à propos des RP à la section 7.1 du présent rapport.

En 2006, le Canada était divisé en environ 50 000 unités de collecte à utiliser pour recueillir les données du recensement. L'unité de collecte (UC) a une taille et des caractéristiques semblables à celles du secteur de dénombrement (SD), qui était utilisé avant le Recensement de 2006. Un échantillon systématique d'un logement sur cinq a été sélectionné dans la plupart des UC aux fins du processus de pondération du recensement. Les aires de diffusion (AD) sont un autre niveau géographique d'une taille semblable à celle des UC. Des AD complètes ont été combinées pour former des RP. En moyenne, on retrouve huit AD et sept UC échantillonnées dans une RP.

4.4  Estimateur de régression pseudo-optimale en deux étapes

Le processus de régression utilise 34 variables auxiliaires, notamment les groupes d'âge quinquennaux, l'état matrimonial, l'union libre, le sexe, la taille du ménage et le type de logement. Voir l'annexe B pour prendre connaissance des 34 variables auxiliaires. Voici les objectifs de la procédure de pondération du Recensement de 2006 :

  • avoir une concordance parfaite entre les chiffres de population et les estimations au niveau des RP pour le plus grand nombre possible de variables parmi les 34 variables auxiliaires;
  • avoir une concordance approximative entre les chiffres de population et les estimations au niveau des AD de plus grande taille pour les 34 variables auxiliaires.

En outre, les conditions suivantes doivent être remplies :

  • Il doit y avoir une concordance parfaite entre les chiffres de population et les estimations pour le « nombre total de ménages » et le « nombre total de personnes » pour le plus grand nombre d'AD possible.
  • Les poids de recensement finaux doivent se situer dans l'intervalle de 1 à 25 inclusivement. La limite inférieure a été fixée à 1 parce qu'on a estimé que chaque personne échantillonnée devait au moins se représenter elle-même.
  • La méthode de calcul des poids doit être hautement automatisée, puisque les 6 602 RP comptant des ménages susceptibles d'être échantillonnés doivent être traitées au cours d'une courte période. Cette méthode doit également s'ajuster automatiquement aux différents schémas de réponse dans les RP du pays.

Les poids sont calculés séparément dans chaque RP au moyen d'un système de pondération automatisé. Pour chaque RP traitée, un ensemble de paramètres définis par l'utilisateur est transmis au système. Un poids initial est attribué à chaque ménage privé échantillonné de la RP, et ces poids sont ensuite soumis à deux ou trois facteurs d'ajustement. D'abord, les ménages peuvent être stratifiés « a posteriori » au niveau de la RP selon la taille du ménage, puisque les ménages de petite et de grande taille sont sous-représentés dans l'échantillon. Un deuxième ajustement est ensuite apporté aux poids pour obtenir une concordance approximative entre les chiffres de population et les estimations au niveau des AD, telle que décrite à l'objectif b) ci-dessus. Enfin, un troisième ajustement est effectué afin d'obtenir une concordance parfaite entre les chiffres de population et les estimations au niveau des RP et des AD, telle que décrite aux objectifs a) et c) ci‑dessus. Par souci de simplification, nous donnerons une description plus détaillée des poids initiaux et des trois ajustements avant d'aborder la question du retranchement de contraintes et des diverses raisons pour lesquelles des contraintes doivent être retranchées.

D'abord, un poids initial au niveau de l'UC est attribué à chacun des ménages privés de la RP. Le poids équivaut au nombre de ménages privés de l'UC, divisé par le nombre de ménages privés échantillonnés dans cette UC. Étant donné qu'environ un ménage sur cinq serait échantillonné, les poids initiaux ont tendance à se rapprocher de cinq. En 2001, les unités composées de personnes âgées ne faisaient pas partie du processus de pondération du recensement et étaient exclues du processus d'échantillonnage. Toutefois, étant donné qu'en 2006, les unités composées de personnes âgées étaient traitées de façon semblable aux ménages privés, elles faisaient partie de la base de sondage. Puisque la proportion d'unités composées de personnes âgées dans une UC était habituellement très faible, ce type d'unité avait généralement peu d'effet sur les résultats de la pondération. Cependant, pour un petit nombre d'UC comportant une forte proportion d'unités composées de personnes âgées, les ménages privés et les résidences pour personnes âgées étaient traités comme deux populations distinctes, ce qui fait que deux ensembles de poids initiaux ont été calculés pour chacune de ces UC, afin de réduire le biais d'échantillonnage. Une fois les poids initiaux créés, les unités composées de personnes âgées n'étaient pas traitées différemment que les ménages privés tout au long du reste du processus de pondération. Toutefois, lorsqu'on a calculé les facteurs d'ajustement de l'erreur type du chapitre 9, dans le cas d'une UC où les ménages privés et les unités composées de personnes âgées étaient traités comme deux populations distinctes, on les considérait comme deux strates d'échantillonnage plutôt qu'une.

À la première étape de l'ajustement, il arrive que les ménages soient stratifiés « a posteriori  » en fonction de leur taille (1, 2, 3, 4, 5 ou 6 personnes ou plus) au niveau des RP. Les poids initiaux sont multipliés par un facteur de façon à obtenir les poids stratifiés « a posteriori ». Par exemple, selon les poids stratifiés « a posteriori », le nombre estimé de ménages de une personne dans une RP donnée correspondrait au nombre de ménages de une personne dans la population de cette RP. En de très rares occasions, il peut arriver qu'un poids stratifié « a posteriori  » soit contraint afin qu'il se situe dans l'intervalle de 1 à 20 inclusivement. Une limite supérieure de 20 plutôt que de 25 est utilisée afin que d'autres ajustements puissent être apportés.

Ensuite, un facteur d'ajustement de la pondération par régression à la première étape est calculé au niveau des AD. Les 34 variables auxiliaires (âge, sexe, état matrimonial, taille du ménage et type de logement) qui doivent être appliquées au niveau des RP à la deuxième étape de l'ajustement sont classées par ordre décroissant en fonction du nombre de ménages auxquels elles s'appliquent dans la population au niveau des AD. Parmi les contraintes figurant sur cette liste, la première, la troisième, et ainsi de suite, sont placées dans un groupe, tandis que les 17 autres sont placées dans un second groupe. On fait la moyenne des facteurs d'ajustement de la pondération établis pour chaque groupe de contraintes, et on les applique aux poids stratifiés «  a posteriori » (ou aux poids initiaux en l'absence de stratification «  a posteriori »). Les poids  de la première étape permettent généralement de réduire, mais non d'éliminer, les écarts population/estimation au niveau des AD pour les 34 contraintes.

Enfin, un facteur d'ajustement de la pondération par régression à la deuxième étape est calculé au niveau des RP. Les 34 variables auxiliaires sont appliquées au niveau des RP en même temps que deux variables auxiliaires (nombre de ménages et nombre de personnes) pour chaque AD dans la RP afin de déterminer les facteurs d'ajustement de la pondération de la deuxième étape. Ces facteurs sont appliqués aux poids de la première étape de façon à obtenir les poids finaux. Les poids finaux permettent d'éliminer ou de réduire considérablement les écarts population/estimation au niveau des RP pour les 34 variables auxiliaires.

Des contraintes sont retranchées à la première étape et à la deuxième étape pour les raisons suivantes :

  • elles sont petites (elles ne s'appliquent qu'à quelques ménages dans la population);
  • elles sont redondantes (ou linéairement dépendantes [LD]);
  • elles sont quasi redondantes (ou quasi linéairement dépendantes [QLD]);
  • elles engendrent des poids aberrants (qui se situent en dehors de l'intervalle de 1 à 25 inclusivement) lors du calcul des poids.

Par exemple, étant donné que la somme du nombre total de femmes et du nombre total d'hommes correspond au nombre total de personnes, le nombre total de femmes est une contrainte redondante ou LD qui peut être retranchée, puisqu'il suffit de satisfaire à deux des contraintes pour que la troisième soit également satisfaite. Si la contrainte « état matrimonial = veuf(ve) » est retranchée parce qu'elle est petite (puisqu'il y a très peu de veufs et de veuves dans la RP), alors la somme des autres contraintes « état matrimonial » (célibataire, marié, divorcé et séparé) sera presque égale au nombre total de personnes, ce qui signifie qu'une de ces quatre contraintes pourrait être considérée comme une contrainte quasi redondante, ou QLD, et être retranchée.

D'abord, les mesures suivantes sont prises afin de relever les contraintes « petites », LD et QLD au niveau des RP : 

  • La taille d'une contrainte est déterminée en fonction du nombre de ménages dans la population auxquels cette contrainte s'applique. Une contrainte dont la taille est inférieure ou égale au paramètre PETITE (qui correspondait à 20, 30 ou 40 ménages en 2006) est retranchée parce que les estimations produites à partir de contraintes petites ont tendance à être très instables.
  • Les contraintes LD sont ensuite retranchées.
  • Par la suite, le retranchement des contraintes QLD permet de réduire le nombre-condition (l'indice de stabilité) de la matrice à inverser afin d'établir les facteurs d'ajustement de la pondération. Le nombre-condition (voir Press et coll., 1992) est le rapport entre la valeur propre la plus élevée et la valeur propre la plus faible dans la matrice à inverser. Des nombres-conditions élevés indiquent une quasi colinéarité entre les contraintes, ce qui peut causer l'instabilité des estimations. Afin de réduire le nombre-condition, on applique une méthode de sélection ascendante. La matrice est recalculée en ne tenant compte que des deux contraintes les plus fortes. Si le nombre-condition est supérieur au paramètre COND (qui correspondait à 1 000, 2 000, 4 000, 8 000 ou 16 000 en 2006), la deuxième contrainte la plus forte est retranchée. À partir de là, la contrainte suivante en importance est ajoutée à la liste des contraintes qui seront appliquées, la matrice est recalculée et le nombre-condition est déterminé. Si le nombre-condition augmente de plus que la valeur du paramètre COND, la contrainte qui vient d'être ajoutée est retranchée. Ce processus se poursuit jusqu'à ce que toutes les contraintes aient été vérifiées. Après le retranchement de ces contraintes QLD, si le nombre-condition est supérieur au paramètre MAXC (qui correspondait à 10 000, 20 000, 40 000, 80 000 ou 160 000 en 2006), d'autres contraintes sont retranchées. Celles‑ci sont retranchées par ordre décroissant, selon la valeur qu'elles ont ajouté au nombre-condition lorsqu'elles ont été incluses dans la matrice. Le nombre-condition de la matrice est recalculé chaque fois qu'une contrainte est retranchée. Lorsqu'il devient inférieur au paramètre MAXC, on cesse de retrancher des contraintes. Il convient de prendre note qu'en 2006, la valeur du paramètre MAXC était toujours 10 fois plus élevée que la valeur du paramètre COND.
  • Les contraintes retranchées jusque-là ne sont pas utilisées dans les calculs de la pondération.

Plus tard, avant de calculer les facteurs d'ajustement de la pondération de la première étape dans une AD donnée, on retranche les contraintes petites qui s'y trouvent toujours. Les contraintes qui restent sont réparties dans deux groupes, comme on l'a déjà expliqué. Puis, pour chaque groupe, on relève et retranche les contraintes linéairement dépendantes (les contraintes qui sont linéairement dépendantes au niveau de l'AD ne le sont pas nécessairement au niveau de la RP). Les facteurs d'ajustement de la pondération de la première étape sont ensuite calculés pour les contraintes comprises dans chaque groupe. Si un des poids ajusté à la première étape se situe en dehors de l'intervalle de 1 à 25 inclusivement, d'autres contraintes sont retranchées. Une méthode similaire à celle utilisée pour retrancher les contraintes QLD est appliquée ici, à ceci près qu'une contrainte est retranchée si elle cause des poids aberrants. Afin d'accroître l'efficacité du calcul, on utilise la méthode de fractionnement (voir Press et coll.1992) pour déterminer les contraintes qui doivent être retranchées.

Enfin, les facteurs d'ajustement de la pondération de la deuxième étape sont calculés en fonction des contraintes n'ayant pas été retranchées parce qu'elles étaient petites, linéairement dépendantes ou quasi linéairement dépendantes selon l'analyse initiale de la matrice à inverser. Si un des poids ajusté à la deuxième étape se situe en dehors de l'intervalle de 1 à 25 inclusivement, d'autres contraintes sont retranchées selon la méthode décrite pour la première étape.

Les poids du recensement sont calculés indépendamment pour chaque RP, de sorte qu'il est possible d'utiliser des ensembles de paramètres de pondération différents pour chacun d'eux (p. ex., PETITE, COND, MAXC, stratification « a posteriori  »ou non, utilisation des contraintes relatives au type de logement ou non). En 1996, un ensemble de paramètres identique était utilisé pour toutes les RP du pays. En 2001 et en 2006, étant donné la capacité de traitement accrue rendue possible par l'exploitation du système de pondération sur plusieurs ordinateurs personnels, il a été convenu de calculer les poids de chaque RP au moyen de plusieurs ensembles de paramètres différents. Deux contraintes relatives au type de logement ont vu le jour en 2006 en raison d'incohérences marquées pour ces caractéristiques dans certaines régions en 2001. Il s'agit des logements individuels non attenants et des appartements dans des immeubles de moins de cinq étages. Bien que ces nouvelles contraintes puissent atténuer les incohérences pour ces caractéristiques, elles pourraient entraîner l'élimination d'autres contraintes, ce qui donnerait lieu à une incohérence plus importante pour ces autres caractéristiques. Par conséquent, l'utilisation des contraintes relatives au type de logement a été paramétrée. Ainsi, ces contraintes pouvaient seulement être utilisées dans les RP ou leur effet global sur les incohérences était positif. Vingt différents ensembles de paramètres ont été utilisés pour calculer les poids dans chaque RP en 2006. Ils représentaient les 10 ensembles de paramètres utilisés en 2001, les contraintes relatives au type de logement étant exclues (comme en 2001) et incluses. Une statistique était calculée pour chaque ensemble de paramètres afin de déterminer quel ensemble réduisait les différences entre les chiffres de population et les estimations-échantillon pour les contraintes. Les poids obtenus avec cet ensemble de paramètres étaient utilisés pour la RP correspondante. Ce processus de sélection des meilleurs poids pour chaque RP avait pour nom « sélection choisie » des paramètres.

Pour obtenir de plus amples renseignements sur les estimateurs par régression, consulter Bankier (2002) et Fuller (2002).

Des poids de régression sont établis uniquement pour les ménages privés parmi une UC échantillonnée et les unités pour personnes âgées échantillonnées ayant reçu le questionnaire complet du recensement (un cinquième de ces ménages et de ces unités a été échantillonné; quatre cinquièmes ne le fut pas). Un poids de 0 était attribué aux ménages privés et aux unités composées de personnes âgées de l'UC échantillonnée ayant reçu une formule abrégée, étant donné l'absence d'information sur les variables de l'échantillon. On attribuait un poids de 1 à tous les ménages privés et des unités composées de personnes âgées des UC non échantillonnées, car la totalité des répondants de ces secteurs fournissent des renseignements sur la formule 2B ou 2D. Les ménages collectifs recevaient aussi un poids de 1. Dans le présent rapport, et à moins d'avis contraire, on emploie le terme « ménage » pour désigner un ménage privé ou une unité composée de personnes âgées.

4.5  Traitement à deux passages

Aux recensements de 1996, de 2001 et de 2006, les réponses écrites à la question sur le lien qui étaient fournies sur les questionnaires abrégés (2A) n'ont pas été saisies en raison de contraintes budgétaires. On leur a plutôt attribué la valeur « Autre ». En revanche, les réponses écrites fournies sur les questionnaires complets (2B) à la question sur le lien ont été saisies et codées selon la méthode normale.

Le traitement à deux passages consiste à traiter les données des questionnaires complets en deux étapes. Lors de la première étape, appelée « premier passage », tous les questionnaires (complets et abrégés) sont traités ensemble, ce qui représente 100 % des données. Les réponses écrites à la question sur le lien qui sont saisies sur les questionnaires complets ne sont pas prises en considération; on leur attribue la valeur « Autre », comme dans le cas des réponses écrites fournies dans les questionnaires abrégés. Le processus de contrôle et d'imputation est le même pour les deux types de questionnaire. Lors de la deuxième étape, appelée « deuxième passage », seuls les questionnaires complets sont traités; les questionnaires abrégés ne sont pas disponibles pour l'imputation. On utilise les réponses écrites à la question sur le lien qui sont saisies sur les questionnaires complets plutôt que les réponses « Autre ». Comme les réponses écrites sont accessibles, on suppose que la qualité des résultats est plus élevée lors du deuxième passage que lors du premier passage.

Le système de pondération utilise les résultats du premier passage pour tous les ménages afin de calculer les poids associés aux ménages. Bien qu'il soit possible d'utiliser les résultats du premier passage pour les questionnaires abrégés et les résultats du deuxième passage pour les questionnaires complets, cette méthode pourrait biaiser les estimations du recensement, à cause des différences entre le premier et le deuxième passage dans la distribution des réponses aux variables démographiques, qui sont attribuables à la présence de réponses écrites à la question sur le lien pour le deuxième passage. Les estimations du recensement qui ont été diffusées ont été produites en appliquant les poids du premier passage aux résultats imputés des questionnaires complets du deuxième passage. L'écart entre les chiffres de population (selon les données du deuxième passage pour la population échantillonnée et les résultats du premier passage pour la population restante, soit 80 % de la population) et les estimations du deuxième passage est faible pour la plupart des contraintes. Se reporter au tableau 7.2.2.2, au graphique 7.2.2.3 et au graphique 7.2.2.4 à la section 7.2.2, où sont comparés les résultats des premier et deuxième passages.

4.6  Différences entre les chiffres de population et les estimations pondérées finales

Les poids finaux des ménages sont générés de manière à ce que les chiffres de population correspondent aux estimations pondérées pour le plus grand nombre de caractéristiques possible. Parmi les caractéristiques qui sont disponibles dans les questionnaires complet et abrégé et qu'on cherche à uniformiser, mentionnons les groupes d'âge quinquennaux, le sexe, l'état matrimonial, l'union libre, la taille du ménage et le type de logement. Le processus de pondération vise à neutraliser les différences entre la population et les estimations au niveau de la région de pondération (RP), qui contient généralement de 1 000 à 3 000 logements susceptibles d'être échantillonnés. Il existe certaines raisons qui expliquent pourquoi les estimations de l'échantillon peuvent être différentes des chiffres de population, surtout dans le cas des petites régions. Les principales sont énumérées ci-dessous :

  1. Contraintes éliminées pendant le processus de régression : comme mentionné à la section 4.4, les contraintes peuvent être éliminées parce qu'elles ont des poids aberrants, qu'elles ont de petits chiffres ou qu'elles sont linéairement dépendantes ou quasi linéairement dépendantes. Les contraintes qui sont éliminées ne font pas l'objet d'un contrôle et comportent habituellement une certaine différence entre les chiffres et les estimations de population.
  2. Sous-régions de pondération : la région de pondération est la plus petite région géographique pour laquelle le système de pondération cherche à obtenir une correspondance entre les chiffres de population et les estimations pondérées pour le plus grand nombre de variables auxiliaires possible. Par conséquent, dans les petites régions qui font partie des RP (comme les AD ou les très petites municipalités), on observera habituellement des incohérences entre les chiffres de population et les estimations pondérées. 

4.7  Les différents univers

Il existe trois types d'univers du recensement distincts pour lesquels les données du recensement peuvent être observées :

  1. Logements privés : ménages privés et unités composés de personnes âgées qui ont fait l'objet d'un échantillonnage. Ces ménages ont servi à la création des poids finaux au niveau des ménages. La majorité des renseignements qui figurent dans la présente publication correspondent à l'univers des logements privés.

  2. Logements privés et logements collectifs non institutionnels : ménages privés, unités composées de personnes âgées et logements collectifs non institutionnels visés par l'échantillon, et ménages privés et unités composées de personnes âgées des UC non échantillonnées. Étant donné que les personnes supplémentaires de cet univers ont toutes reçu un questionnaire complet, les données du questionnaire 2B sont disponibles. Cet univers est utilisé dans toutes les publications du recensement au sujet des variables échantillonnées.

  3. Logements privés et collectifs : tous les ménages privés et les unités composées de personnes âgées (faisant partie ou non de l'échantillon), ainsi que tous les logements collectifs (en logements institutionnels et non institutionnels). Les résidents des logements collectifs institutionnels répondent au questionnaire abrégé. Par conséquent, aucunes données échantillonnées ne sont disponibles. Pour cette raison, cet univers au complet est utilisé dans toutes les publications du recensement au sujet des variables de base (question posée sur les questionnaires abrégés et complets), mais il ne peut pas être utilisé pour les publications échantillonnées.

La population des logements collectifs institutionnels représente une partie des différences qui seront observées par quelqu'un qui compare une publication 2B avec une publication 2A. Les comptes et les estimations pour les trois univers mentionnés précédemment se trouvent au tableau 7.2.2.3.

Notes:

  1. « Sans biais » veut dire que la moyenne des estimations de l'ensemble de tous les échantillons possibles serait égale à la valeur vraie de la population.

Page précédente   Page précédente | Table des matières | Page suivante  Page suivante