Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Avertissement Consulter la version la plus récente.

Contenu archivé

L'information indiquée comme étant archivée est fournie aux fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

3. Traitement des données

3.1 Généralités

3.1.1 Réception et enregistrement

3.1.2 Imagerie et saisie des données à partir des questionnaires papier

3.1.3 Contrôles et suivi des questionnaires rejetés

3.1.4 Codage automatisé

3.1.5 Contrôle et imputation

3.1.6 Pondération

3.2 Peuples autochtones – Traitement

3.2.1 Codage des réponses écrites à la question sur l'appartenance ou à une Première nation

3.2.2 Contrôle et imputation

3.2.3 Impact du contrôle et de l’imputation

3.1 Généralités

L’étape de traitement du recensement a débuté par la conversion des réponses, en données significatives. Cette partie du cycle du recensement comporte six activités principales :

  • Réception et enregistrement
  • Imagerie et saisie des données à partir des questionnaires papier
  • Contrôles et suivi des questionnaires rejetés au contrôle
  • Codage automatisé
  • Contrôle et imputation
  • Pondération

3.1.1 Réception et enregistrement

Les répondants ayant rempli un questionnaire papier reçu par la poste l’ont retourné à un centre de traitement des données centralisé.

Les questionnaires des secteurs de recensement par interview ont été remplis par des agents recenseurs et envoyés au centre de traitement des données.

Les réponses obtenues par Internet ou par l’assistance téléphonique du recensement ont été reçues directement par le centre de traitement des données et leur réception a été enregistrée automatiquement.

L’enregistrement de chaque questionnaire renvoyé par la poste a été indiqué dans le Système de contrôle principal de Statistique Canada. Environ 10 jours après le jour du recensement, le Système de contrôle principal a produit une liste de tous les logements pour lesquels aucun questionnaire n’avait été reçu et cette liste a été transmise aux opérations sur le terrain aux fins de suivi. Une mise à jour quotidienne de l’enregistrement a été envoyée aux opérations sur le terrain, afin d’éviter le suivi dans le cas des ménages ayant rempli le questionnaire par la suite (par courrier, par téléphone ou par Internet).

3.1.2 Imagerie et saisie des données à partir des questionnaires papier

Le Recensement de 2006 a été le premier recensement du Canada pour lequel la saisie des données a fait appel à des technologies automatisées plutôt qu’à une entrée manuelle.

Étapes de l’imagerie :

  • Préparation des documents – Les questionnaires renvoyés par la poste ont été sortis des enveloppes et le matériel superflu (p. ex., les trombones et les agrafes) a été enlevé en vue de la numérisation. Les questionnaires, sous forme de cahier, ont été passés au massicot afin d'être séparés en feuilles isolées.
  • Numérisation – La numérisation, au moyen de 18 scanners à haute vitesse, a converti le papier en images numériques (photo).
  • Processus automatisé d’assurance de la qualité des images – Un système automatisé a vérifié la qualité de la numérisation. Les images rejetées ont été étiquetées en vue d’une nouvelle numérisation ou d'une saisie des données à partir du questionnaire papier.
  • Saisie automatisée des données – Les technologies de reconnaissance optique des marques et de reconnaissance optique des caractères ont été utilisées pour extraire les données des répondants à partir des images. Lorsque les systèmes ne pouvaient pas reconnaître l’écriture avec suffisamment d’exactitude, la reconnaissance de l'écriture manuscrite était assurée par un opérateur en saisie de données du recensement.
  • Retrait – Une fois les questionnaires traités conformément aux étapes ci‑dessus, les questionnaires papier ont été retirés du système. Le retrait est un processus d’assurance de la qualité permettant de faire en sorte que les images et les données saisies soient de qualité suffisante pour que les questionnaires papier ne soient plus nécessaires pour le traitement subséquent. Les questionnaires ayant été étiquetés parce qu’ils renfermaient des erreurs ont été enlevés au moment du retrait et traités de nouveau au besoin.

3.1.3 Contrôles et suivi des questionnaires rejetés

À cette étape, plusieurs contrôles automatisés ont été effectués relativement aux données des répondants. Ces contrôles simulaient les contrôles effectués à la main par des agents recenseurs lors de recensements précédents. Ils ont permis de vérifier l’intégralité des réponses, ainsi que la couverture (p. ex., le nombre de personnes dans le ménage).

Les données des questionnaires faisant l’objet d’un rejet au contrôle ont été transmises à un préposé au dépouillement aux fins de vérification en fonction de l’image, le cas échéant (les questionnaires remplis en ligne n’avaient pas d’image). Dans le cas de plusieurs questionnaires reçus pour un même ménage, les questionnaires ont également été vérifiés à cette étape pour déterminer s’il s’agissait de doubles (p. ex., un mari ayant rempli la version Internet, alors que sa femme a rempli la version papier et l’a envoyée par la poste).

Lorsque le préposé au dépouillement n’était pas en mesure de corriger l’erreur ou lorsqu’il y avait trop de réponses manquantes, les données ont été transmises au service d’assistance téléphonique du recensement aux fins de suivi. Un intervieweur a téléphoné au répondant pour régler les problèmes de couverture, le cas échéant, et pour obtenir les données manquantes grâce à une interview téléphonique assistée par ordinateur. Les données ont ensuite été retournées au Centre de traitement des données aux fins de réintégration au système et de traitement subséquent.

Les questionnaires ne font pas l’objet d’un contrôle ou d’un suivi automatisé dans les secteurs de recensement par interview.

3.1.4 Codage automatisé

Les questionnaires complets 2B et 2D renfermaient des questions dont les réponses pouvaient être cochées à partir d’une liste, ainsi que des questions nécessitant une réponse écrite de la part du répondant dans les cases prévues à cette fin. Ces réponses écrites ont fait l’objet d’un codage automatisé pour associer à chacune un code numérique, au moyen de fichiers de référence, d’ensembles de codes et de classifications types de Statistique Canada. Des fichiers de référence pour le processus de couplage automatisé ont été créés au moyen des réponses obtenues lors des recensements précédents. Des préposés au codage et des experts dûment formés ont réglé les cas où il était impossible d’attribuer un code automatiquement. Voici les variables auxquelles s’appliquaient le codage : Lien avec la Personne 1, Lieu de naissance, Citoyenneté, Langue non officielle, Langue parlée à la maison, Langue maternelle, Origine ethnique, Groupe de population, Bande indienne/Première nation, Lieu de résidence un an auparavant, Lieu de résidence cinq ans auparavant, Principal domaine d’études, Lieu des études, Lieu de naissance des parents, Langue utilisée au travail, Industrie, Profession et Lieu de travail.

Plus de 40 millions de réponses écrites ont été codées à partir des questionnaires complets de 2006 et environ 75 % de ces réponses ont été codées automatiquement.

3.1.5 Contrôle et imputation

Les données recueillies dans le cadre d’une enquête ou d’un recensement donnent lieu à certaines omissions ou incohérences. Ces erreurs peuvent être attribuables au fait que les répondants n’ont pas répondu à toutes les questions ou peuvent être attribuables à des erreurs commises au moment du traitement. Ainsi, un répondant peut être réticent à répondre à une question, peut ne pas se souvenir de la bonne réponse ou peut ne pas bien comprendre la question. Par ailleurs, le personnel du recensement peut coder les réponses incorrectement ou commettre d’autres types d’erreurs au cours du traitement.

Après la saisie, le contrôle de l’intégralité et de la couverture, les corrections et le codage ont été complétés, les données ont été traitées jusqu’au moment du processus final de contrôle et d’imputation, une opération qui est presque entièrement automatisée. De façon générale, le processus de contrôle permet de déceler les erreurs, alors que le processus d’imputation permet de les corriger.

3.1.6 Pondération

Tout comme lors des recensements précédents, les questions sur l’âge, le sexe, l’état matrimonial, la langue maternelle et le lien avec la Personne 1 ont été posées à toute la population. Dans les secteurs de recensement par interview, où l’on a utilisé la formule 2D (questionnaire du Nord et des réserves), on a posé toutes les questions du recensement à toute la population. Cependant, dans le reste du Canada, la majorité des données du recensement ont été obtenues à partir d’un échantillon de 20 % faisant appel aux questions supplémentaires du questionnaire 2B. On a utilisé la pondération pour extrapoler à l’ensemble de la population les données recueillies dans le cas de l’échantillon de 20 %.

La méthode de pondération fournit des estimations entièrement représentatives pour l’échantillon de 20 % et maximise la qualité des estimations de l’échantillon.

La pondération utilisée dans le cadre du Recensement de 2006 était la même que lors du Recensement de 2001, soit l’estimation par calibrage. On a d’abord attribué des poids initiaux d’environ 5 et ces poids ont été rajustés en fonction du plus petit nombre qui permet de faire correspondre aussi près que possible les estimations de l’échantillon (p. ex., nombre d’hommes, nombre de personnes âgées de 15 à 19 ans) et les chiffres de population pour plusieurs caractéristiques relatives à l’âge, au sexe, à l’état matrimonial, à l’union libre et à la taille du ménage.

Il s’agissait là de la dernière étape de traitement en vue de la création de la base de données du Recensement de 2006, la source de données pour l’ensemble des publications, tableaux et produits personnalisés.

3.2 Peuples autochtones – Traitement

3.2.1 Codage des réponses écrites à la question sur l'appartenance à une bande ou à une Première nation

Les réponses écrites en lettres dans le cas de la question portant sur les bandes indiennes/Premières nations ont été codées en fonction d’une liste de plus de 600 bandes indiennes/Premières nations. La proportion de réponses obtenues grâce à un codage automatisé était de 75 %. Les autres réponses ont été codées au moyen d’applications interactives conçues spécifiquement pour le codage des bandes indiennes/Premières nations. Les systèmes renfermaient plusieurs fichiers de référence, notamment un fichier prévoyant différentes orthographes pour les noms de bandes indiennes et les codes correspondants, ainsi qu’un fichier renfermant des codes géographiques pour les réserves indiennes, le nom des réserves indiennes et le nom des bandes indiennes affiliées à ces réserves1.

3.2.2 Contrôle et imputation

Le processus de contrôle et d’imputation utilisé En 2006 est essentiellement le même qu’en 2001 et en 1996. Le processus applicable aux variables autochtones avait été remanié en vue du Recensement de 1996, au cours duquel les trois questions actuelles concernant la population autochtone (18, 20 et 21) ont été posées pour la première fois.

En générale le processus de contrôle et d’imputation des données sur les Autochtones comporte deux aspects :

  • Attribuer des valeurs valides en cas de réponses manquantes ou non valides aux questions 18, 20 et 21. (Une réponse non valide désigne une réponse multiple qui n’est pas permise ou qui n’a aucun sens, notamment les réponses « oui » et « non » encerclées toutes les deux.)
  • Remplacer des réponses valides mais douteuses aux questions 18, 20 et 21 par des réponses qui sont plus raisonnables compte tenu des caractéristiques connues de la personne.

Deux types d’imputation ont été effectués dans le cas des données sur les Autochtones, soit une imputation déterministe et une imputation par enregistrement donneur. Une imputation déterministe consiste à attribuer des valeurs uniques dans le cas d’une réponse manquante ou non valide, soit en établissant des liens entre les caractéristiques personnelles soit, dans le cas d’enfants pour lesquels il n’y a pas de réponse, en utilisant les caractéristiques des parents pour combler les données manquantes. L’imputation par enregistrement donneur est effectuée en identifiant les particuliers d’une même région géographique qui présentent des caractéristiques semblables, mais complètes et cohérentes, puis en copiant les valeurs des particuliers choisis au hasard pour corriger les omissions ou les erreurs dans le cas des données « rejetées au contrôle ».

En raison des différences majeures en ce qui a trait au dénombrement des Autochtones vivant dans les réserves et hors réserve, ces deux sous-populations ont été traitées différemment. La population vivant dans les réserves a fait l’objet d’une imputation déterministe étant donné qu’il y avait de bonnes chances que les caractéristiques des personnes visées correspondent aux caractéristiques auxquelles on s’attend dans le cas d’une réserve (p. ex., statut d’indien inscrit et membre d’une bande indienne s’il y a une indication selon laquelle la personne est un Indien de l’Amérique du Nord). En revanche, les personnes vivant hors réserve ont fait l’objet d’un contrôle et d’une imputation par enregistrement donneur, afin d’éliminer les « fausses » réponses attribuables à une erreur de compréhension de la part du répondant et de compenser le taux de non-réponse élevé chez la population autochtone en raison du processus aléatoire d’imputation.

Au début du processus, des données auxiliaires ont été utilisées pour procéder à une imputation déterministe des données. Ces renseignements visaient la langue maternelle (question 16), le lieu de naissance (question 9), l’origine ethnique (question 17) et le groupe de population (question 19). Ces comparaisons visaient à corriger les réponses des personnes non autochtones qui se sont auto‑identifiées comme étant autochtones, notamment des Asiatiques du Sud et des Créoles ayant mal interprété le sens des termes « Indien » ou « Métis ». Grâce à l’utilisation de variables culturelles connexes, ces personnes pouvaient être identifiées et leurs réponses corrigées. Ainsi, une réponse positive à l’une des questions sur les Autochtones et l’un des éléments suivants peuvent signaler un problème : langue maternelle autre qu’une langue autochtone, le français ou l’anglais; origine ethnique autre que francophone, anglophone, autochtone ou canadienne; une réponse comme Asiatique du Sud ou Latino-américain à la question sur le groupe de population.

Le lieu de résidence était également un renseignement utile, surtout dans le cas d’une réserve indienne. La plupart des gens vivant dans une réserve indienne sont des Indiens inscrits et la réserve appartient à une bande indienne précise. Le « lien étroit » entre ces questions, qui permettent d’obtenir des renseignements auxiliaires par rapport aux questions sur les Autochtones, permet donc d’obtenir des renseignements utiles pour la vérification des données.

Un autre élément du processus vise la vérification de la cohérence entre les différentes questions liées aux Autochtones. Ainsi, en cas de réponse multiple non valide à la question 18, c’est‑à-dire « Non » et « Oui, Indien de l’Amérique du Nord », « Oui, Métis » ou « Oui, Inuit (Esquimau) », on doit vérifier les autres réponses de la personne pour savoir si elle a indiqué que sa langue maternelle est une langue autochtone, si elle a une origine autochtone ou si elle a répondu « Oui » à la question sur l’appartenance à une bande indienne ou le statut d’Indien inscrit. Si tel est le cas, la réponse « Non » est supprimée à la question 18.

Un autre type spécial d’imputation déterministe est l’attribution de la réponse d’un parent à un enfant. Si une réponse est manquante ou non valide dans le cas d’un enfant pour ce qui est d’une des questions liées aux Autochtones, la réponse du parent (si elle est valide) est attribuée à l’enfant. Dans le cas d’une famille comptant deux parents, la réponse de la mère (si elle est valide) est utilisée; sinon, c’est la réponse du père qui est utilisée.

Comme indiqué précédemment, l’imputation par enregistrement donneur consiste à trouver une personne présentant les mêmes caractéristiques et à copier ses données en cas de données manquantes ou erronées. L’imputation par enregistrement donneur est effectuée uniquement dans le cas des conjoints, des parents seuls et des personnes hors famille de recensement2 ne vivant pas dans une réserve. Dans le cas d’imputation par enregistrement donneur pour la question 21 (statut d’Indien inscrit), par exemple, un donneur potentiel doit vivre dans la même région géographique et présenter les mêmes caractéristiques que la personne pour laquelle les données sont manquantes ou incohérentes pour ce qui est du sexe, de la famille de recensement (c.‑à‑d. conjoint, parent seul ou une personne hors famille de recensement) et faire partie d’une bande ou d’une Première nation. De plus, on accorde la préférence aux donneurs potentiels du même âge et ayant répondu de la même façon à la question 18 (identité autochtone).

À la fin du processus de contrôle et d’imputation, certaines réponses attribuées grâce à l’imputation par enregistrement donneur ont été modifiées pour diverses raisons. Ainsi, certaines collectivités qui ne sont pas des réserves ou des établissements indiens ont quand même des affiliations connues avec des bandes indiennes. Si une réponse manquante ou non valide à la question portant sur l’appartenance à une bande indienne a été remplacée au moyen de l’imputation par enregistrement donneur, mais que la personne vivait dans une collectivité affiliée à une bande, la réponse imputée a été remplacée par la bande affiliée à cette collectivité.

En 2006, le taux total d’imputation dans le cas de l’imputation déterministe et de l’imputation par enregistrement donneur correspondait aux données ci‑après. (Il convient de signaler que tous les taux indiqués ci‑après et dans les tableaux suivants sont basés sur des chiffres non pondérés.) Le tableau indique que les taux étaient plus élevés dans le cas des collectivités vivant dans les réserves.

3.2.3 Impact du contrôle et de l’imputation

L’examen des données, de la saisie des données jusqu’à la finalisation, démontre qu’une faible proportion des réponses aux questions 18, 20 et 21 ont été modifiées par suite du processus de contrôle et d’imputation. Les tableaux ci‑après indiquent la répartition des réponses initiales à ces questions comparativement à la répartition des réponses après le contrôle et l’imputation. Tel que prévu, le processus a permis d’éliminer tous les cas de réponses laissées en blanc et toutes les réponses non valides, et de les remplacer par une quelconque réponse valide. Le principal point à signaler réside dans le fait que le processus n’a pas donné lieu à une modification de la répartition globale des réponses.

Notes :

  1. Statistique Canada tient à souligner l’expertise et l’aide reçue de la part d’Eric McGregor, d’Affaires indiennes et du Nord Canada, pour le codage des réponses portant sur les bandes indiennes/Premières nations lors du Recensement de 2006.
  2. Une « famille de recensement » désigne un couple marié (avec ou sans enfant d’un ou des deux conjoints), un couple vivant en union libre (avec ou sans enfant d’un ou des deux partenaires) ou un parent seul, (peu importe son état matrimonial) ayant au moins un enfant vivant dans le même logement.

Page précédente  Page précédente | Table des matières | Page suivante  Page suivante