Données
Nous avons analysé 742 807 enregistrements d’appels d’enquête effectués entre le 1er octobre 2020 et le 10 mai 2021. Dans notre étude, les cas confirmés incluent ceux identifiés par PCR ou tests antigéniques. Par ailleurs, conformément aux critères du Conseil d’État et des épidémiologistes territoriaux (CSTE) [25], les personnes qui répondent aux spécifications d’un cas probable sont également prises en compte dans nos enquêtes de cas. Cette approche garantit que notre analyse englobe une gamme complète de cas de COVID-19, à la fois confirmés et probables. Ces données ont été consultées le 10 mai 2021. Les informations clés de l’enquête sur les cas comprenaient la date de naissance des cas index, le code postal du domicile, l’heure de l’appel téléphonique et si l’entretien téléphonique a été terminé. Un consentement éclairé a été obtenu lors des appels téléphoniques entre les traceurs de contacts et les participants avant la collecte des informations de recherche de contacts, qui ont été documentées dans les enregistrements de recherche de contacts. Pour les participants mineurs, le consentement éclairé a été obtenu des parents ou tuteurs. L’utilisation de cet ensemble de données dans cette étude a été approuvée par le Comité d’examen institutionnel (IRB) de l’Université Columbia AAAT2182.
Le premier appel téléphonique passé par l’équipe Trace a été enregistré comme « tentative ». Si le cas index répondait à l’appel téléphonique, l’interaction était enregistrée comme « atteinte ». Les appels téléphoniques étaient marqués « terminés » si toutes les étapes obligatoires des entretiens étaient complétées. Une interaction enregistrée comme tentée ou atteinte, mais non terminée, est revenue dans la file d’attente pour une tentative d’appel plus tard dans la journée. Après trois tentatives infructueuses pour joindre une personne, le dossier a été envoyé dans une file d’attente des enquêtes spéciales, où une équipe d’engagement communautaire a travaillé pour joindre la personne soit par téléphone, par courrier électronique ou en personne. [26]. Avant qu’une équipe d’engagement communautaire ne tente une visite à domicile, les collecteurs d’informations ont effectué des recherches dans d’autres bases de données pour voir si des informations de contact supplémentaires pouvaient être trouvées. Il convient de noter que les enquêtes sur les cas de personnes de moins de 18 ans ont été réalisées par les parents ou tuteurs. De plus, Trace n’a pas mené d’entretiens avec des personnes vivant dans des maisons de retraite ou des établissements de soins de longue durée.
Nous avons utilisé plusieurs variables au niveau du code postal pour cette analyse, notamment la taille de la population totale, le pourcentage de résidents noirs, le pourcentage de résidents hispaniques, le revenu annuel médian des ménages, le pourcentage de résidents titulaires d’un baccalauréat et la taille moyenne des ménages. Ces covariables ont été sélectionnées pour représenter les variations démographiques et socio-économiques dans les zones du code postal de New York. Les données ont été compilées à partir de l’American Community Survey (ACS) sur cinq ans. [27]. Nous avons téléchargé les estimations 2020 pour ces variables à l’aide du package R Tidycensus (27) le 10 mai 2021.
Modèle de régression
Pour chaque enquête de cas, les informations disponibles comprenaient l’âge du cas index, le code postal du domicile et l’heure de la journée de l’appel téléphonique. Pour fournir des variables explicatives supplémentaires, nous avons inclus plusieurs caractéristiques au niveau du code postal. Ces variables au niveau du code postal, bien que ne reflétant pas nécessairement la condition exacte de chaque cas index, représentent le statut démographique et socio-économique possible de l’individu, ce qui peut différencier le taux d’achèvement selon les zones de code postal. Nous avons défini trois tranches d’âge ((agele 24 ans (jeunesse)), (24 ans< agele 65 years old (young adults)), and (age > 65 ans (seniors))et quatre intervalles de temps d’appel téléphonique ((9hle T<12h), (12hle T<15h), (15hle T<18h), et (18hle Tle 21h)). Un modèle de régression log binomial a été ajusté au statut d'achèvement binaire pour chaque enquête de cas (i), en contrôlant les conditions démographiques et socio-économiques dans la zone de code postal ({l}_{i}) où résidait le cas index. Plus précisément, le modèle est décrit par l’équation suivante :
$$logleft({p}_{i}right)={beta }_{0}+{beta }_{1}times %Black résidentleft({l}_{i }right)+{beta }_{2}times %Hispanic résidentleft({l}_{i}right)+ {beta }_{3}times médian ménage revenu gauche({l}_{i}right)+{beta }_{4}times %bachelo{r}{prime}s degréleft({l}_{i}right)+ {beta }_{5}times moyenne ménage tailleleft({l}_{i}right)+{beta }_{6}times ag{e}_{seniorleft(i right)}+{beta }_{7}times ag{e}_{youthleft(iright)}+{beta }_{8}times call heure left(9 am le {T}_{i}<12hright)+{beta }_{9}times call time left(15hle {T}_{i}<18hright)+{ beta }_{10}times call time left(18hle {T}_{i}le 21hright)+{varepsilon }_{i}. (1)$$
Ici ({p}_{i}) est la probabilité d’achèvement de l’enquête de cas (i), ({beta }_{0}) est l’interception et ({varepsilon }_{ i}) est le terme d’erreur. Notez que nous avons utilisé une référence implicite pour l’heure des appels téléphoniques – (12 pmle T<15 pm). Les variables explicatives continues ont été standardisées (moyenne zéro et variance un) avant d'exécuter le modèle de régression pour tenir compte des différentes échelles de variables (par exemple, pourcentage de la population par rapport au revenu du ménage).
Modèle prédictif
Même si les modèles de régression conviennent à l’interprétation des effets des variables explicatives, ils présentent souvent des limites en termes de prédiction dans les applications pratiques. Nous avons complété notre approche en expérimentant un modèle de forêt aléatoire. Cette décision a été motivée par la nécessité de disposer d’un outil plus pragmatique et prédictif, notamment pour prévoir l’heure optimale de la journée pour un appel téléphonique. Bien que le modèle de régression fournisse des informations précieuses, il recommande souvent une plage limitée de durée d’appel. En expérimentant plusieurs approches d’apprentissage automatique, nous avons constaté que le modèle de forêt aléatoire permettait d’identifier une plage d’heures d’appel téléphonique plus large et plus uniformément répartie, capturant plus efficacement les subtilités non linéaires de nos données.
Nous avons utilisé un modèle de forêt aléatoire [28] pour prédire le taux d’achèvement le plus élevé d’une enquête sur un cas en fonction de l’heure de la journée de l’appel téléphonique. En raison de la disponibilité limitée de variables au niveau individuel, il est difficile de prédire l’état d’avancement de chaque enquête de cas. Nous avons donc modifié l’objectif de prévision en adoptant le taux d’achèvement moyen des enquêtes menées pour un certain groupe d’âge au cours d’un intervalle de temps dans chaque zone de code postal. Nous avons défini trois tranches d’âge ((agele 24 ans), (24 ans < agele 65 years old), and (age>65 ans)) et quatre intervalles de temps d’appel ((9hle T<12h), (12hle T<15h), (15hle T<18h ), et (18hle Tle 21h)). L'objectif de prédiction a été défini comme les taux d'achèvement moyens dans tous les groupes de temps d'appel d'âge ZIP, ({y}_{zip,age,call time}). En plus des groupes d'âge et des intervalles de temps d'appel, nous avons inclus les variables démographiques et socio-économiques au niveau du code postal dans l'équation. (1) pour les cas index comme prédicteurs dans le modèle de forêt aléatoire.
Nous avons sélectionné au hasard 80 % des appels d’enquête de cas comme données de formation et conservé les 20 % restants pour une validation hors échantillon. À l’aide des 80 % d’enregistrements sélectionnés, nous avons formé le modèle de forêt aléatoire en utilisant une validation croisée décuplée dans le but de minimiser le RMSE (erreur quadratique moyenne) pour les taux d’achèvement moyens. La forêt aléatoire optimisée était composée de 500 arbres de décision, chacun avec un prédicteur sélectionné au hasard. Les nœuds des arbres de décision ont été divisés en utilisant la règle de variance (c’est-à-dire en choisissant le point de coupure des valeurs de prédicteur minimisant la somme des variances des échantillons divisés) sous la contrainte que chaque nœud nouvellement créé contienne au moins cinq échantillons. D’autres approches d’apprentissage automatique telles que l’arbre de régression et la régression linéaire nette élastique ont également été testées. Le modèle de forêt aléatoire a montré des performances supérieures avec un RMSE similaire mais une variation plus faible en termes d’erreur de prédiction (c’est-à-dire des prédictions plus robustes). En conséquence, nous avons présenté les résultats du modèle de forêt aléatoire comme principales conclusions.
Nous avons quantifié l’importance de chaque variable dans le modèle de forêt aléatoire en examinant la dégradation de la précision des prédictions, mesurée par RMSE, après que la variable ait été permutée de manière aléatoire parmi toutes les données d’entraînement. Nous avons effectué 20 permutations indépendantes (réplications de Monte Carlo) et obtenu les distributions de dégradation – la permutation d’une variable importante entraînerait une augmentation plus importante du RMSE.
Expérience contrefactuelle
Nous avons mené une expérience contrefactuelle en utilisant le modèle de prévision aléatoire pour évaluer l’amélioration potentielle du taux d’achèvement. Nous avons divisé les données en ensembles de formation et de test. 80 % des appels d’enquête de cas ont été utilisés comme données de formation et les 20 % restants ont été conservés pour une validation hors échantillon. Tout d’abord, nous avons formé un modèle de forêt aléatoire à l’aide des données de formation. Ensuite, pour les données de test, nous avons créé des permutations avec 4 plages horaires, ce qui signifie que chaque individu a été répliqué 4 fois avec des plages horaires différentes. Cela a abouti à 3 lignes contrefactuelles pour chaque appel individuel. Nous avons utilisé notre modèle de forêt aléatoire entraînée pour prédire le taux d’achèvement de ces lignes contrefactuelles. Par conséquent, chaque ligne a reçu un taux d’achèvement prévu par le modèle. Nous avons traité la durée d’appel avec le taux d’achèvement prévu par le modèle le plus élevé comme étant la meilleure durée d’appel prévue par le modèle. Nous avons ensuite classé les données de test du monde réel (en supprimant toutes les lignes contrefactuelles ajoutées) en deux groupes : le premier groupe était composé d’individus dont l’heure d’appel réelle correspondait aux plages horaires prévues. Le deuxième groupe comprenait des personnes dont l’heure d’appel réelle ne correspondait pas aux plages horaires prévues. Nous avons calculé le taux d’achèvement pour chaque groupe et comparé les résultats des deux groupes.
2024-02-09 05:39:07
1707448717
#Évaluation #des #taux #réussite #des #enquêtes #recherche #des #contacts #COVID19 #York #Santé #publique #BMC