2024-08-08 02:37:32
Abstrait
Les modèles de transformateurs ont obtenu d’excellents résultats dans diverses tâches, principalement en raison du mécanisme d’auto-attention. Nous explorons l’utilisation de l’auto-attention pour détecter les séquences de coronavirus dans les données de séquençage à haut débit, offrant une nouvelle approche pour identifier avec précision les souches de coronavirus émergentes et très variables. Les données sur le coronavirus et le génome humain ont été obtenues à partir des bases de données Genomic Data Commons (GDC) et du National Genomics Data Center (NGDC). Après le prétraitement, un ensemble de données de séquençage à haut débit simulé d’échantillons infectés par le coronavirus a été construit. Cet ensemble de données a été divisé en ensembles de données d’entraînement, de validation et de test. Le modèle basé sur l’auto-attention a été formé sur les ensembles de données d’entraînement, testé sur les ensembles de données de validation et de test, et les données du génome du SARS-CoV-2 ont été collectées en tant qu’ensembles de données de test indépendants. Les résultats ont montré que le modèle basé sur l’auto-attention surpassait les méthodes bioinformatiques traditionnelles en termes de performances sur les ensembles de données de test et de test indépendants, avec une amélioration significative de la vitesse de calcul. Le modèle basé sur l’auto-attention peut détecter de manière sensible et rapide les séquences de coronavirus à partir de données de séquençage à haut débit tout en présentant une excellente capacité de généralisation. Il peut détecter avec précision les souches de coronavirus émergentes et très variables, offrant ainsi une nouvelle approche pour identifier ces virus.
Déclaration d’intérêts concurrents
Les auteurs n’ont déclaré aucun conflit d’intérêt.
Déclaration de financement
Cette étude n’a reçu aucun financement.
Déclarations de l’auteur
Je confirme que toutes les directives éthiques pertinentes ont été suivies et que toutes les approbations nécessaires du comité d’éthique et/ou de l’IRB ont été obtenues.
Oui
Je confirme que tous les consentements nécessaires des patients/participants ont été obtenus et que les formulaires institutionnels appropriés ont été archivés, et que les identifiants des patients/participants/échantillons inclus n’étaient connus de personne (par exemple, du personnel de l’hôpital, des patients ou des participants eux-mêmes) en dehors du groupe de recherche et ne peuvent donc pas être utilisés pour identifier des individus.
Oui
Je comprends que tous les essais cliniques et toutes les autres études interventionnelles prospectives doivent être enregistrés auprès d’un registre approuvé par l’ICMJE, tel que ClinicalTrials.gov. Je confirme que toute étude de ce type mentionnée dans le manuscrit a été enregistrée et que l’identifiant d’enregistrement de l’essai est fourni (remarque : si vous publiez une étude prospective enregistrée rétrospectivement, veuillez fournir une déclaration dans le champ ID de l’essai expliquant pourquoi l’étude n’a pas été enregistrée à l’avance).
Oui
J’ai suivi toutes les directives appropriées en matière de rapports de recherche, telles que les listes de contrôle pertinentes en matière de rapports de recherche du réseau EQUATOR et tout autre document pertinent, le cas échéant.
Oui
Disponibilité des données
Toutes les données produites sont disponibles en ligne sur.
#Modèle #dapprentissage #profond #basé #sur #lautoattention #pour #prédire #les #séquences #coronavirus #partir #données #séquençage #haut #débit
1723084365