A Tandem Segmentation-Classification Approach For The Localization of Morphological Predictors of C. Elegans Lifespan and Motility

Sep 26, 2022

Παρακαλώ επικοινώνησεoscar.xiao@wecistanche.comΓια περισσότερες πληροφορίες


Αφηρημένη

Ο C. elegans είναι ένας καθιερωμένος οργανισμός πρότυπο για τη μελέτη γενετικών και φαρμάκων επιδράσεων στη γήρανση, πολλά από τα οποία διατηρούνται στον άνθρωπο. Είναι επίσης ένα ουσιαστικό μοντέλο για τη βασική έρευνα, και οι παθολογίες του C. elegans είναι ένα νεοεμφανιζόμενο πεδίο. Εδώ αναπτύσσουμε μια βασισμένη σε συνελικτικό νευρωνικό δίκτυο πλατφόρμα απόδειξης της κύριας για την τμηματοποίηση του C. elegans και την εξαγωγή χαρακτηριστικών που μπορεί να είναι χρήσιμες για την πρόβλεψη της διάρκειας ζωής. Χρησιμοποιούμε ένα σύνολο δεδομένων 734 σκουληκιών που παρακολουθούνται σε όλη τη διάρκεια ζωής τους και ταξινομούμε τα σκουλήκια σε μακρόβια και βραχύβια. Σχεδιάσαμε το WormNet- ένα συνελικτικό νευρωνικό δίκτυο (CNN) για την πρόβλεψη της τάξης της διάρκειας ζωής των σκουληκιών με βάση εικόνες νεαρών ενηλίκων (ημέρα 1-ημέρα 3η ηλικιωμένοι) και δείξαμε ότι το WormNet, επίσης, το InceptionV3 CNN μπορεί να ταξινομήσει με επιτυχία τη διάρκεια ζωής. Με βάση την αρχιτεκτονική U-Net, αναπτύσσουμε HydraNet CNN που επιτρέπουν την τμηματοποίηση των σκουληκιών με ακρίβεια σε πρόσθια, μεσαία και οπίσθια μέρη του σώματος. Συνδυάζουμε την τμηματοποίηση HydraNet, την πρόβλεψη WormNet και την προσέγγιση του χάρτη ενεργοποίησης κλάσης για να προσδιορίσουμε τα τμήματα που είναι πιο σημαντικά για την ταξινόμηση της διάρκειας ζωής. Μια τέτοια προσέγγιση διαδοχικής κατάτμησης-ταξινόμησης δείχνει ότι το οπίσθιο τμήμα του σκουληκιού μπορεί να είναι πιο σημαντικό για την ταξινόμηση των μακρόβιων σκουληκιών. Η προσέγγισή μας μπορεί να είναι χρήσιμη για την επιτάχυνση της ανακάλυψης αντιγηραντικών φαρμάκων και για τη μελέτη των παθολογιών του C. elegans.

KSL03

Κάντε κλικ εδώ για να μάθετε περισσότερα

ΕΙΣΑΓΩΓΗ

Ο νηματώδης Caenorhabditis elegans (C. elegans) είναι ένα καθιερωμένο μοντέλο για τη μελέτη διαφόρων παρεμβάσεων στη διαδικασία της γήρανσης, που επέτρεψε την εύρεση πολυάριθμων γονιδίων και φαρμάκων που παρεμβαίνουν στη γήρανση. 5 από τα 7 αντιγηραντικά φάρμακα Βαθμίδας 1 και 4 από 6 Βαθμίδα 2 που θεωρούνται για δοκιμές σε ανθρώπους παρατείνουν τη διάρκεια ζωής στο μοντέλο C. elegans.cistanche แอ ม เว ย์Υπάρχουν πολλά μονοπάτια γήρανσης που διατηρούνται μεταξύ των ειδών και τα σκουλήκια αναμένεται να χρησιμοποιηθούν εκτενώς όχι μόνο στην έρευνα για τη μακροζωία αλλά και στην εμφανιζόμενη βιομηχανία αντιγήρανσης [1]. Επιπλέον, τα εξανθρωπισμένα σκουλήκια χρησιμοποιούνται τώρα για τη δημιουργία πολλά υποσχόμενων μοντέλων νευροεκφυλισμού [2]. Ωστόσο, σε αντίθεση με τη γενετική της μακροζωίας, οι φαινότυποι γήρανσης του C. elegans δεν έχουν μελετηθεί ακόμη καλά. Ειδικότερα, γνωρίζουμε ελάχιστα για τις παθολογίες που σχετίζονται με την ηλικία και την ανάπτυξή τους, καθώς και για το ποιες παθολογίες καθορίζουν τη διάρκεια ζωής και πώς προκαλούν το θάνατο [3]. Αρκετές παθολογίες συμπεριλαμβανομένης της ατροφίας του εντέρου, των όγκων της μήτρας και της λοίμωξης του φάρυγγα περιγράφηκαν πρόσφατα [4-6]. Υπό αυτό το πρίσμα, η ανακάλυψη νέων παθολογιών του C. elegans, ιδιαίτερα ο καθορισμός της διάρκειας ζωής, γίνεται μια σημαντική πρόκληση. Η μελέτη παθολογιών στο C. elegans μπορεί να βοηθήσει στην καλύτερη κατανόηση της διαδικασίας γήρανσης, καθώς και των μηχανισμών και των επιδράσεων των αντιγηραντικών φαρμάκων.

KSL04

το cistanche μπορεί να αντιγηρανθεί

Οι πρόσφατες εξελίξεις στη μηχανική μάθηση (ML) και τη βαθιά μάθηση (DL)[7] μπορεί να βοηθήσουν τις μελέτες γήρανσης που χρησιμοποιούν το C.elegans, αποκαλύπτοντας και συνοψίζοντας προηγουμένως αόρατα συμπεριφορικά και μορφολογικά μοτίβα σε μεγάλα πειραματικά σύνολα δεδομένων. Για παράδειγμα, σε μια πρόσφατη εργασία πολλές φυσιολογικές παράμετροι μετρήθηκαν διαμήκως και μια εφαρμογή της παλινδρόμησης του φορέα υποστήριξης επέτρεψε να εξηγήσει τη διαφορετική ποσότητα διακύμανσης στη διάρκεια ζωής του C. elegans με: κίνηση (57 τοις εκατό ), εγκάρσια τομήαυτοφθορισμός (52 τοις εκατό ), ποσοστό ωοτοκίας (28 τοις εκατό )[8]. Είναι ενδιαφέρον ότι βρέθηκε ότι το μέγεθος του γόνου συσχετίζεται με τη διάρκεια ζωής σε ζευγαρωμένους ερμαφρόδιτους (r=0.28)[9]. Επιπλέον, ανεξάρτητες μελέτες επιβεβαιώνουν ότι η μυϊκή λειτουργία είναι πιθανώς το καλύτερο προγνωστικό φυσιολογικό χαρακτηριστικό: το γρήγορο εύρος άντλησης του φάρυγγα (r=0.49) και το εύρος άντλησης του φάρυγγα (r=0.83) βρέθηκαν να είναι συσχετίζεται σε μεγάλο βαθμό με τη διάρκεια ζωής [10]. Επίσης, η μέγιστη ταχύτητα την ημέρα 9[11] και ο ρυθμός μείωσης της ταχύτητας (ημέρες 3-9)[12] προβλέπουν το 71 τοις εκατό και το 91 τοις εκατό της μεταβλητότητας στη διάρκεια ζωής αντίστοιχα. Ανακαλύφθηκαν επίσης κυτταρικοί και μοριακοί προγνωστικοί παράγοντες της διάρκειας ζωής του C. elegans. Η έκφραση του hsp-16.2 που προκαλείται από θερμικό σοκ σε ενήλικες της 1ης ημέρας βρέθηκε να συσχετίζεται με τη διάρκεια ζωής [13]. Χωρίς συγχυτικές επιδράσεις παρεμβάσεων όπως θερμικό σοκ, η βασική έκφραση του χλοοτάπητα-3 την 9η ημέρα συσχετίστηκε επίσης με τη διάρκεια ζωής (r=0.57), η οποία πιθανώς αντανακλά την απόκριση σε παθογόνα τρόφιμα [14]. Η έκφραση Mir-71 από την 4η ημέρα και μετά μπορεί να είναι εξαιρετικά προγνωστική και εξηγεί το 47 τοις εκατό της μεταβλητότητας στη διάρκεια ζωής [15]. Εντυπωσιακά, μια ισχυρή αντίστροφη συσχέτιση (r =-0.93) μεταξύ του μεγέθους του πυρήνα (που μετρήθηκε την ημέρα 1) και της μακροζωίας υποδηλώνει την απορυθμισμένη πρωτεϊνική σύνθεση ως σημαντικό συστατικό της γήρανσης[16]. Αξίζει να σημειωθεί ότι από νωρίς εφαρμόστηκε επίσης μια προσέγγιση Machine Vision για την ταξινόμηση των φαινοτύπων γήρανσης στο C. elegans. Ιδιαίτερα, χρησιμοποιήθηκε γραμμικός διαχωριστής ταξινομητής για τον διαχωρισμό εικόνων φάρυγγων διαφορετικών ηλικιών για μετέπειτα μοριακό χαρακτηρισμό [17].

KSL05

Μεταξύ άλλων μεθόδων, μία από τις πιο ισχυρές προσεγγίσεις μηχανικής μάθησης, ιδιαίτερα για αναλύσεις εικόνας, είναι η χρήση συνελικτικών νευρωνικών δικτύων (CNN)[18], τα οποία είναι εμπνευσμένα από την οργάνωση νευρωνικών δικτύων οπτικού φλοιού. Το CNN επέτρεψε να επιτύχει εντυπωσιακά αποτελέσματα στην αναγνώριση εικόνων, με σχεδόν ανθρώπινη απόδοση στο σύνολο δεδομένων MNIST και ξεπέρασε τους ανθρώπους στην αναγνώριση σημάτων κυκλοφορίας κατά δύο φορές [19]. Το CNN έδειξε επανειλημμένα τις καλύτερες επιδόσεις κατά τη διάρκεια της «Πρόκλησης οπτικής αναγνώρισης μεγάλης κλίμακας ImageNet» στην ταξινόμηση εικόνων [20,21].πόση στάμπα να πάρειςΗ εισαγωγή παραλειφθέντων συνδέσεων στο CNN βελτίωσε δραματικά την ταχύτητα και την ακρίβειά τους, και τέτοια υπολειμματικά CNN είναι πλέον τελευταίας τεχνολογίας για ταξινόμηση εικόνων [22, 23]. Τα υπολειμματικά δίκτυα κωδικοποιητή-αποκωδικοποιητή όπως το U-Net [24], το V-Net και το Tiramisu υπερτερούν επίσης των κλασικών μεθόδων εξαγωγής ορίων, κατωφλίου και περιοχής που χρησιμοποιούνται στο πεδίο τμηματοποίησης ιατρικής εικόνας [25]. Παρά τα εντυπωσιακά αποτελέσματα με τις προσεγγίσεις DL, ένα από τα κύρια μειονεκτήματα είναι ότι τα δίκτυα DL είναι μαύρα κουτιά, επομένως είναι δύσκολο να αποκτηθούν τα χαρακτηριστικά που είναι σημαντικά για τη λήψη αποφάσεων από το δίκτυο [26]. Για να παρακαμφθεί αυτό το μειονέκτημα, έχουν προταθεί αρκετές τεχνικές εξέχουσας σημασίας [27-29]. Μια τέτοια τεχνική είναι η χρήση του παγκόσμιου μέσου επιπέδου συγκέντρωσης για την παραγωγή ενός αποκαλούμενου χάρτη ενεργοποίησης κλάσης (CAM) και τον εντοπισμό περιοχών εικόνας για συγκεκριμένες κατηγορίες με τρόπο χωρίς επίβλεψη [30]. Τα παραγόμενα γενικά εντοπισμένα βαθιά χαρακτηριστικά μπορούν να βοηθήσουν τους ερευνητές να κατανοήσουν τη βάση της διάκρισης που χρησιμοποιείται από τα CNN για τα καθήκοντά τους. Ωστόσο, μέχρι στιγμής, δεν έχουν αναπτυχθεί προσεγγίσεις που να συνδυάζουν βιολογικά σημαντική κατάτμηση εικόνων και υψηλές ταξινομήσεις για να διευκολύνουν την ανακάλυψη φαινοτύπων μέσω της ερμηνείας.

KSL06

Είναι αξιοσημείωτο ότι το CNN χρησιμοποιήθηκε πρόσφατα για να προβλέψει τη διάρκεια ζωής των σκουληκιών. Στην πρώτη εργασία χρησιμοποιήθηκε ένα σύνολο δεδομένων 913 εικόνων του C. elegans. Κάθε χρονικό σημείο (ημέρα) έχει τουλάχιστον 30 σκουλήκια και όλοι τους αναισθητοποιήθηκαν πριν από την απεικόνιση. Η αρχιτεκτονική βασισμένη στο InceptionResNetV2-πέτυχε μέσο απόλυτο σφάλμα (MAE) 0,96 ημερών στη λειτουργία παλινδρόμησης και ακρίβεια 57,6 τοις εκατό στη λειτουργία ταξινόμησης [31]. Σε μια άλλη εργασία, οι συγγραφείς χρησιμοποίησαν ένα αυτόματο σύστημα απεικόνισης ικανό να παρακολουθεί το ίδιο σκουλήκι σε όλη τη διάρκεια ζωής, έτσι είχαν δεδομένα για 734 σκουλήκια για τα οποία λαμβάνονταν εικόνες κάθε 3,5 ώρες. Χρησιμοποίησαν το U-Net για να τμηματοποιήσουν τα σκουλήκια από το φόντο και στη συνέχεια πραγματοποίησαν την παλινδρόμηση συντεταγμένων του σώματος σκουληκιών για να δημιουργήσουν ευθυγραμμισμένες αναπαραστάσεις σκουληκιών. Στη συνέχεια χρησιμοποίησαν ένα τροποποιημένο ResNet34 και κατάφεραν να υποχωρήσουν την ηλικία των σκουληκιών με ελάχιστο MAE 0,6 ημερών για ακατέργαστες εικόνες [32].

Εδώ χρησιμοποιήσαμε το ίδιο σύνολο δεδομένων όπως στο [8, 32], ωστόσο αντί να προβλέψουμε την ηλικία κάθε σκουληκιού, αναπτύσσουμε μια πλατφόρμα βασισμένη στο CNN που ονομάσαμε WormNet ικανή να ταξινομεί νεαρούς ενήλικες (ημέρα 1-3) σε βραχύβια και μακράς διάρκειας, και επίσης να σχεδιάσει μια προσέγγιση για την εξαγωγή χαρακτηριστικών που είναι σημαντικά για μια τέτοια ταξινόμηση. Ομοίως, εφαρμόσαμε το WormNet για να ταξινομήσουμε το κίνημα C. elegans. Για να ερμηνεύσουμε τα αποτελέσματα της ταξινόμησης με τρόπο παράπλευρης σχεδίασης, έχουμε συνοδεύσει την ταξινόμηση CNN με μια διαδοχική κατάτμηση CNN. Για αυτό, επινοήσαμε μια νέα αρχιτεκτονική βασισμένη στο U-Net (HydraNet) για την κατάτμηση των σκουληκιών από το φόντο και επίσης την κατάτμηση του σώματος του σκουληκιού σε πρόσθια, μεσαία και οπίσθια μέρη. Η ερμηνεία των αποτελεσμάτων της ταξινόμησης επιτεύχθηκε μέσω της ένωσης των χαρτών τμηματοποίησης HydraNet και ενεργοποίησης κλάσεων που δημιουργήθηκαν χρησιμοποιώντας το WormNet. Οι αναλύσεις των χαρτών ενεργοποίησης κλάσης σε συνδυασμό με την κατάτμηση τμημάτων του σώματος με τέτοιο διαδοχικό τρόπο μας επέτρεψαν να εξαγάγουμε χαρακτηριστικά υπεύθυνα για την πρόβλεψη της διάρκειας ζωής. Τέλος, χρησιμοποιώντας μια τμηματοποιημένη έκδοση υψηλότερης ανάλυσης των εικόνων C. elegans, επαληθεύσαμε τα αποτελέσματά μας σε υπολειπόμενη CNN InceptionV3 υψηλότερης εκφραστικής ικανότητας συνοδευόμενη από χειροκίνητη ερμηνεία.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Τα δεδομένα χρονικής καθυστέρησης για τον 734 C. elegans που καταγράφηκαν από την 1η ημέρα της ενηλικίωσης μέχρι τον θάνατο χρησιμοποιήθηκαν για την ανάπτυξη της πρωτότυπης πλατφόρμας μας [8,15]. Για να αναπτύξουμε μια προσέγγιση για την αυτοματοποιημένη ερμηνευσιμότητα αυτών των εικόνων, αντιμετωπίσαμε ένα πρόβλημα κατάτμησης των σκουληκιών από το φόντο τους, καθώς και διάκρισης των μορφολογικών τμημάτων των σκουληκιών (Εικόνα 1). Για αυτό, έχουμε σχολιάσει με μη αυτόματο τρόπο 130 εικόνες ενήλικων σκουληκιών με μάσκες για τα πρόσθια, το μέσο του σώματος, τα οπίσθια μέρη του σκουληκιού και συνοψίζοντας σε μια συνολική μάσκα σκουληκιών (Εικόνα 1ΣΤ-1Η). Αυτό το σύνολο δεδομένων στη συνέχεια χωρίστηκε σε κλάσματα αμαξοστοιχίας (90) και δοκιμής (40) με βάση το αναγνωριστικό δεδομένων ενός μεμονωμένου τύπου worm για να διασφαλιστεί ότι μεμονωμένα χαρακτηριστικά σκουληκιού δεν θα διαρρεύσουν στη δέσμη δοκιμής- έξω. Πρώτον, για να αντιμετωπίσουμε το πρόβλημα ολικής κατάτμησης σκουληκιών, κατασκευάσαμε μια σχετικά ρηχή αρχιτεκτονική παρόμοια με το U-Net [24], συνοδευόμενη από μια σιγμοειδή κεφαλή για δυαδική ταξινόμηση. Για λόγους σαφήνειας, τα μέρη κωδικοποίησης και αποκωδικοποίησης του U-Net φαίνονται στο σχήμα lA ως α και . Οι ακατέργαστες εικόνες κλιμακώθηκαν σε 96 × 96 pixel για υπολογιστική απόδοση. Χρησιμοποιήσαμε τη συνάρτηση απώλειας ζαριών και παρακολουθήσαμε τον δείκτη Jaccard για να αξιολογήσουμε την ποιότητα τμηματοποίησης. Σε αυτό το σχετικά απλό πρόβλημα τμηματοποίησης, ο δείκτης Jaccard έφτασε στο 0,97 τόσο στα κλάσματα αμαξοστοιχίας όσο και στα κλάσματα δοκιμής (Εικόνα 1Α, 1Β, βλ. Υλικά και Μέθοδοι για λεπτομερείς υπερπαράμετρους). Στη συνέχεια, για να επεκτείνουμε αυτήν την προσέγγιση στην τμηματοποίηση μεμονωμένων τμημάτων του σώματος του C. elegans, επαναδιατυπώσαμε το πρόβλημα ως τμηματοποίηση πολλαπλών κατηγοριών με κωδικοποιημένες μάσκες μίας υψηλής ταχύτητας και παρόμοια αρχιτεκτονική τύπου U-Net (Εικόνα 1C, 11). Δεν αποτελεί έκπληξη, καθώς η ταξινόμηση πολλών κατηγοριών είναι πιο δύσκολο πρόβλημα, αυτό οδήγησε σε χειρότερη απόδοση 0,92 και 0,91 δείκτη Jaccard στο τρένο και στο κλάσμα δοκιμής αντίστοιχα, υποδηλώνοντας μια ήπια υπερπροσαρμογή.

Είναι αξιοσημείωτο ότι μια πτυχή του U-Net πολλαπλών κατηγοριών δεν είχε καλή απόδοση ήταν η διάκριση του πρόσθιου και του οπίσθιου τμήματος του σκουληκιού που οδήγησε στη δημιουργία επικαλυπτόμενων μασκών (Εικόνα lI). Για να παρακάμψουμε αυτόν τον περιορισμό, έχουμε σχεδιάσει μια εναλλακτική αρχιτεκτονική χρησιμοποιώντας το U-Net a και εξαρτήματα, με πολλά μέρη αφιερωμένα το καθένα για το δικό του πρόβλημα δυαδικής τμηματοποίησης (Εικόνα 1D, 1E), το οποίο ονομάσαμε HydraNet. Μια τέτοια προσέγγιση δημιουργεί μια από κοινού εκπαιδευμένη αρχιτεκτονική με κοινά στρώματα εισόδου και στρώματα αφιερωμένα για καθένα από τα μορφολογικά μέρη του σκουληκιού, επιτρέποντας την ύπαρξη ενός μοντέλου από άκρο σε άκρο, ενώ επιλύεται ένα απλούστερο πρόβλημα δυαδικής ταξινόμησης. Το HydraNet3 ήταν εξοπλισμένο με 3 μέρη αφιερωμένα στο πρόσθιο, στο μέσο και στο οπίσθιο τμήμα του σώματος του σκουληκιού. Το HydraNet4, με τη σειρά του, ήταν εξοπλισμένο με 4 μέρη αφιερωμένα στο πρόσθιο, στο μέσο, ​​στο οπίσθιο μέρος του σώματος καθώς και σε ολόκληρο το σώμα του σκουληκιού. Για να εκτιμήσουμε την κοινή απόδοση του HydraNet μετρήσαμε τον δείκτη Jaccard για κάθε εξάρτημα ξεχωριστά και τελικά αξιολογήσαμε τον μέσο δείκτη Jaccard. Είναι αξιοσημείωτο ότι τόσο το HydraNet3 όσο και το HydraNet4 πέτυχαν τον μέσο δείκτη Jaccard 0.97 τόσο στην αμαξοστοιχία όσο και στα κλάσματα δοκιμής που δείχνουν καλή γενίκευση (Εικόνα 1D, IE, 1J, 1K). Αξίζει να σημειωθεί ότι το HydraNet4 πέτυχε μετατροπή νωρίτερα από το HydraNet3 (Εικόνα 1D, ένθετα IE) υποδηλώνοντας ένα δυνητικό θετικό αποτέλεσμα από τη συνοδεία της αρχιτεκτονικής με μια γενικότερη σημασιολογική κλάση.

Στη συνέχεια, για να αποκτήσουμε ταξινομητές για την κίνηση ή τη διάρκεια ζωής του C. elegans, χωρίσαμε και τα 734 σκουλήκια σε 2 κατηγορίες συνολικών ποσών κίνησης: χαμηλή ή υψηλή κίνηση που εκτιμάται ως κινητικότητα πάνω ή κάτω από τη μέση απόσταση που ανιχνεύτηκε κατά τη διάρκεια της ζωής. και 2 κατηγορίες διάρκειας ζωής: «μικρής διάρκειας» με διάρκεια ζωής 7 ημέρες ή λιγότερο, και «μακράς διάρκειας» με διάρκεια ζωής 8 ημέρες και άνω. Η εργασία ήταν να προβλέψουμε τις τάξεις με βάση τις εικόνες της ημέρας 1, 2ης ή 3ης ημέρας. Καθώς το σύνολο δεδομένων είναι σχετικά μικρό, η χρήση αρχιτεκτονικών υψηλής εκφραστικής ικανότητας θα μπορούσε να οδηγήσει σε υπερπροσαρμογή. Ως εκ τούτου, σχεδιάσαμε ένα σχετικά ρηχό CNN που ονομάσαμε WormNet. Αυτή η αρχιτεκτονική αποτελούνταν από 5 συνελικτικά στρώματα, το καθένα ακολουθούμενο από ένα μέγιστο στρώμα συγκέντρωσης. Η κανονικοποίηση εγκατάλειψης και παρτίδας εφαρμόστηκε για κάθε συνελικτικό επίπεδο στο νευρωνικό δίκτυο για τη βελτίωση της γενίκευσης.τι είναι ένα cistancheΤο τελευταίο στρώμα συγκέντρωσης max ισοπεδώθηκε και προσαρτήθηκε σε ένα πλήρως συνδεδεμένο στρώμα ακολουθούμενο από ένα στρώμα softmax. Χρησιμοποιήσαμε τη δυαδική διασταυρούμενη εντροπία ως συνάρτηση απώλειας. Όλα τα στρώματα, εκτός από το τελευταίο, χρησιμοποιούσαν μια διορθωμένη γραμμική μονάδα (ReLU) ως συνάρτηση ενεργοποίησης (Εικόνα 2Α, βλ. Υλικά και Μέθοδοι για λεπτομερείς υπερπαράμετρους). Το WormNet χρησιμοποιήθηκε για την απόκτηση ταξινομητών κίνησης και διάρκειας ζωής (Εικόνες 2 και 3). Για να μετριαστεί περαιτέρω η πιθανή υπερπροσαρμογή, πραγματοποιήσαμε μια 30-διπλωμένη αύξηση δεδομένων χρησιμοποιώντας γεννήτριες εικόνας Keras. Συγκεκριμένα, οι εικόνες υπόκεινται σε τυχαία οριζόντια και κάθετη ανατροπή, οριζόντια και κάθετη μετατόπιση εντός εύρους 10 τοις εκατό, καθώς και τυχαίες περιστροφές εντός εύρους 90 μοιρών από το πρωτότυπο. Τα κενά στις μετασχηματισμένες εικόνες συμπληρώθηκαν χρησιμοποιώντας τη στρατηγική της πλησιέστερης τιμής.

Το WormNet έδειξε καλή απόδοση στην ταξινόμηση συνολικών κινήσεων φτάνοντας το 88 τοις εκατό ακρίβεια (ακρίβεια 0.86, ανάκληση 0.86, περιοχή κάτω από την καμπύλη για το χαρακτηριστικό λειτουργίας δέκτη - AUC ROC). - ήταν 0.56) στο σύνολο δεδομένων δοκιμής για το κλάσμα ενηλίκων 3 ημέρας. Η απόδοση για τις εικόνες της ημέρας 1 και της ημέρας 2 ήταν ελαφρώς χαμηλότερη (Εικόνα 2B-2D) με AUC ROC 0,51 και 0,55 αντίστοιχα. Για να διασφαλίσουμε ότι η πρόβλεψή μας επηρεάζεται κυρίως από τη μορφολογία του σκουληκιού και όχι από το περιβάλλον του, δημιουργήσαμε ένα σύνολο δεδομένων συνθετικών εικόνων φόντου όπου το C. elegans αφαιρέθηκε μέσω τμηματοποίησης. Για να μετριαστεί η επιρροή της σιλουέτας σκουληκιών στην προπόνηση, γεμίσαμε τα υπόλοιπα μηδενικά pixel με τυχαίο θόρυβο (Συμπληρωματικό Σχήμα 1). Τα αποτελέσματά μας πρότειναν ότι η απόδοση του μοντέλου αποδίδεται κυρίως στη μορφολογία του C. elegans και όχι στο φόντο των εικόνων. Για να αξιολογήσουμε ποιο μέρος του σώματος μπορεί να είναι υπεύθυνο για τη λήψη αποφάσεων στο WormNet, χρησιμοποιώντας τη διαδοχική μας προσέγγιση κατάτμησης-ταξινόμησης, έχουμε λάβει CAM για ένα σκουλήκι κατηγορίας χαμηλής κίνησης (Εικόνα 2E,2F) και ένα σκουλήκι υψηλής κίνησης (Εικόνα 2G, 2H) από WormNet.βιοφλαβονοειδήΣτη συνέχεια, κάθε εικόνα τμηματοποιήθηκε χρησιμοποιώντας HydraNet4 και προέκυψε η ένωση του ανώτερου τεταρτημορίου CAM WormNet με μορφολογική κατάτμηση μερών από το HydraNet4. Για λόγους ερμηνείας, έχουμε υπολογίσει το ποσοστό των CAM που ανήκουν σε ένα αντίστοιχο μορφολογικό τμήμα για κάθε αντίστοιχο σκουλήκι που ανήκει σε κατηγορία υψηλής ή χαμηλής κίνησης. Επιπλέον, αξιολογήσαμε τη σημασία αυτής της ερμηνείας παράπλευρης σχεδίασης χρησιμοποιώντας μονόδρομη ANOVA με την ειλικρινή διόρθωση σημαντικής διαφοράς (HSD) του Tukey (Εικόνα 2F-σκουλήκια χαμηλής κίνησης, Εικόνα 2Η - σκουλήκια υψηλής κίνησης). Η σύγκριση έδειξε ότι το μπροστινό μέρος καλυπτόταν σημαντικά λιγότερο (31 τοις εκατό) από το μέσο του σώματος (34 τοις εκατό) και το οπίσθιο τμήμα (34 τοις εκατό) τόσο για σκουλήκια χαμηλής όσο και για υψηλής κίνησης. Δεν υπήρχε σημαντική διαφορά μεταξύ του μέσου και του οπίσθιου μέρους του σώματος.

Στη συνέχεια, χρησιμοποιήσαμε το WormNet για να ταξινομήσουμε τα μακρόβια και βραχύβια σκουλήκια. Ομοίως με την ταξινόμηση κινήσεων, το WormNet απέδωσε καλύτερα το δείγμα ενηλίκων της 3ης ημέρας φτάνοντας σε ακρίβεια 72 τοις εκατό (ακρίβεια 0.73, ανάκληση 0.71, AUC ROC 0.61) το σύνολο δεδομένων δοκιμής, σε σύγκριση με το AUC ROC των 0.53 και 0.52 για την ημέρα 2 και 1 αντίστοιχα.αγοράστε κιστανάκιΗ ανάλυση μήτρας σύγχυσης πρότεινε ότι το CNN είχε χαμηλή απόδοση στην ταξινόμηση σκουληκιών βραχείας διάρκειας (Εικόνα 3Α-3Γ). Στη συνέχεια, ερμηνεύσαμε τον ταξινομητή χρησιμοποιώντας τη σειρά HydraNet4 και WormNet συνοδευόμενη από μια μονόδρομη στατιστική δοκιμή ANOVA. Στην περίπτωση της ταξινόμησης της διάρκειας ζωής, η ερμηνεία κατά σχεδιασμό πρότεινε ότι στο 32 τοις εκατό το πρόσθιο τμήμα ήταν σημαντικά λιγότερο έντονο στα CAM σε σύγκριση με το μεσαίο και το οπίσθιο τμήμα (Εικόνα 3D, 3E-μικρή διάρκεια ζωής, Εικόνα 3F, 3G-long διάρκεια ζωής). Αυτή η διαφορά ήταν λιγότερο σημαντική για τη μεγάλη διάρκεια ζωής παρά για τη μικρή διάρκεια ζωής. Δεν υπήρχε σημαντική διαφορά μεταξύ του μέσου σώματος και του οπίσθιου τμήματος.

Για να επαληθεύσουμε αυτά τα ευρήματα με ανεξάρτητο τρόπο, έχουμε εκπαιδεύσει έναν άλλο ταξινομητή διάρκειας ζωής χρησιμοποιώντας την υπολειπόμενη αρχιτεκτονική InceptionV3 [3] συνοδευόμενη από μια χειροκίνητη ερμηνεία (Εικόνα 4). Επιπλέον, σε αυτήν την περίπτωση, για να διασφαλιστεί η υψηλή ανάλυση των CAM αντί για κλιμάκωση σε 96×96 pixel, χρησιμοποιήθηκαν οι εικόνες πλήρους ανάλυσης 900×900 που περικόπηκαν σε 800×800 pixels (516×516 μm). Ως πολύ υψηλότερη εκφραστική ικανότητα CNN, το InceptionV3 ήταν επιρρεπές στην υπερβολική προσαρμογή στο σχετικά μικρό μας σύνολο δεδομένων (Εικόνα 4C, 4D). Για να το παρακάμψουμε αυτό, έχουμε εφαρμόσει πρόωρη διακοπή κατά τη διάρκεια της προπόνησης. Επιπλέον, τμηματοποιήσαμε τα σκουλήκια από το φόντο τους διασφαλίζοντας ότι το InceptionV3 παρουσιάζεται μόνο με το σχετικό τμήμα της εικόνας. Το InceptionV3 είχε παρόμοια απόδοση με το WormNet με την ακρίβεια να φτάνει το 70 τοις εκατό στο σύνολο δεδομένων δοκιμής για ταξινόμηση διάρκειας ζωής (Εικόνα 4Α). Σε συνέπεια με τη διπλή προσέγγιση HydraNet4-WormNet στην ερμηνεία, στην περίπτωση της μη αυτόματης ερμηνείας, το πρόσθιο τμήμα του σκουληκιού τονίστηκε από το InceptionV3 CAM λιγότερο συχνά. Είναι σημαντικό, ωστόσο, ότι λόγω της υψηλότερης ανάλυσης των εικόνων εισόδου, οι CAM εντόπισαν τώρα τα μέρη του σώματος πολύ καλύτερα, επιτρέποντας την ανάθεση ενός μέρους του σώματος ως πιθανό διαχωριστή σε κάθε περίπτωση (Εικόνα 4Β). Είναι ενδιαφέρον ότι η κατανομή των τμημάτων του σώματος που επισημαίνονται από την ανάλυση του CAM δείχνει ότι το οπίσθιο τμήμα είναι πιο σημαντικό για την ταξινόμηση των μακρόβιων σκουληκιών, υποδηλώνοντας ότι τα χαρακτηριστικά που προβλέπουν τη μακροζωία θα μπορούσαν να βρίσκονται στο οπίσθιο μέρος του σώματος του σκουληκιού.

ΣΥΖΗΤΗΣΗ

Παρά το γεγονός ότι το C. elegans είναι ένα κλασικό μοντέλο στην έρευνα για τη γήρανση με περισσότερες από 4000 δημοσιεύσεις μέχρι σήμερα, και την πρόοδο στη ρομποτική, η διαδικασία μέτρησης της διάρκειας ζωής του C. elegans εξακολουθεί να είναι χειρωνακτική και επίπονη. Ωστόσο, αναδύονται νέες προσεγγίσεις όπως η μηχανή διάρκειας ζωής που χρησιμοποιεί επίπεδους σαρωτές για την ταυτόχρονη αξιολόγηση της βιωσιμότητας ενός μεγάλου πληθυσμού σκουληκιών σε πλάκες [34]. Μια άλλη προσέγγιση είναι τα κοράλλια σκουληκιών - μια αυτοματοποιημένη μέθοδος υδατοκαλλιέργειας που επιτρέπει την παρακολούθηση των σκουληκιών σε όλη τη διάρκεια της ζωής τους με πολύ καλύτερες λεπτομερείς μετρήσεις [8]. Τα λεπτομερή φυσιολογικά δεδομένα που παράγονται στα κοράλλια Worm έδειξαν ότι η κίνηση, ο αυτοφθορισμός και η υποβάθμιση της υφής είναι οι καλύτεροι προγνωστικοί παράγοντες της διάρκειας ζωής. Ωστόσο, παραμένει ασαφές ποια ακριβώς μορφολογικά χαρακτηριστικά αντικατοπτρίζουν παθολογίες και καθορίζουν τη διάρκεια ζωής. Διαπιστώθηκε επίσης ότι οι φυσιολογικές μετρήσεις πριν από την 3η ή 4η ημέρα της ενηλικίωσης και οι μεμονωμένοι βιοδείκτες με σήμανση GFP δεν μπορούν να διακρίνουν βραχύβια και μακρόβια σκουλήκια [8,15]. Πυρηνικές προβλέψεις που γίνονται σε ενήλικες 1 ημέρας εκτελούνται με μεγέθυνση 100× σε σταθερά σκουλήκια, κάτι που δεν είναι εφικτό για καμία αυτοματοποιημένη πλατφόρμα διαλογής.

Εδώ δουλέψαμε με το σύνολο δεδομένων που δημιουργήθηκε στο εργαστήριο Pincus [8,15] και δείξαμε ότι η εφαρμογή του πρόσφατα σχεδιασμένου WormNet μπόρεσε να διακρίνει επιτυχώς μεταξύ σκουληκιών μικρής και μεγάλης διάρκειας ζωής ακόμη και για εικόνες που τραβήχτηκαν την ημέρα 1 ή 2. Είναι σημαντικό ότι για την 3η ημέρα το CNN έδειξε την καλύτερη απόδοση (Εικόνα 2Α-2Γ). Το WormNet ήταν ακόμη καλύτερο στην ταξινόμηση των σκουληκιών με υψηλή και χαμηλή συνολική κίνηση, επιτυγχάνοντας 88 τοις εκατό ακρίβεια για τους ενήλικες της 1ης ημέρας (Εικόνα 3). Αναμένουμε ότι θα παράγουν περισσότερα δεδομένα και η ανάπτυξη του CNN προβλέπει τη διάρκεια ζωής [32]. Όπως αναφέρθηκε προηγουμένως, οι συγγραφείς τμηματοποίησαν τα σκουλήκια και δημιούργησαν ισιωμένες αναπαραστάσεις σκουληκιών, οι οποίες χρησιμοποιήθηκαν για εκπαίδευση στο CNN [32]. Ο αυξημένος αριθμός δειγμάτων βελτίωσε την πρόβλεψη της ηλικίας των σκουληκιών βάσει παλινδρόμησης. Είναι ενδιαφέρον ότι οι συγγραφείς έχουν περιορίσει τη σιλουέτα των πληροφοριών για την εκτίμηση της ηλικίας, ενώ το υπόβαθρο πληροφοριών βελτιώνει σημαντικά την ακρίβεια, αν και η προγνωστική αξία του φόντου είναι ένα τεχνούργημα των πειραματικών συνθηκών. Επομένως, μπορεί να είναι πιθανό ότι η προγνωστική ακρίβεια του WormNet στις προσομοιώσεις μας μπορεί να εξηγηθεί εν μέρει από τις πληροφορίες παρασκηνίου. Ωστόσο, όπως προτείνουν τα πειράματά μας (Συμπληρωματικό Σχήμα 1), η απόδοση του WormNet εξαρτάται κυρίως από τη μορφολογία του C. elegans και όχι από το φόντο των εικόνων. Είναι σημαντικό ότι η προπόνηση στις αναπαραστάσεις των συντεταγμένων σώματος στο [32] βελτίωσε την ακρίβεια στις ακατέργαστες εικόνες που υποδηλώνει ότι τα όργανα και η υφή του σκουληκιού είναι χρήσιμα για την πρόβλεψη της ηλικίας.

Εκτός από την ταξινόμηση της διάρκειας ζωής ή της κίνησης με βάση τις εικόνες νεαρών ενηλίκων, στοχεύαμε επίσης να βρούμε χαρακτηριστικά σημαντικά για την πρόβλεψη. Ως πρωτότυπη εργασία αποφασίσαμε να προσδιορίσουμε ποιο μέρος του σώματος-μπροστινό, μέσο ή οπίσθιο μέρος του σώματος περιέχει χαρακτηριστικά που επηρεάζουν περισσότερο τη διάρκεια ζωής. Σχεδιάσαμε τα HydraNet 3 και 4, νέες αρχιτεκτονικές που βασίζονται στο U-Net και δείξαμε ότι μπορούν να τμηματοποιήσουν με επιτυχία τα μέρη του σώματος σκουληκιών επιτυγχάνοντας τέλειες τιμές δείκτη Jaccard. Είναι σημαντικό, για να αναπτύξουμε μια προσέγγιση ερμηνείας κατά σχεδίαση, χρησιμοποιήσαμε μια σειρά βιολογικά σημαντικής ταξινόμησης (διάρκεια ζωής και κίνηση) που αποφέρει σημαντικότητα μέσω χαρτών ενεργοποίησης τάξης [30, 35] και μορφολογική τμηματοποίηση (μπροστινές, μεσαίες και οπίσθιες περιοχές) για να βρούμε ποιες μέρος του σώματος είναι χρήσιμο για τις ταξινομήσεις. Επιπλέον, αν και λιγότερο επιλυμένα, τα ευρήματα που προέκυψαν από τη διαδοχική προσέγγιση ήταν σύμφωνα με έναν ανεξάρτητα εκπαιδευμένο ταξινομητή. Αυτός ο δυαδικός ταξινομητής βασίστηκε στο InveptionV3 CNN. Εκπαιδεύτηκε σε εικόνες πλήρους οπτικής ανάλυσης 800×800 pixel με σκουλήκια τμηματοποιημένα από το φόντο τους και πέτυχε αποτελέσματα συγκρίσιμα με το WormNet, αν και το μοντέλο είναι λιγότερο γενικεύσιμο λόγω μεγαλύτερης υπερπροσαρμογής (Εικόνα 4). Ωστόσο, στην περίπτωση του InceptionV3, διακριτά μέρη του σώματος θα μπορούσαν να εντοπιστούν στις CAM και οι αναλύσεις υποδηλώνουν ότι τα χαρακτηριστικά που βρίσκονται στο οπίσθιο τμήμα του σκουληκιού μπορεί να είναι πιο σημαντικά για την ταξινόμηση των μακρόβιων σκουληκιών. Αυτή η προσέγγιση παρέχει μια οδό για την ανακάλυψη νέων σημαντικών βιοδεικτών ηλικίας στο C. elegans σε ένα αυτοματοποιημένο περιβάλλον, δεδομένης μιας σημαντικής αύξησης στην ανάλυση εικόνας και στη χρήση της αναπαράστασης των συντεταγμένων σώματος. Μη επισημασμένα όργανα όπως ο φάρυγγας ή οι σημασμένες με GFP οντότητες θα μπορούσαν να τμηματοποιηθούν χρησιμοποιώντας HydraNets και να αξιολογηθούν ως προς την ικανότητα πρόβλεψης της διάρκειας ζωής τους χρησιμοποιώντας την προσέγγιση CAM και το WormNet. Είναι δελεαστικό να υποθέσουμε ότι παρόμοια με τα παραγωγικά ανταγωνιστικά δίκτυα [36], οι μελλοντικές υλοποιήσεις της ερμηνευσιμότητας παράπλευρης σχεδίασης μέσω μιας σειράς τμηματοποίησης και ταξινόμησης μπορούν να εκπαιδευτούν από άκρο σε άκρο και να χρησιμοποιηθούν για συνήθη επιστημονική ανακάλυψη. Η αυτοματοποιημένη αναλυτική πλατφόρμα απόδειξης της αρχής θα είναι χρήσιμη για την ανακάλυψη βιοδεικτών μη επεμβατικής γήρανσης, ιδιαίτερα σε νεαρά άτομα 1-3 ενήλικες C. elegans. Αυτό έχει μεγάλες δυνατότητες να επιταχύνει τον φαρμακευτικό έλεγχο για φάρμακα κατά της γήρανσης. Η ανάπτυξη της μεθοδολογίας θα είναι επίσης χρήσιμη για την εύρεση και τον χαρακτηρισμό νέων παθολογιών στο C. elegans σημαντικές για τη βασική έρευνα για τη γήρανση. Για να διαθέσουμε τον κώδικα στην ερευνητική κοινότητα που έχουμε καταθέσει.


Αυτό το άρθρο προέρχεται από το www.aging-us.com AGING 2022, Vol. 14, Νο. 4






















































Μπορεί επίσης να σας αρέσει