Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Multi­way Relation Classification:
Application to Protein­Protein Interactions


 Barbara Rosario
 Marti A. Hearst
 2005
F...
HIV­1 Human Protein Interactions 
Database
        Pair of Proteins
    



        Interaction type(s) between them
    ...
Data

        2224 records (now 5134)
    



        65 interaction types (now 68)
    



        809 proteins (now 14...
Goal

        For every “triple”
    



            PP
        −

            A (Article with unique pmid)
        −

  ...
NER

        LocusLink
    



        “Conservative” approach
    



        No co­reference analysis
    



       ...
Method – assuming one interaction

    For a subset of all the PPs (45%)




        Get all full text articles
    −

  ...
Training Data Construction

        “papers”
    



            0.5 sentence per triple (max 79)
        −

            ...
Interaction Types




                     
Task

        Given a PPA triple
    



        Extract sentences that have PP
    



        Predict for the entire P...
Models

        Generative
    



            Dynamic Graphical Model
        −

            Simple Naïve Bayes Classifi...
Dynamic Graphical Model

        Based on previous work
    



        Roles: PROTEIN, NULL
    



        Features: w...
DM – Assumptions 

        There is an interaction
    



        Single interaction per sentence
    



        As ma...
Evaluation

        Document­level
    



            (Not all the sentences describe an interaction)
        −

       ...
Mj

        for each triple
    



            for each sentence of the triple
        −

                 find the inte...
Cf

        get all conditional probabilities (do not assign 
    


        per sentence)
        for each triple
    
...
Results




           
Comparison

        Trigger word
    



            70 triggers for 10 interactions
        −

            Co­occurrence...
Comparison
    




            Key(B): trigger word (backoff)
        −

            Base: the most frequent interaction...
Sentence­Level Experiments

        Manual annotation of 2114 sentences
    



        68.3% disagreed with HIV database...
Sentence­Level Evaluation




                   
Thank you.




              
Nächste SlideShare
Wird geladen in …5
×

Rosario Hearst

447 Aufrufe

Veröffentlicht am

  • Login to see the comments

  • Gehören Sie zu den Ersten, denen das gefällt!

Rosario Hearst

  1. 1. Multi­way Relation Classification: Application to Protein­Protein Interactions Barbara Rosario Marti A. Hearst 2005 Farzaneh Sarafraz 30 April 2009    
  2. 2. HIV­1 Human Protein Interactions  Database Pair of Proteins  Interaction type(s) between them  PubMed ID  (etc.)     
  3. 3. Data 2224 records (now 5134)  65 interaction types (now 68)  809 proteins (now 1434 + 9 and 2295 pairs)  984 articles (now 3099)  Average 1.9 interactions per PP (max = 23)  Average 5.9 interactions per article (max = 90)     
  4. 4. Goal For every “triple”  PP − A (Article with unique pmid) − Find the interaction type  (ignore 7.7% of the triples with > 1 interaction) −    
  5. 5. NER LocusLink  “Conservative” approach  No co­reference analysis  Not good recall  High precision     
  6. 6. Method – assuming one interaction For a subset of all the PPs (45%)  Get all full text articles − Get the sentences that have both PP − Group as “papers” − Also for a tripe PPA  Get the papers that cite A − Get the sentences that have PP and mention A − Group as “citances” −    
  7. 7. Training Data Construction “papers”  0.5 sentence per triple (max 79) − 50.6 sentences per interaction type (max 119) − “citances”  0.4 sentence per triple (max 105) − 49.2 sentences per interaction type (max 162) − Include an interaction type if >40 in both     
  8. 8. Interaction Types    
  9. 9. Task Given a PPA triple  Extract sentences that have PP  Predict for the entire PPA one of 10 interaction   types    
  10. 10. Models Generative  Dynamic Graphical Model − Simple Naïve Bayes Classifier − Discriminative  Neural Network (feed­forward, conjugate gradient) −    
  11. 11. Dynamic Graphical Model Based on previous work  Roles: PROTEIN, NULL  Features: words     
  12. 12. DM – Assumptions  There is an interaction  Single interaction per sentence  As many role states as words  Words = features  One feature node per role − Roles are hidden − Protein names may be masked −    
  13. 13. Evaluation Document­level  (Not all the sentences describe an interaction) − For every triple an interaction is assigned to the  − whole document Using two methods: − Mj  Cf     
  14. 14. Mj for each triple  for each sentence of the triple − find the interaction that maximises the posterior   probability of the interaction given features assign to all sentences of the triple the most   frequent interaction    
  15. 15. Cf get all conditional probabilities (do not assign   per sentence) for each triple  choose the interaction that maximises the sum over  − all the triple's sentences    
  16. 16. Results    
  17. 17. Comparison Trigger word  70 triggers for 10 interactions − Co­occurrence − Choose the “most specific” type − If both specific or no trigger, choose nothing − Back­off: if in doubt, choose the most frequent  − interaction    
  18. 18. Comparison  Key(B): trigger word (backoff) − Base: the most frequent interaction −    
  19. 19. Sentence­Level Experiments Manual annotation of 2114 sentences  68.3% disagreed with HIV database  Contacted some of the authors  DB error − Contradiction − “require” but under certain conditions “inhibit”     
  20. 20. Sentence­Level Evaluation    
  21. 21. Thank you.    

×