SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Latviešu valodas resursi un rīki
    CLARIN infrastruktūrā

                                            Normunds Grūzītis
                    LU Matemātikas un informātikas institūta
                                         Mākslīgā intelekta laboratorija




            Rīgā, 2011. gada 4. jūlijā
Mērķi
• Pieejamība:
    – Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai,
      automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs
         •   Vārdu un teikumu dalītājs
         •   Statistisks morfoloģiskais marķētājs (tageris)
         •   Morfoloģiskais analizators un sintezators
         •   Runas sintezators
         •   Latviešu literārās valodas vārdnīca
    – Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā
         • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti

• Standartizācija:
    –   Morpho-syntacticAnnotationFramework (ISO/DIS 24611)
    –   TextCorpusFormat (vers. 0.4)
    –   LexicalMarkupFramework (ISO/IS 24613:2008)
    –   ISOcatDataCategoryRegistry (ISO/IS 12620:2009)
    –   MULTEXT-East (vers. 4)

• Atvērtība:
    – Rīki: [Lesser]GeneralPublicLicense
    – Resursi: CreativeCommonsLicense (ar nosacījumiem)
Statistisks morfoloģiskais tageris
• http://valoda.ailab.lv/ws/tagger/
• Datu apmaiņas formāti: ISO MAF, TCF
• Pazīmju kopas: ISOcat, MULTEXT-East
Tīmekļa pakalpju kombinēšana
• Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto
  Web serviceinfrastructure”: “Standardsinpractice: IMCS services”
   – Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā
        • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,
          analoģiski kā TCF formātā
   – ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās
     atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai




      (TCF)                    (TCF)                     (TCF)                    (TCF)
Izmantotie/pielāgotie standarti
• Datu apmaiņas formāti – valodneatkarīgi
• Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas
• Mērķis:
    – Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām
    – Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras
         • Tomēr tradīcijai ir sekundāra nozīme
    – Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu
• MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā:
    –   pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā
    –   pieredzi latviešu valodas sintaktiskajā analīzē
    –   pieredzi latviešu valodas ģenerēšanā (sintēzē)
    –   pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē
    –   pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
    –   pieredzi statistiskajā morfoloģiskajā tagošanā
    –   esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
    –   latviešu valodniecības tradīciju
Morfoloģiskais analizators/sintezators
•   http://valoda.ailab.lv/ws/morph/
•   Datu apmaiņas formāti: ISO LMF
•   Pazīmju kopas: ISOcat
Morfoloģiskais leksikons
Licence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0


                         Pamatformas               Vārdformas   Pazīmes
Lietvārdi                32 386                    355 488      710 976
Darbības vārdi           12 002                    347 729      1 174 964
Īpašības vārdi           6 086                     681 632      3 408 160
Apstākļa vārdi           6 497                     6 497        0
Vietniekvārdi            51                        472          944
Citi                     409                       409          0
Kopā                     57 431                    1 392 227    5 295 044

•   Par pamatu ņemti LLVV šķirkļu vārdi
•   Divdabju formas un skaitļa vārdi pašlaik nav ietverti
Runas sintezators
• http://valoda.ailab.lv/ws/tts/
    – Pieprasījums: vārds, teikums vai teksta fragments
    – Atbilde: MP3 datne vai URL uz MP3 datni
• Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
Latviešu literārās valodas vārdnīca




                             http://tezaurs.lv/llvv/
Drīzumā...
• Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā
   – Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs
   – http://weblicht.sfs.uni-tuebingen.de/
   – Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku
     kombinēšanai, darbināšanai un rezultātu pārlūkošanai
• Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties
  ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju)
   – http://tezaurs.lv/mev/
   – https://laife.lanet.lv
• Latviešu valodas korpusa platformas jaunā versija
   –   http://korpuss.lv/
   –   Uzlabota veiktspēja
   –   Tīmekļa saskarne (Bonito)
   –   Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
Paldies!
Sekojietjaunumiem:   twitter.com/AILab_lv

Weitere ähnliche Inhalte

Empfohlen

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Latviešu valodas resursi un rīki CLARIN infrastruktūrā

  • 1. Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā
  • 2. Mērķi • Pieejamība: – Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs • Vārdu un teikumu dalītājs • Statistisks morfoloģiskais marķētājs (tageris) • Morfoloģiskais analizators un sintezators • Runas sintezators • Latviešu literārās valodas vārdnīca – Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti • Standartizācija: – Morpho-syntacticAnnotationFramework (ISO/DIS 24611) – TextCorpusFormat (vers. 0.4) – LexicalMarkupFramework (ISO/IS 24613:2008) – ISOcatDataCategoryRegistry (ISO/IS 12620:2009) – MULTEXT-East (vers. 4) • Atvērtība: – Rīki: [Lesser]GeneralPublicLicense – Resursi: CreativeCommonsLicense (ar nosacījumiem)
  • 3. Statistisks morfoloģiskais tageris • http://valoda.ailab.lv/ws/tagger/ • Datu apmaiņas formāti: ISO MAF, TCF • Pazīmju kopas: ISOcat, MULTEXT-East
  • 4. Tīmekļa pakalpju kombinēšana • Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto Web serviceinfrastructure”: “Standardsinpractice: IMCS services” – Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai, analoģiski kā TCF formātā – ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai (TCF) (TCF) (TCF) (TCF)
  • 5. Izmantotie/pielāgotie standarti • Datu apmaiņas formāti – valodneatkarīgi • Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas • Mērķis: – Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām – Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras • Tomēr tradīcijai ir sekundāra nozīme – Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu • MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā: – pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā – pieredzi latviešu valodas sintaktiskajā analīzē – pieredzi latviešu valodas ģenerēšanā (sintēzē) – pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē – pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē – pieredzi statistiskajā morfoloģiskajā tagošanā – esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi – latviešu valodniecības tradīciju
  • 6. Morfoloģiskais analizators/sintezators • http://valoda.ailab.lv/ws/morph/ • Datu apmaiņas formāti: ISO LMF • Pazīmju kopas: ISOcat
  • 7. Morfoloģiskais leksikons Licence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0 Pamatformas Vārdformas Pazīmes Lietvārdi 32 386 355 488 710 976 Darbības vārdi 12 002 347 729 1 174 964 Īpašības vārdi 6 086 681 632 3 408 160 Apstākļa vārdi 6 497 6 497 0 Vietniekvārdi 51 472 944 Citi 409 409 0 Kopā 57 431 1 392 227 5 295 044 • Par pamatu ņemti LLVV šķirkļu vārdi • Divdabju formas un skaitļa vārdi pašlaik nav ietverti
  • 8. Runas sintezators • http://valoda.ailab.lv/ws/tts/ – Pieprasījums: vārds, teikums vai teksta fragments – Atbilde: MP3 datne vai URL uz MP3 datni • Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
  • 9. Latviešu literārās valodas vārdnīca http://tezaurs.lv/llvv/
  • 10. Drīzumā... • Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā – Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs – http://weblicht.sfs.uni-tuebingen.de/ – Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku kombinēšanai, darbināšanai un rezultātu pārlūkošanai • Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju) – http://tezaurs.lv/mev/ – https://laife.lanet.lv • Latviešu valodas korpusa platformas jaunā versija – http://korpuss.lv/ – Uzlabota veiktspēja – Tīmekļa saskarne (Bonito) – Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
  • 11. Paldies! Sekojietjaunumiem: twitter.com/AILab_lv

Hinweis der Redaktion

  1. Nākotnē: piekļuve caur LAIFE arī CLARIN-Europe resursiem, piem., WebLicht; “politisku”, administratīvu un juridisku jautājumu risināšana; taču CLARIN ir tikai viens no LAIFE use-case.