| 
Konekääntäminen (Machine 
            Translation)
|  | 
|  |  |  
|  | 
 <
www.teemapoint.com
 >
 |  |  |  
|  | 
  |  |  
|  | Ohjelmisto, räätälöidyt työkalut ja palvelut Luonnollisen Kielen Käsittely (NLP)  tehtäville. |  |  |  
|  | 
<  Demot  >
 -
 |  |  |  
|  |  |  
|  | 
  |  |  |  
|  | 
 Luonnollisen kielen jäsennin  englannille. Syntaktisen jäsentimen lisäksi, samaa liittymää voidaan käyttää lauseiden kääntäminen englannista suomeen.
 |  |  |  
|  | 
| 
Läheisesti liittyvät Artikkelit:
 |  
| 
Käännä
 |  |  |  
|  |  |  
|  | 
<  Tuotteet  >
 -
 |  |  
|  | 
  |  |  
|  | NLP Työasema  sisältää käännös ohjelmiston joka on esitetty demossa. Valinnaisesti, muita työkaluja voidaan myös sisältää. |  |  |  
| 
 
  |  |  |  
|  |  |  
|  | 
 Muut tuotteet Suomen kielelle:  
Morfologinen jäsennin
 Syntaktinen jäsennin
 Suomalainen WordNet (WordNetin käännös)
 |  |  
|  |  |  
|  |  |  
|  |  |  
|  | 
< Copyright>
 -
 |  |  
|  |  |  
|  | 
Copyright © 2004-2008 Alpo Lind. Kaikki Oikeudet Reserved.
 |  |  |  
|  |  |  
|  | 
<  Ota yhteyttä  >
 -
 |  |  |  
|  |  |  
|  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  |  
    
        |     Englanti-suomi 
            käännösohjelma 
                  Verkkosivujen 
            käännökset   Yläpuolella 
            on esimerkki verkko-osoitteen www.teemapoint.com/english.html 
            käännöstuloksesta. Muitakin osoitteita voi kokeilla, vaikkakaan sivujen lukuohjelma 
            ei pysty kunnolla käsittelemään kaikkia html-ominaisuuksia.
 
 - Syötä 
                englanninkielisen webbisivun osoite vasemmalla olevaan kenttään ja paina "Translate".
 - 
            Käännös avaa selaimessa uuden ikkunan.
 - 
            Sivun 
                5000 ensimmäistä merkkiä tulevat käännökseen mukaan.
   Uutissähkeissä 
            on suomennos tuoreimmille (BBC:n) uutisotsikoille sekä linkit alkuperäisiin 
            uutisartikkeleihin ja käännöksen tekevään ohjelmistoon.     Nettikirjoja 
            suomeksi käännösohjelmalla 
              Lue 
            aiheesta enemmän sivullanettikirjojen 
            suomentaminen työasemassa.
       |  
    
        | Lauseiden/tekstin 
            käännökset  kääntää tekstiä 
            englannista suomeksi. Hakasuluissa 
oleville sanoille ei ole vielä käännösvastineita tietokannassa taikka ohjelmisto ei ole pystynyt 
valitsemaan sopivaa vaihtoehtoa vastineiden joukosta.
 Ohjelma kääntää maksimissaan 
            3000 merkin mittaisen tekstin.
 Käännösdemoon pääsee linkistä 
            Natural Language Parser 
            for English (englannin kielen jäsennin).Käännöksiä varten tarvitaan 
            käyttäjätunnus: joko määräaikainen testitunnus taikka työasemaohjelmiston 
            tuotelisenssi.
 Toinen käyttöliittymä tälle käännösohjelmalle 
            on osoitteessa:
 http://www.teemapoint.fi/nlpdemo/servlet/Translator
   |  
 
    
        |   Options-sivun asetuksilla 
            voi tekstin lauseet ja niiden käännökset  saada tulostettua 
            myös erikseen. Näkyviin voi saada myös vaihtoehtoisia käännöstuloksia, 
            joista ohjelmisto pyrkii valitsemaan parhaimman. |    
   
    
        | Lauseenjäsennin 
            (Natural Language Parser) Keskeinen komponentti eri käyttökohteissa. 
            Lauseenjäsennin tekee lauseen sisällöstä tietorakenteen tiettyjen käsittelysääntöjen 
            perusteella ja näitä rakenteita käytetään edelleen hyväksi eri sovelluskohteissa 
            kuten englanti-suomi konekääntämisessä.
  jäsentää 
lauseita. About 
            -- JäsenninteknologiastaHelp 
            -- Toiminnot lyhyesti
 |        
    
        | Sanastotietokannat 
            (Lexical databases)
 Yksi osa lauserakenteiden 
            muodostamiseen tarvittavasta informaatiosta saadaan sanastotietokannoista. 
            WordNet on osa  järjestelmän sanastotietokantaa.
 
  tulostaa kantasanat 
            ja tekee linkit sanojen merkitysten kuvauksiin. |   
   
    
        | Sanamerkitysten purkaminen (Word 
            Sense Disambiguation)
 Jäsennin 
            pystyy selvittämän hyvin sanaluokan, kuten onko sana verbi, substantiivi, 
            adjektiivi tai adverbi. Sanojen monitulkinnan 
            purkamisessa tarvitaan jäsentimen lisäksi myös muita  menetelmiä, jotta 
            oikea sanamerkitys voidaan valita asiayhteyksien perusteella.
 
 Esimerkiksi substantiivilla "coat" kolme eri merkitystä 
            WordNet-tietokannassa..
 |   
 
    
        | Käännösvastineet "takki", 
            "kerros" ja "turkki" allaolevissa 
            esimerkeissä asiayhteyksien mukaisesti.  |        
    
        | Muita käyttökohteita Seuraavissa malleissa käytetään 
            WordNet-tietokannan sanojen käyttöesimerkkejä ja  selitysosioita (glosses) esimerkkiaineistona. 
             Aihealue (domain) voi olla myös mikä muu tahansa tekstitietokanta 
            ja siihen  voidaan käyttää näitä työkaluja apuna tiedon strukturoinnissa.  Saatua tulosta hyödynnetään 
sitten tehtäessä hakuja tietokantaan.   Tiedon poiminta (Information 
            Extraction)
 
   - Haut  merkkijonoja, sanoja 
            (mukaanlukien taivutusmuodot ja synonyymit)
 - Haut sisällön perusteella. Esimerkki: poimitaan aikaa ilmaisevia 
lausekkeita
 
 
 |  
     
    
        | Käyttöliittymät 
            (Natural Language Interfaces)
 
  - Tekstihaut kyselynä 
            luonnollisella kielellä
 - Lähtökohta: Poimitaan 
            kyselylausekkeesta avainsanoja joita käytetään parametreina tekstihaussa. 
            Huomioidaan tarvittaessa taivutusmuodot ja synonyymit.
 - Räätälöinti 
            aihe/aluekohtaisesti: 
             Käsittelysääntöjä voidaan muuttaa "älykkäämmäksi" 
            niin, että tekstistä voidaan hakea tietoa esimerkiksi merkitysten 
            ja asiayhteyksien perusteella.
 |          
    
        | Sovellusarkkitehtuuri 
            (System architecture, XML annotation) Järjestelmäarkkitehtuuri, Java & 
            servlet-teknologia, mahdollistaa, että näitä resursseja voidaan 
            testata myös hajautetussa ympäristössä.  Asiakassovellus voi 
            vastaanottaa tuloksia esimerkiksi XML-formaatissa  ja prosessoida 
            niitä koneellaan.
  tulostaa malleja xml-formatoidusta tuloksesta. 
             Rakennetta sovitetaan tarpeen mukaan.     |  Muita tuotteita suomen kielelle 
    
        | Sanojen 
            taivutusohjelma
   Taivutusgeneraattori 
            suomen kielen nomineille, verbeille ja adjektiiveille ( Java 
            API ). 
 Ohjeita: Valitse "Options". Syötä Finnish 
            inflection generator kenttään "fgen" ja palaa Submit-näppäimellä 
            takaisin demoon. FGen-painike (kuva vanhasta liittymästä jossa on Stem-näppäin) tekee taivutukset:
 Syötä 
            yksi tai useampi sana kerralla, eri sanaluokat kuitenkin eri kerroilla.
 
 Nominit: 
            (#n tai ilman)
 rata omena suunnitelma
 
 Adjektiivit:
 #a 
            hieno suuri matala terävä
 
 Verbit:
 #v syödä lukea
 
 Alla 
            olevissa kuvissa on esimerkkejä nominien ja verbien taivutusmuodoista. 
            Kaikki taivutukset eivät ole kuvissa mukana.
 |  
 
   
    
        | Morfologinen 
            jäsennin
 tekee 
            perusmuodot suomen kielen taivutusmuodoista.   Ohjelmaa 
voi kokeilla jäsennindemossa 
            valitsemalla ensin Options-sivu, jossa Morphological Parser kenttään 
            kirjoitetaan "fmorpho" ja palataan takaisin demoon Submit-näppäimellä.Morpho-näppäin 
            tulostaa tekstin sanojen kantamuodot..
       Syntaktinen jäsennin
 Englannin kielen syntaktiseen jäsentimeen kehitettyä ohjelmistoa 
            on myös testattu suppealla suomen kielen syntaksilla [huomattavasti 
            laajempi kuvaus tarvittaisiin, sopivaa suomen kielen BNF-kuvausta 
            etsitään..].
 Kuvan oikeassa puoliskossa on tulostettu  morfologisen 
            jäsentimen tuottamat kantasanat.
 |  
   
    
        | Suomenkielinen 
            (suomennettu) WordNet
 Järjestelmässä on suurelle osalle WordNetin sanoista suomenkieliset vastineet 
            (yli 50.000 kpl). 
            Lisäksi käännösohjelmisto tekee myös suomennoksen englanninkielisten 
            sanojen käyttöesimerkeistä.
 Tekstilaatikkoon voi syöttää myös 
            pidemmän tekstin, josta ohjelmisto tulostaa kunkin sanan sanaluokat 
            ja kantasanat (tämä välivaihe kohdassa: morfologinen 
            analysaattori).  Valitsemalla jokin näistä kantasanoista saadaan 
            suomennetut WordNet-tietueet näkyviin.
 |  
     Käyttömahdollisuuksia 
    
        |   Kieliteknologia 
            ei ole aiheena uusi vaikkakin termi on melko tuore.  Muun muassa 
            konekääntäminen ja tiedon poiminta kuuluvat niihin ensimmäisten 
            sovellusten joukkoon, joita on ajateltu tietokoneilla käyttää, ja 
            esimerkiksi tässä kuvatun jäsentimen määrityksiä on alettu kehittämään 
            jo 50-luvulla.  Seuraavassa enemmän uusimpien ja hieman vanhempien 
            tekniikoiden soveltamisesta ja tuloksista.    Yhteenvetoa 
            tähän mennessä tehdystä: 
                Englannin 
                kielen jäsennin (parseri) ja monia muita tähän yhteydessä olevia 
                komponentteja ja tekniikoita.Tuotteistettu 
                tekstiä suomentava ohjelma. Protovaiheessa käyttöliittymiin ja tiedon 
                poimintaan liittyvät ohjelmat.Testivaiheessa 
                kantasanojen johtaminen suomen kielen taivutusmuodoista.Suomen 
                kielen syntaksi ja jäsentimen kielikohtaiset (suomen) käsittelysäännöt 
                alkuvaiheissa.    Jäsentimessä 
            tarvittavia komponentteja, jotka ovat irrotettavissa muiden sovellusten 
            käyttöön: 
                Sanastot. 
                Mahdollista käyttää eri sanastolähteitä ja tiedostoformaatteja. 
                 Sanastot voivat olla esimerkiksi relaatiotietokanta-formaatissa, 
                jossa tiedostojen käsittely ja sanahaut hoidetaan SQL-lauseilla.Morfologinen 
                ohjelma.  Tekee taivutusmuodoista kantasanat; huomioi englannin 
                kielen yhdyssanat ja kollokaatiot.Lauserajojen 
                tunnistus.    Sovelluskohteita/tiedonhaut, 
            informaation poiminta: 
                Alkuperäisenä 
            ajatuksena on ollut toteuttaa menetelmiä, joiden avulla vapaamuotoista 
            tekstiä voitaisiin strukturoida niin, että tulokset olisivat käytettävissä 
            tekstiin tehtävissä hauissa ja tekstin sisältöön liittyvissä kyselyissä 
                 Eräs toteutustapa on käyttää lauseenjäsennintä - yhtenä 
            vaiheena - apuna tässä prosessissa. Taivutusmuotojen 
                ja kantasanojen vertailulla saavutetaan jo monia etuja 
                pelkkiin merkkijono- ja sanahakuihin perustuviin ratkaisuihin nähden.    Konekäännös: 
                Tietokoneavusteisia 
                työkaluja käännöstöihin; valmisteilla mahdollisuus omien sanastojen 
                laadinnalle. Opetuksessa/opiskelussa; 
                sovellusten muokkaaminen opetusohjelmiin soveltuviksi.    Joitain 
            visioita: 
                Semanttiset 
                verkot (Semantic Web); semanttisten rakenteiden johtaminen ja 
                luonti teksteistä(demo: Semanttinen 
                verkko eKirjojen aihesisällöistä).
 Luonnollisen kielen käyttö semanttisten 
                verkkojen kyselyliittymissä.
Verkkokirjat; automaattinen käännös sovellettavissa parhaiten 
                asiatekstiin kuten tiedejulkaisuihin. Mahdollista 
                jo nyt. Ks. myös elektronisten 
                kirjojen kääntäminen työasemaohjelmistossa.Konekääntäminen 
                ja tiedonhaut kääntäjien ja kielten opiskelun apuvälineenä; 
                haetaan tekstiä aiheiden perusteella ja tehdään käännökset löydetyistä 
                tekstikatkelmista. Esimerkiksi aikaa ilmaisevien lausekkeiden 
                poiminta (ks. esimerkki aiemmin) ja niiden käännös, tai monipuolisemmin: 
                haetaan ilmaisuja, faktoja, tapahtumia ja näiden suhteita toisiinsa....    Valmiudet: 
                Jäsentimen 
                tulosten hyödyntäminen vaatii melko perusteellista käytössä 
                olevan syntaksin tuntemusta. Tuloksia voidaan kuitenkin 
                konvertoida myös toiseen muotoon (xml-esimerkki), josta halutut 
                tiedot pomitaan muiden sovellusten käyttöön.Järjestelmässä 
                on tekniset valmiudet toteuttaa jäsennin myös 
                muille kielille kuin englannille. Suomen kielen syntaksin kuvaus on 
                samalla tavoin rakenteilla käyttäen BNF-notaatiota. Tarkemmat kielten käsittelysäännöt hoidetaan ohjelmallisesti. 
		
		Projektissa 
                voidaan lähteä liikkeelle esimerkiksi alla olevien vaiheiden mukaisesti. 
                     Vaiheita 
            ja tapoja nlp-projektin toteutukselle: 
                Aluksi 
                demoihin 
                tutustuminen.Systeemityökulun 
                vaiheita tarpeiden määrityksistä, ohjelmiston ja tietokantojen 
                suunnittelusta järjestelmän toteutukseen, jossa esimerkiksi:sovelluksia 
                rakennetaan räätälöidysti ja ensin verkossa testattaviksi. 
                Testisovellukset voidaan ottaa käyttöön vaikka samalla tavalla 
                kuin miten osa Parser 
                Servlet -demon toiminnoista asetetaan Options-sivun 
                kautta.tai 
                kuten NLP Workstation/käännösohjelmistossa 
                -  käytetään Java Web Start:ia sovellusten ja datatiedostojen 
                 lataamiseen ja automaattisiin päivityksiin.Integrointi 
                asiakassovelluksiin (Java/J2EE-tekniikat).Java-komponenttien 
                lisensointi.   Jos 
                         olet 
                        kiinnostunut tämäntyyppisistä kieliteknologiaa hyödyntävistä 
                        ratkaisuista osana tuotteitasi, taikka 
                         muuten olet kiinnostunut yhteistyössä kehittämään näitä 
                        sovelluksia, niin ota yhteyttä!     |  
    
        | 
 |  
        | www.teemapoint.com |  
    
        | Copyright ©
                        2004-2008 Alpo Lind. All Rights Reserved  |  |