Sanakirjasta jmdict tai edict muunnos?

Täällä voit antaa ehdotuksia ja yleistä palautetta sekä esittää kysymyksiä koko Kanjikaveri-sivustoa koskien.
HUOM! Jos et halua rekisteröityä foorumille, mutta haluat jättää kuitenkin palautetta, kirjaudu sisään tunnuksella "Vierailija" ja salasanalla "kanjikaveri".

Valvoja: Belorfyn

Sanakirjasta jmdict tai edict muunnos?

ViestiKirjoittaja Yufina » 28.02.2009 19:10

Muistaakseni tästä oli joskus puhetta vast. Mutta en löytänyt sitä enää. Viimeksi tämä taisi kaatua osaamattomuuteen (?). Tarkemin tutkittuani tämä olisikin aika yksinkertaista. Tarvitsee vain muutta tuo siljan sanakirjan pohja edict:n vaatimaan "muotoon":

Koodi: Valitse kaikki
KANJI [KANA] /english_1/english_2/.../

Esimerkiksi: 学校 [がっこう] /school/


Eli edict:hän on ihan pelkkä tekstiedosto, jossa sanat on yllä mainitulla tavalla. Korjatkaa jos olen ymmärtänyt asian ihan väärin?

Eli tuon siljan sanakirjan muuttaminen edict muotoon onnistuisi jopa kätevästi excelillä. Tosin jollain makroilla lekimällä olisi vielä helpompaa? (itse en tosin tuota niin paljon osaa).


Törmäsin tässä myös jmdic:iin, joka on tietääkseni edict kehittyneempi versio, joka tukee paremmin muita kieli. Se mikä jmdictissä on uutta niin se on tehty xml:n kanssa. En löytänyt/tiedä miten noita oikeaoppisesti käännetään eri kielelle, mutta hieaman kun tutkin tuota jmdict tieodostoa jollain notepad:lla (windows:in oma on aika köpelö. Suosittelen pspad:a). Niin tässä esimerkki yhdestä sanasta:
Koodi: Valitse kaikki
<entry>
<ent_seq>1206730</ent_seq>
<k_ele>
<keb>学校</keb>
<ke_pri>ichi1</ke_pri>
</k_ele>
<r_ele>
<reb>がっこう</reb>
<re_pri>ichi1</re_pri>
</r_ele>
<sense>
<pos>&n;</pos>
<gloss>school</gloss>
<gloss g_lang="nl" g_gend="fg">school</gloss>
<gloss g_lang="fr" g_gend="fg">école</gloss>
<gloss g_lang="ru" g_gend="fg">школа</gloss>
<gloss g_lang="de" g_gend="fg">Schule</gloss>
<gloss g_lang="de" g_gend="fg">Lehranstalt</gloss>
</sense>
</entry>


Kuten varmaan huomaatte, niin tuonne on vain lisätty <gloss g_lang="de" g_gend="fg">Lehranstalt</gloss> eri kielien kohdalla.

Ainut että tarvisi keksiä miten tuota jmdicti:ä oikeaopisesti "käänetään".

Niin ja jostain vielä luin, että edict ja jmdict olisi yhteensopvia keskenään, että löytyy ohjelma joka kääntää tms...

JOS toinen noista nyt jotenkin yksinkertaisesti tapahtuisi, niin tuon avulla saataisiin tuota japani-suomi sanakirjaa hieman yleisemmäksikin ^^


Täytyypi kokeilla miten yksinkertaisesti tuon edict tekeminen onnistuu. Ilmoittelen tässä lisää, jos jotain saan aikaiseksi ^_^.
雨降りで隠れても太陽はそこにあるはず。
Yufina
 
Viestit: 617
Liittynyt: 17.08.2006 15:02
Paikkakunta: Rauma

ViestiKirjoittaja Yufina » 01.03.2009 11:34

Aika helposti tuohan onnistui ^^. Mutta mitä mieltä olette tuon muuttamisesta edict muotoon? Ainakin sen jälkeen tuota sanakirjaa voisi käyttää kaikissa ohjelmissa, jotka tukevat edict:ä...

Ainut ongelma on nähtävästi tuon työn määrä. Mutta mitä itse tuli kokeiltua, niin ei tuo ainakaan ihan mahdoton ole. Tai itse asiassa saman verran siinä on työtä kuin tuon harjoittelu tjutun tekemisessä:D

Jos Siljalla tai kellään muulla ei ole mitään vastaa, niin voisin kyllä itsekin tehdä tuon edict muunnoksen? Tais vaikka opastaa (se kun ei kovin vaikeaa ole)...
雨降りで隠れても太陽はそこにあるはず。
Yufina
 
Viestit: 617
Liittynyt: 17.08.2006 15:02
Paikkakunta: Rauma

ViestiKirjoittaja Silja » 01.03.2009 18:05

Nyt ei oikeastaan ole kyse siitä, että tuo olisi liian työlästä vaan siitä haluanko antaa tuon sanakirjan tiedoston yleiseen jakoon. Ja vastaus tähän on: en. Syy tähän on se, että haluan ns. pitää langat omissa käsissäni tämän sanakirjan kanssa, en halua että kukaan muuttaa ja muokkaa sitä ilman lupaani ja hyväksyntääni. Jim Breeniin lisättäessä käsittääkseni kuka tahansa voi tehdä muutospyyntöjä sanastoon, tosin onhan tuossa moderointi välissä... Käytännössä minun siis pitäisi olla kyseinen moderaattori.

Lisäksi suomalaisista nettisanakirjoista esimerkiksi Ilmainen sanakirja käyttää ainakin edict-tiedostoa. Ilmainen sanakirja taas tekee yhteistyötä käännös.comin kanssa, jossa kenellä tahansa on mahdollisuus muokata käännöksiä. Taas karkaisi valvonta ja moderointi pois minun käsistäni. En tiedä miten nämä muut kieliversiot lisenssoidaan vai annetaanko niitä jakoon lainkaan, mutta edictin lisenssissä annetaan ainakin lupa muokata tiedostoa miten haluaa.

Olen kyllä miettinyt, että laittaisin tuon sanakirjatiedoston jakoon, jollain "ei saa muuttaa" -lisenssillä. Tässä tulee taas vastaan se ongelma, että haluaisin sanakirjan olevan aina ajantasalla. Jos joku kuitenkin päättää päivittää tiedoston vaikkapa vain kerran puolessa vuodessa, niin ei kyllä oikein onnistu ajantasaisuus... Varsinkin nyt kun sanakirja on vielä melko suppea, niin minusta on erittäin tärkeää että se olisi joka paikassa aina päivitettynä viimeisimpään versioon.

Mutta siis, toistaiseksi sanakirjatiedosto on ja pysyy vain näillä sivuilla.
Avatar
Silja
Ylläpitäjä
 
Viestit: 896
Liittynyt: 13.08.2006 20:39
Paikkakunta: 札幌市/Sapporo

ViestiKirjoittaja Belorfyn » 01.03.2009 20:01

Ei sanakirjan tarjoaminen eri muodossa tosin erityisesti tarkoita sitä, että "alkuperäiskopion" hallinta siirtyisi edes mihinkään toiseen sivustoon. Jos joku toinen yhdistää jonkin version omaan sanakirjaansa tai mitä lie, se on vain se versio sitten mikä on sattunut olemaan ja tuo sanakirjahan voi tämän jälkeen elää. Tai no, tämä riippuu siitä miten lisensoit sen.
Jos haluat tietää mitä minä tekisin, niin asettaisin sanakirjan versioita saataville (esim. snapshotteina aina välillä) ihan csv muodossa zipattuna public domainina.
Tuo muoto sen takia, että se vastaa suoraan nykyistä muotoa ja toisaalta siitä voi sitten joku muu urheilla mitä tahansa muotoja. Riippumatta siitä käyttäisikö sanakirjaa joku johonkin ja miten, jatkaisin sen päivittämistä ihan normaalisti.
PD lisenssillä sen takia, että se helpottaa sanakirjan käyttöä jolloin muut voivat vaikka yhdistää sen osaksi omaa sanakirjaa jossa voi jo olla vaikkapa ennestään sanoja (esim. joku netissä muokattavissa oleva). Koska tavoitteeni olisi edistää Japaninkielen opiskelua suomeksi sanakirjojen saatavuuden kautta, rajoittamaton lisenssi edistää tätä mielestäni eniten. Toki joku voi vaikka halutessaan painaa sanakirjan pohjalta kirjan ja myydä sitä tuollaisella lisenssillä, mutta kun en itse aio lyödä rahoiksi sillä kuitenkaan, se ei olisi minulta pois vaan itseasiassa sekin edistäisi parempien japani-suomi sanakirjojen saatavutta painetussa muodossa, tarjonta kun on nykyään vähän mitä on.
Tietysti voi myös valita lisenssin, joka erikseen kieltää kaupallisen käytön tms., mutta jos rajoituksia on liikaa niin käyttö estyy helposti muissakin tilanteissa.
Kun puhutaan tälläisestä aineistosta, lisenssissä on lähinnä tärkeää että se sallii uudelleenlisenssoinnin rajoitetummalla lisenssillä, jota mahdollinen seuraava käyttäjä ketjussa käyttää. Liian tiukka lisenssi estää tämän tehokkaasti. Ehkä myös joku CC lisenssi voisi olla kätevä, mutta en tiedä miten hyvin ne soveltuvat.
ミ☆ミ☆ミ☆
Belorfyn
Moderaattori
 
Viestit: 559
Liittynyt: 19.08.2006 13:27

ViestiKirjoittaja Yufina » 19.01.2011 11:37

Päivitetään tännekin hieman lisätietoa.

Oliskohan nyt korkea aika tehdä tuosta sanakirjasta tuo edict versio tms? Kohtahan sanojakin on 20 000.

Nyt mienaan ovat nämä Android puhelimet yleistyneet huimaa vauhtia ja niihin näyttää saavan marketista ilmaisen edict ohjelman (joka on kyllä omasta mielestä todella kätevä). Olisi erittin hyvä lisä tämä suomi sanakirjakin siinä. Kun tuota nettiversiota on vähän kömpelö käyttää puhelimella ja se tarvitsisi koko aika netin toimiakseen.

Mielestäni Silja joskus vuosi sitten lupasisi laittaa tämän sanakirja jakoon tms. Vieläkö tämä on voimassa?

EDIT: Itse ainakin kaipaisin tuosta sanakirjasta enemmän "kannettavaa muotoa". Juuri esim puhelimeen. Puhelin kun on aina mukana ja muutenkin tykkäisin opiskella ilman tietokonetta. Niin ei tarvitsisi sitten aina pomppia koneella ja ainahan ei nettii / koneelle edes pääse (tai viitsi mennä). Helpottaisi huomattavasti tätä opsikelua.
雨降りで隠れても太陽はそこにあるはず。
Yufina
 
Viestit: 617
Liittynyt: 17.08.2006 15:02
Paikkakunta: Rauma


Paluu Palaute Kanjikaveri-sivuista

Paikallaolijat

Käyttäjiä lukemassa tätä aluetta: Ei rekisteröityneitä käyttäjiä ja 1 vierailijaa

cron