Developing a corpus from the Web

18
Developing a corpus from the Web Roman Sigg and Vanessa Shokeir

Transcript of Developing a corpus from the Web

Developing a corpus from the WebRoman Sigg and Vanessa Shokeir

Task and plan• Develop a Swabian corpus from the

materials available on the web• Steps

1. Determine research topic2. Define language3. Identify sources4. Build the corpus5. Tag corpus6. Ask query

1 Determine research topic

• We wish to investigate lexical and morphological oddities of Swabian.– Considerable resources are required for tree-structure analysis.

– This prohibits research into structural syntactic questions.

• Lexical questions our best-suited to our small and varied corpus (at least preliminarily).

• We are studying a diminutive peculiar to Swabian, -le, not used in standard German.

2 Define the language• Swabian

– the German dialect spoken North of the Donau, West the River Lech, East of the Black Forrest, and as far North as Stuttgart.

– Another possible name for Swabian is North Alemanic. • The diphthongs are a key marker of this dialect.

– e.g. ‘breit’ is [broad]• Opposed to Swiss and Standard German, the vowels

are unrounded.– e.g. ‘frosch’ is fr[e]sch

• The continuous nature of dialects makes it difficult to determine which texts may be included in our corpus.

3 Identify sources• Initially, we began our study as if we are developing an opportunistic, attempting to identify any possible source, without eliminating problematic materials.

The bible• Although the bible may not represent completely natural speech or writing, the Swabian bible is written in (close to) present day Swabian; thus its language is not as marked most biblical texts.

D Bref vum Paulus a d Kolosser uf Markgräfler Alemannisch

S1. Kapitel1,1 Paulus, ä Aposchtel Chrischti

Jesus durch d Wille Gottes, un Brueda Timotheus 1,2 a de Heilige in Kolossä, d gläubige Breda in Chrischtus: .Gnade isch mit äich un Friede vu Gott, unsam Vada (Babbe)! 1,3 Mir danke Gott, däm Vada (Babbe) unsares Herrn Jesus Chrischtus, alliziit, wenn ma(mir) fir äich bäte, 1,4 do ma(mir) ghärt hän vu äirem Glaube a Chrischtus Jesus un vu dr Liebe (Lebi), de ihr zue alle Heilige hän, 1,5 um dr Hoffnig wägä, de fir äich parat isch im Himmel. Vu ihr hän ihr scho zvor ghärt durch des Wort dr Wohret, des Evangelium, 1,6 des zue äich kumme isch,

Newpapers• Swabian newspapers contained only standard German.– http://www.szon.de/

• Other dialects are represented in newspaper writing.– e.g. Sample from Swiss German dialect newspaper column is opposite.

Samstag 24. Dezember 2005, RegionAm Rande

De Vatter

Min Vatter isch en Puuremaa gsii, und, wen ich drübernootenke, so chunnts mer iez no voor, ich hei de bescht Vatter vo der Wält ghaa. Ich hanen nie anderscht kennt, als mit graue Hoore, eme Schnauz und Auge, ase blau we Viööndli be Rägewätter und ase blau we Vermissmeinnichtli be Sunneschii. Är isch e Schtuck gröösser gsii als d Mueter, ha graad e Foti vor mer vo beide, und si lached mich aa, we wenns wettid

Plays• Plays and radio shows are written to typify the dialect. e.g. Hannes und der Burgermeister

– Klinsmann http://www.swr3.de/

• Can they be considered authentic use of the language?

• How can the audio files be made usable?

• Copyright issues?

Dialect dictionaries• These sources provide some lexical items, but do not represent speech.

Wörterbuch Schwäbisch  -  Deutsch a  ein A aldbachas Gloid  Ein aus der Mode

gekommes Kleid A alde Kuah vergisst gern, daß se au

amôl a Kalb gwea isch.  Eine alte Kuh vergisst gern, daß sie auch mal ein Kalb war.

 A Auswahl, wia d´Mäus en de Hutzla.  Ein großes Warenangebot.

 A baar Schritt laufa  Ein parr Schritte gehen

 A bees Briahle  Eine ungeniessbare Flüssigkeit

 A bissle  Ein wenig A bissle arg ..  Ein wenig sehr .. A bissle isch emmer no besser wia gar

nix.  Ein wenig ist besser als gar nichts

 A bschnoddas Heesle  Eine enge Hose A Fläschle Rooda  Eine Flasche Rotwein A fräche Gosch han  Vorlaut sein A ganz a Paddende  Mit Hochachtung über

eine im Leben stehende Frau A ganz halbs Oi  ein ganzes halbes Ei (s

Wikipedia in Swabian• The text is written in Swabian dialect.

Other sources• Personal webpages

– Must judge of speakers are actually Swabian• Project Gutenberg

– Author must be dead for 70 years, therefore not current.

• Guestbooks– Texts are short, but they reflect non-contrived writing.

• Menus and Recipes– Terms are specific and text is limited.

• Newsgroups– Swabian newsgroup alt.aeffle.und.pferdle

4 Build the corpus• Using the pre-beta version of j-bootcat, we found pages through google defined by culinary terms. – e.g. Spaetzle, Wuerstle,

Maultasche, and Trollinger• We tried to deselect all advertisements, menus, and tourist information sites: anything that was not a personally written recipe or commentary on food.

• CURRENT URL /restaur/kuechenkunde/teigwaren.htm    Badische KüchenkundeSpätzle und Knöpfle Sind Spätzle eine schwäbische Erfindung? DieSchwaben reklamieren im allgemeinen für sich, das Stammland dertypischen alemannischen Standardbeilage zu sein. Tatsache ist, dass dasVerbreitungsgebiet dieser Mehlspeise weit über Schwaben hinausgeht. DerAutor des Buches "Spätzle-Brevier" schreibt von "einem brüderlichenDurcheinander, ohne jegliche Problematik." Was so viel bedeutet, dassauf diesem Feld wenig Platz ist für badisch-schwäbischesRivalitätsstreben. Wie bei allen volkstümlichen Rezepten gibt es nichteinmal eine verbindliche Rezeptur für Spätzle und Knöpfle. Schon dieAngabe der Zahl der Eier, die auf ein Pfund Mehl kommen, schwankt von 4bis 8. Auch die Weiterverarbeitung des Teiges, Salzmenge, Mehlsorten,Wasser- oder Ölzusatz - ja oder nein -, Teigruhe, Press- oderSchabetechnik gibt es in unendlichen Variationen, so dass man nur zumindividuellen Probieren raten kann. Spätzle sind immer länglich, Knöpfledagegen immer rundlich und diese nur in Teilen Badens und im Allgäubeheimatet. Man kann mit diesem Grundrezept beginnen, welches natürlichindividuellen Wünschen angepasst werden kann. Die Menge reicht gut für 4Personen. 500 g Weizenmehl, 5 Eier, 150-200 ml Wasser, SalzTeigzubereitung: Alle Zutaten werden in einer Schüssel vermengt undgeschlagen, bis der Teig Blasen wirft. Hartgesottene Traditionalistenverwenden dazu die Hände, andere immerhin noch einen Kochlöffel mitLoch. Mit dem Handrührgerät geht es natürlich auch, obgleich dieseMethode bei den Puristen absolut verpönt ist. Wenn der Teig langsam undzäh vom Löffel fließt ohne zu reißen hat er die ideale Konsistenz.Andernfalls mehr Wasser oder noch etwas Mehl dazugeben. Prinzipiell istzur Spätzleherstellung kein besonderes Werkzeug notwendig. Ein Kochtopf,eine Schüssel, ein Sieb, ein Schaumlöffel, ein Brettchen und einKüchenmesser genügen schon. Einfacher geht es aber mit"Spezial-Werkzeugen", die allesamt von schwäbischen Tüftlern ersonnenwurden. Das Spätzlebrett ist eine wesentliche Erleichterung zumherkömmlichen Brettchen. Es ist ein normales unbeschichtetes Holzbrettmit Stil zum sicheren Festhalten. Vorne ist es spitz wie ein Keilzugeschnitten. Die keilförmige Form ermöglicht ein einfachesHerunterschaben vom Brett ins kochende Wasser. Vor dem Benutzen wird dasBrett im heißen Wasser angefeuchtet. Der Spätzleschaber ist ein flachesetwa handbreites Metallstück, das auf der einen Seite dicker

Difficulties with Bootcat• Bootcat does not excluded embedded .pdf, .gif and other non-text files.

• The quality of data is dependent on the quality of the html programming.

• Bootcat often included in extended standard German texts, included based on only a few tokens of Swabian.

5 Tag corpus• We applied a Brill-Tagger to the corpus.

• Although this tagger works well for standard German, its application to dialects is problematic. – e.g., The tagger could not recognize

isch as a verb.

6 Ask query• Searched for tokens ending in

le • Used a regular expression in a text editor.– i.e. le/s

Problems with results• Search returned unwanted terms.

– e.g. alle and Italicangle• Search returned many of the same token.– e.g. Kracherle and Spatzle

• We would like to find productive use of this diminutive – e.g. Telefonle or Computerle

• We found other languages embedded in the data.– e.g. the French le

Overall issues in dialect corpus development• Orthography is not standardized.

– Because of these inconsistencies, it would be difficult to lemmatize and to search.

• Not easy to build a functional and genuine dialect corpus with web data.

• Every page must be checked by hand to establish whether it has authentic dialect data.

Comments• Not easy to build a functional and genuine dialect corpus with web data.

• Every page must be checked by hand to establish whether it has authentic dialect data.