Archiv der Kategorie: Korpuslinguistik

Deuten Vornamen auf die Parteizugehörigkeit?

Als ich neulich ein Wochenende in der Schweiz war, erschlugen mich beinahe die vielen Wahlplakate für die kommenden National- und Ständeratswahlen. Doch beim Lesen der vielen Namen fragte ich mich, ob es eigentlich möglich ist, vom Vornamen auf die Parteizugehörigkeit … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel | Verschlagwortet mit , , | Kommentare deaktiviert für Deuten Vornamen auf die Parteizugehörigkeit?

Wörter, die an einer Stadt kleben: Geocollocations

Paris, Stadt der Liebe, Wuppertal, die Schwebebahn, München, das Oktoberfest: An gewissen Städten kleben Wörter, die wir damit in Verbindung bringen. Ich wollte es genauer wissen. Wie sieht es mit Berlin, Bremen oder Bonn aus? Welche Wörter kleben an den … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , , , , | Kommentare deaktiviert für Wörter, die an einer Stadt kleben: Geocollocations

Bäume zeichnen: Maschinelles syntaktisches Parsing (Deutsch)

Um maschinell Wortarten zu bestimmen, gibt es fürs Deutsche den Part-of-Speech-Tagger „TreeTagger“ aus Stuttgart, eine Art Defakto-Standard fürs Deutsche (und andere Sprachen). Doch wie sieht es mit syntaktischem Parsing aus? Soeben meldete Rico Sennrich aus Zürich die Verfügbarkeit von ParZu: … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , | Kommentare deaktiviert für Bäume zeichnen: Maschinelles syntaktisches Parsing (Deutsch)

Korpora und Wirklichkeit

Heute wieder in der Kategorie „Korpuslinguistik“ ganz fachlich/sachlich: Das Recherchenblog verweist auf eine Linkliste der Seite Infobroker.ch, auf der frei zugängliche Zeitungsdatenbanken aufgeführt sind. Das sind natürlich interessante Quellen für korpuslinguistische Studien. Die Infobroker-Seite ist ein Produkt der beiden Schweizer … Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik, Korpustools | Kommentare deaktiviert für Korpora und Wirklichkeit

Intelligenz von gestern: Auch digital

Es ist völlig faszinierend: Die Stadt- und Universitätsbibliothek Bern bietet seit kurzem 31 Jahrgänge des „Intelligenzblattes für die Stadt Bern“ zur kostenlosen Nutzung im Web an, wie die NZZ und auch der Bund berichteten. Das Blatt war im 19. Jahrhundert … Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik | Kommentare deaktiviert für Intelligenz von gestern: Auch digital

Über den Wolken…

Anscheinend besuchte ich länger die Spiegel-Online-Seite nicht mehr: Erst heute fällt mir das neue Design auf. Am 6. September wurde anscheinend Version 7.0 der Nachrichtenseite veröffentlicht. Neu ist in der rechten Spalte die Darstellung „Themen des Tages“: Eine Art Wortwolke … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Kommentare deaktiviert für Über den Wolken…

Googles dreizehn Millionen N-Gramme

An der letzten Tagung des Instituts für Deutsche Sprache (IDS) berichtete Thorsten Brants (Google, Mountain View, USA) vom Google’schen Zugang zu Problemen der maschinellen Übersetzung. Um Ambiguitäten, die bei maschineller Übersetzung zwangsweise auftreten, statistisch entscheiden zu können, berechneten sie kurzerhand … Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik | Kommentare deaktiviert für Googles dreizehn Millionen N-Gramme

Mittelalterliche Handschriften: Digital

Historische elektronische Korpora sind Mangelware. Erfreulich, dass nun 100 mittelalterliche Handschriften der Stiftsbibliothek St. Gallen digital und für wissenschaftliche Zwecke frei verfügbar sind. (Cod. Sang. 658, Teil 1, 11: Robertus Monachus: Geschichte des 1. Kreuzzugs, bebildert) Im Rahmen des Projekts … Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik | Kommentare deaktiviert für Mittelalterliche Handschriften: Digital

Zeig mir wo die Bäume stehn!

Beim Wühlen in grossen Korpora sieht man manchmal den Wald vor lauter Bäumen nicht mehr. Man hangelt sich durch KWiC-Ansichten, Beleg- und Kollokationenlisten und findet kaum mehr raus. Manchmal ist es deshalb sinnvoll, Strukturen in Korpora zu visualisieren. Ausserhalb der … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Kommentare deaktiviert für Zeig mir wo die Bäume stehn!

Wörterhacken: jTokeniser

Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Beschäftigung ist das Wörterhacken – auch Tokenising genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2 ist soeben Andrew Roberts‘ jTokeniser erschienen. Ein Java-Programm mit übersichtlichem grafischem Nutzerinterface. Das Programm lädt einen … Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Kommentare deaktiviert für Wörterhacken: jTokeniser