Module: PragmaticTokenizer::Languages::Deutsch

Includes:
Common
Defined in:
lib/pragmatic_tokenizer/languages/deutsch.rb

Constant Summary collapse

ABBREVIATIONS =
Set.new([
'a', 'a.d', 'a.k.a', 'a.s.a.p', 'abg', 'alt', 'apr', 'art', 'aug', 'b',
'b.a', 'b.s', 'best', 'bgm', 'bldg', 'btw', 'buchst', 'bzgl', 'bzw', 'c',
'ca', 'co', 'd', 'd.d', 'd.h', 'd.r', 'dergl', 'dez', 'dgl', 'dr', 'dr ',
'dt', 'dzt', 'e', 'e.l', 'e.u', 'e.v', 'ehem', 'eig', 'etc', 'etc.p.p',
'eu', 'europ', 'ev', 'ev ', 'evtl', 'f', 'f.d', 'feat', 'feb', 'ff',
'fr', 'frz', 'ft', 'g', 'gg', 'ggf', 'ggü', 'griech', 'h', 'h.c', 'h.p',
'hon', 'hosp', 'hr', 'i', 'i.a', 'i.d', 'i.d.r', 'i.f', 'i.p', 'i.z',
'ii', 'iii', 'inkl', 'int', 'iv', 'ix', 'j', 'jan', 'jul', 'jun', 'k',
'k.a', 'k.i.z', 'k.o', 'k.u.k', 'kath ', 'l', 'l.a', 'lfd', 'lt', 'ltd',
'm', 'm.e', 'm.w', 'mag', 'max', 'me', 'med', 'mind', 'mio', 'mme', 'mr',
'mrd', 'mrs', 'ms', 'mwst', 'mär', 'n', 'nov', 'nr', 'o', 'o.k', 'o.ä',
'oct', 'okt', 'omg', '', 'p', 'p.a', 'p.m', 'p.s', 'p.t', 'pol', 'pp',
'prof', 'präs', 'q', 'r', 'r.i.p', 'r.r', 'ranz', 'rd', 'rep', 'rt',
'russ', 's', 's.g', 'sen', 'sep', 'sog', 'st', 'std', 'str', 't', 'türk',
'u', 'u.a', 'u.a  ', 'u.a.m', 'u.a.v', 'u.k', 'u.s', 'u.s.w', 'u.u',
'u.v.a', 'u.v.m', 'u.ä', 'ungar', 'usf', 'usw', 'uvm', 'v', 'v.a', 'v.d',
'v.m', 'vgl', 'vi', 'vii', 'viii', 'vs', 'w', 'wg', 'wr', 'x', 'xi',
'xii', 'xiii', 'xiv', 'xix', 'xv', 'xvi', 'xvii', 'xviii', 'xx', 'y',
'z', 'z.b', 'z.t', 'z.z', 'z.zt', 'zb', 'zt', 'zw', 'zzt', 'ä', 'ö',
'öffentl', 'öst', 'österr', 'ü']).freeze
STOP_WORDS =
Set.new([
"a", "ab", "aber", "ach", "acht", "achte", "achten", "achter", "achtes",
"ag", "alle", "allein", "allem", "allen", "aller", "allerdings", "alles",
"allgemeinen", "als", "also", "am", "an", "andere", "anderen", "andern",
"anders", "au", "auch", "auf", "aus", "ausser", "ausserdem", "außer",
"außerdem", "b", "bald", "bei", "beide", "beiden", "beim", "beispiel",
"bekannt", "bereits", "besonders", "besser", "besten", "bin", "bis",
"bisher", "bist", "c", "d", "d.h", "da", "dabei", "dadurch", "dafür",
"dagegen", "daher", "dahin", "dahinter", "damals", "damit", "danach",
"daneben", "dank", "dann", "daran", "darauf", "daraus", "darf", "darfst",
"darin", "darum", "darunter", "darüber", "das", "dasein", "daselbst", "dass",
"dasselbe", "davon", "davor", "dazu", "dazwischen", "daß", "dein", "deine",
"deinem", "deiner", "dem", "dementsprechend", "demgegenüber", "demgemäss",
"demgemäß", "demselben", "demzufolge", "den", "denen", "denn", "denselben",
"der", "deren", "derjenige", "derjenigen", "dermassen", "dermaßen", "derselbe",
"derselben", "des", "deshalb", "desselben", "dessen", "deswegen", "dich", "die",
"diejenige", "diejenigen", "dies", "diese", "dieselbe", "dieselben", "diesem",
"diesen", "dieser", "dieses", "dir", "doch", "dort", "drei", "drin", "dritte",
"dritten", "dritter", "drittes", "du", "durch", "durchaus", "durfte", "durften",
"dürfen", "dürft", "e", "eben", "ebenso", "ehrlich", "ei", "ei,", "eigen",
"eigene", "eigenen", "eigener", "eigenes", "ein", "einander", "eine", "einem",
"einen", "einer", "eines", "einige", "einigen", "einiger", "einiges", "einmal",
"eins", "elf", "en", "ende", "endlich", "entweder", "er", "erst", "erste",
"ersten", "erster", "erstes", "es", "etwa", "etwas", "euch", "euer", "eure", "f",
"früher", "fünf", "fünfte", "fünften", "fünfter", "fünftes", "für", "g", "gab",
"ganz", "ganze", "ganzen", "ganzer", "ganzes", "gar", "gedurft", "gegen",
"gegenüber", "gehabt", "gehen", "geht", "gekannt", "gekonnt", "gemacht",
"gemocht", "gemusst", "genug", "gerade", "gern", "gesagt", "geschweige",
"gewesen", "gewollt", "geworden", "gibt", "ging", "gleich", "gott", "gross",
"grosse", "grossen", "grosser", "grosses", "groß", "große", "großen", "großer",
"großes", "gut", "gute", "guter", "gutes", "h", "habe", "haben", "habt", "hast",
"hat", "hatte", "hatten", "hattest", "hattet", "heisst", "her", "heute", "hier",
"hin", "hinter", "hoch", "hätte", "hätten", "i", "ich", "ihm", "ihn", "ihnen",
"ihr", "ihre", "ihrem", "ihren", "ihrer", "ihres", "im", "immer", "in", "indem",
"infolgedessen", "ins", "irgend", "ist", "j", "ja", "jahr", "jahre", "jahren",
"je", "jede", "jedem", "jeden", "jeder", "jedermann", "jedermanns", "jedes",
"jedoch", "jemand", "jemandem", "jemanden", "jene", "jenem", "jenen", "jener",
"jenes", "jetzt", "k", "kam", "kann", "kannst", "kaum", "kein", "keine", "keinem",
"keinen", "keiner", "kleine", "kleinen", "kleiner", "kleines", "km", "kommen",
"kommt", "konnte", "konnten", "kurz", "können", "könnt", "könnte", "l", "lang",
"lange", "leicht", "leide", "lieber", "los", "m", "machen", "macht", "machte",
"mag", "magst", "mahn", "man", "manche", "manchem", "manchen", "mancher", "manches",
"mann", "mehr", "mein", "meine", "meinem", "meinen", "meiner", "meines", "mensch",
"menschen", "mich", "mir", "mit", "mittel", "mochte", "mochten", "morgen", "muss",
"musst", "musste", "mussten", "muß", "mußt", "möchte", "mögen", "möglich", "mögt",
"müssen", "müsst", "müßt", "n", "na", "nach", "nachdem", "nahm", "natürlich",
"neben", "nein", "neue", "neuen", "neun", "neunte", "neunten", "neunter", "neuntes",
"nicht", "nichts", "nie", "niemand", "niemandem", "niemanden", "noch", "nun", "nur",
"o", "ob", "oben", "oder", "offen", "oft", "ohne", "p", "q", "r", "recht", "rechte",
"rechten", "rechter", "rechtes", "richtig", "rund", "s", "sa", "sache", "sagt",
"sagte", "sah", "satt", "schlecht", "schon", "sechs", "sechste", "sechsten",
"sechster", "sechstes", "sehr", "sei", "seid", "seien", "sein", "seine", "seinem",
"seinen", "seiner", "seines", "seit", "seitdem", "selbst", "sich", "sie", "sieben",
"siebente", "siebenten", "siebenter", "siebentes", "sind", "so", "solang", "solche",
"solchem", "solchen", "solcher", "solches", "soll", "sollen", "sollst", "sollt",
"sollte", "sollten", "sondern", "sonst", "soweit", "sowie", "später", "statt", "t",
"tag", "tage", "tagen", "tat", "teil", "tel", "tritt", "trotzdem", "tun", "u",
"uhr", "um", "und", "und?", "uns", "unser", "unsere", "unserer", "unter", "v",
"vergangenen", "viel", "viele", "vielem", "vielen", "vielleicht", "vier", "vierte",
"vierten", "vierter", "viertes", "vom", "von", "vor", "w", "wahr?", "wann", "war",
"waren", "wart", "warum", "was", "wegen", "weil", "weit", "weiter", "weitere",
"weiteren", "weiteres", "welche", "welchem", "welchen", "welcher", "welches", "wem",
"wen", "wenig", "wenige", "weniger", "weniges", "wenigstens", "wenn", "wer", "werde",
"werden", "werdet", "weshalb", "wessen", "wie", "wieder", "wieso", "will", "willst",
"wir", "wird", "wirklich", "wirst", "wo", "woher", "wohin", "wohl", "wollen", "wollt",
"wollte", "wollten", "worden", "wurde", "wurden", "während", "währenddem",
"währenddessen", "wäre", "würde", "würden", "x", "y", "z", "z.b", "zehn", "zehnte",
"zehnten", "zehnter", "zehntes", "zeit", "zu", "zuerst", "zugleich", "zum",
"zunächst", "zur", "zurück", "zusammen", "zwanzig", "zwar", "zwei", "zweite",
"zweiten", "zweiter", "zweites", "zwischen", "zwölf", "über", "überhaupt",
"übrigens"]).freeze
CONTRACTIONS =
{
    "auf's"             => "auf das",
    "can't"             => "cannot",
    "don't"             => "do not",
    "find's"            => "finde es",
    "für's"             => "für das",
    "g'spür"            => "gespür",
    "gab's"             => "gab es",
    "geht's"            => "geht es",
    "gibt's"            => "gibt es",
    "hab'"              => "habe",
    "hab's"             => "habe es",
    "haben's"           => "haben sie",
    "hat's"             => "hat es",
    "i'm"               => "i am",
    "ich's"             => "ich es",
    "ist's"             => "ist es",
    "it's"              => "it is",
    "kann's"            => "kann es",
    "let's"             => "let us",
    "liebesg'schichten" => "liebesgeschichten",
    "macht's"           => "macht es",
    "ob's"              => "ob es",
    "sag's"             => "sage es",
    "schaut's"          => "schaut es",
    "sich's"            => "sie es",
    "sie's"             => "sie es",
    "sieht's"           => "sieht es",
    "sind's"            => "sind es",
    "spielt's"          => "spielt es",
    "that's"            => "that is",
    "tut's"             => "tut es",
    "war's"             => "war es",
    "weil's"            => "weil es",
    "wenn's"            => "wenn es",
    "wie's"             => "wie es",
    "wir's"             => "wir es",
    "wird's"            => "wird es",
    "wär's"             => "wäre es",
    "ö's"               => "österreichs"
}.freeze

Constants included from Common

Common::EMOJI_REGEX, Common::EMOTICON_REGEX, Common::POSTFIX_EMOJI_REGEX, Common::PREFIX_EMOJI_REGEX, Common::PUNCTUATION, Common::PUNCTUATION_MAP, Common::ROMAN_NUMERALS, Common::SEMI_PUNCTUATION, Common::SPECIAL_CHARACTERS