
Beyond Mere Words: Advanced Text Representations for Practical Similarity Analysis
Dissertation

Zusammenfassung
This dissertation is concerned with the assessment of textual similarity based on novel language models in the context of real-world application requirements. In the light of a rapid technological development in the field of language processing and modeling, new approaches are investigated to effectively exploit these advances for textual similarity analysis. While many traditional and industrially used approaches are still based on lexical identity, this work aims to overcome the limitations of traditional models by using modern language models. Given the computational effort associated with the use of modern language models, attention is paid to fast response times, as required in many practical applications. Therefore, only representation-based methods that allow a precomputation of text representations are considered in this thesis.
The thesis consists of three main parts. First, the Bag-of-Concepts (BoC) model is reviewed, which realizes a fuzzy text representation based on word clusters instead of single word identities. These word clusters, also called concepts, are determined using word representations generated by a language model, called word embeddings. Several factors influencing the effectiveness of this model are investigated. In particular, a modification of the k-medoid clustering algorithm for balanced cluster sizes is proposed, which leads to more coherent concepts. In addition, a variant of the BoC model with soft clustering is proposed and investigated. This part of the thesis includes an empirical evaluation with 10 datasets covering two different similarity-based problems.
The second part examines the application of novel contextual language models for representation-based similarity analysis in the context of text search. For this purpose, a machine learning model is trained to generate representations that reflect the desired similarity aspect, in this case relevance, through their localization in the representation space. This includes the investigation of several factors that can have a major impact on the resulting effectiveness when training such a model. Furthermore, possible synergies between such a model and traditional retrieval algorithms such as BM25 are investigated. The gained insights are incorporated into the development of a novel model framework called CoRT (Complementary Rankings from Transformers), which exploits such synergy effects. The effectiveness and efficiency of the proposed model is evaluated empirically using an established data set for text search.
Finally, the work is extended to the application in a specific domain, namely the German legal domain. For this purpose, a special dataset is developed that serves as a benchmark for similarity search in German legal documents. Based on this dataset, the necessity of domain-specific adaptations of language models for the interpretation of domain-specific documents is investigated. In this context, the previously explored BoC and CoRT models are used to compare their effectiveness when using a generic language model against a domain-specific variant.
Zusammenfassung Diese Dissertation befasst sich mit der Bestimmung von Textähnlichkeit auf der Basis neuartiger Sprachmodelle im Kontext der Anforderungen realer Anwendungen. Vor dem Hintergrund einer rasanten technologischen Entwicklung im Bereich der Sprachverarbeitung und -modellierung werden neuartige Ansätze untersucht, um diese Fortschritte für die Textähnlichkeitsanalyse effektiv zu nutzen. Während viele traditionelle und industriell genutzte Ansätze noch auf lexikalischer Identität basieren, zielt diese Arbeit darauf ab, die Beschränkungen traditioneller Modelle durch die Verwendung moderner Sprachmodelle zu überwinden. Angesichts des mit der Verwendung moderner Sprachmodelle verbundenen Rechenaufwands wird dabei auf schnelle Antwortzeiten geachtet, wie sie in vielen praktischen Anwendungen benötigt werden. Daher werden in dieser Arbeit ausschließlich repräsentationsbasierte Verfahren betrachtet, die eine Vorberechnung von Textrepräsentationen erlauben. Die Arbeit ist in drei Hauptteile gegliedert. Zunächst wird das Bag of Concepts (BoC) Modell behandelt, das eine unscharfe Textrepräsentation auf der Basis von Wortgruppen anstelle der Identität einzelner Wörter realisiert. Diese Wortgruppen, hier auch Konzepte genannt, werden mit Hilfe von Wortrepräsentationen bestimmt, die durch ein Sprachmodell erzeugt werden, auch bekannt als Word Embeddings. Verschiedene Faktoren, die die Effektivität dieses Modells beeinflussen, werden untersucht. Insbesondere wird eine Modifikation des k-Medoid-Clustering-Algorithmus für ausgewogene Clustergrößen vorgeschlagen, die zu kohärenteren Konzepten führt. Darüber hinaus wird eine Variante des BoC-Modells mit “soft”-Clustering vorgeschlagen und untersucht. Dieser Teil der Arbeit beinhaltet eine empirische Evaluierung mit 10 Datensätzen, die zwei verschiedene ähnlichkeitsbasierte Probleme abdecken. Im zweiten Teil wird die Anwendung neuartiger kontextueller Sprachmodelle für die repräsentationsbasierte Ähnlichkeitsanalyse im Kontext der Textsuche untersucht. Dazu wird ein Machine-Learning-Modell darauf trainiert, Repräsentationen zu erzeugen, die durch ihre Lokalisierung im Repräsentationsraum den gewünschten Ähnlichkeitsaspekt, hier Relevanz, wiedergeben. Dies beinhaltet die Untersuchung der wichtigsten Faktoren beim Anlernen eines solchen Modells, die einen großen Einfluss auf die resultierende Effektivität des Modells haben. Darüber hinaus werden mögliche Synergien zwischen einem solchen Modell und traditionellen Retrievalalgorithmen wie BM25 untersucht. Die gewonnenen Erkenntnisse fließen in die Entwicklung eines neuartigen Modell- Frameworks namens CoRT (Complementary Rankings from Transformers) ein, das solche Synergieeffekte ausnutzt. Die Effektivität und Effizienz des vorgeschlagenen Modells wird empirisch anhand eines etablierten Datensatzes zur Textsuche evaluiert. Schließlich wird die Arbeit auf die Anwendung in einer speziellen Domäne, nämlich der deutschen Rechtsdomäne, ausgeweitet. Zu diesem Zweck wird ein spezieller Datensatz entwickelt, der als Benchmark für Ähnlichkeitssuche in deutschen Rechtsdokumenten dient. Anhand dieses Datensatzes wird die Notwendigkeit domänenspezifischer Anpassungen von Sprachmodellen für die Interpretation domänenspezifischer Dokumente untersucht. In diesem Zusammenhang werden die zuvor untersuchten Modelle BoC und CoRT herangezogen um ihre Effektivität bei der Verwendung eines generischen Sprachmodells mit der einer domänenspezifischen Variante zu vergleichen.
Schlagworte
Information Retrieval
Machine Learning
Text Similarity
Natural Language Processing
Representation Learning
Machine Learning
Text Similarity
Natural Language Processing
Representation Learning
DDC-Klassifikation
000 Informatik, Wissen, Systeme
Umfang
xiv ungezählte Seiten, 170 Seiten, 12 ungezählte Seiten
Einrichtung
Fachbereich Design Informatik Medien
Promotionszentrum Angewandte Informatik
Promotionszentrum Angewandte Informatik
Link zur Veröffentlichung
Sammlungen
- Alle Dissertationen [13]
BibTeX
@phdthesis{Wrzalik2024,
author={Wrzalik, Marco},
title={Beyond Mere Words: Advanced Text Representations for Practical Similarity Analysis},
pages={xiv ungezählte Seiten, 170 Seiten, 12 ungezählte Seiten},
year={2024},
school={Hochschule RheinMain, Wiesbaden},
url={https://hlbrm.pur.hebis.de/xmlui/handle/123456789/237},
doi={10.25716/pur-141}
}