Universität Bonn  
[deutsch][english]

Zurück Index Vor

Informatik Abt. I BibRelEx BibConsist


BibRelEx:
Erschließung Bibliographischer Datenbanken durch Visualisierung von inhaltsbasierten Beziehungen


BibConsist: Ein Programm zur Überprüfung der Konsistenz von BibTEX-Dateien

Mit BibConsist können Inkonsistenzen in BibTEX-Dateien gefunden werden. Dazu überprüft BibConsist, ob Einträge mehrfach in der Datei vorhanden sind. Ausserdem unterstützt BibConsist geombib-Benutzer bei der Eingabe von eigenen Literaturverweisen, indem es testet, ob die Einträge in einer Benutzerdatei bereits in der Datenbank vorhanden sind. BibConsist gibt alle ähnlichen Einträge aus, so daß nicht nur exakt übereinstimmende Einträge gefunden werden. Inkonsistenzen, die von BibConsist erkannt werden, sind Einträge, die z.B. aufgrund von Tippfehlern, vertauschter Reihenfolge der Autorennamen oder fehlerhaftem Datensatzschlüssel, mehrfach vorhanden sind. Zwei Felder des gleichen Typs werden dabei als ähnlichen angesehen, wenn die Mehrzahl der Worte in diesen Feldern phonetisch ähnlich sind. Ist die Mehrheit der überprüften Felder zweier Einträge ähnlichen (title, author, booktitle, journal, publisher) oder gleich (year, number, volume, pages, edition), so wird angenommen, daß beide Einträge ähnlichen sind (Die Felder author und title gehen dabei doppelt gewichtet ein).

Die phonetische Ähnlichkeit von zwei Worten wird mit Hilfe eines modifizierten Soundex-Code bestimmt. Der Soundex-Code [Knu73]basiert auf der Annahme, daß Worte, die ähnlich klingen, auch von der Semantik her ähnlich sind und wurde ursprünglich als Indexsystem für Namen verwendet: Jeder Name wird auf einen eindeutigen maximal vier Zeichen (1 Grossbuchstabe + 3 Ziffern) langen Code reduziert. Über den invertierten Index der Soundex-Codes ist dann die Suche nach Namen, die ähnlich zu einem Suchnamen sind, realisierbar. Beispielsweise würden bei einer Suche nach Einträgen mit Name=Meier auch Einträge mit Name=Meyer oder Name=Mayer zum Suchergebnis gehören.

Um die phonetische Darstellung beliebig langer Zeichenfolgen, die auch Ziffern enthalten können, miteinander vergleichen zu können, wird in BibConsist ein modifizierter Soundex-Code verwendet. Er unterscheidet sich im wesentlichen in zwei Punkten vom ursprünglichen Soundex-Code:

Modifizierter Soundex-Code:

  1. Alle Leerzeichen und alle Zeichen bis auf Buchstaben und Ziffern werden entfernt. Alle Buchstaben werden in Grossbuchstaben umgewandelt.
  2. Der erste Buchstabe bzw. die erste Ziffer der Zeichenkette wird das erste Zeichen im Soundex-Code.
  3. Für die restliche Zeichenkette erfolgt die Umwandlung nach folgenden Regeln:
    • Alle Vokale, W, und H, werden ignoriert.
    • BFPV = b
      CGJKQSXZ = c
      L = l
      MN = m
      R = r
    • Von aufeinanderfolgenden gleichen Buchstaben bleibt nur einer erhalten.
    • Alle Ziffern werden beibehalten.

Ähnlichkeit von Zeichenketten:

Um die Ähnlichkeit von Zeichenketten zu bestimmen, werden in BibConsist zwei verschiedene Methoden verwendet:

Die erste Methode wird für Felder verwendet, in denen Worte vertauscht auftreten können, ohne daß dies in Konflikt zur Ähnlichkeit steht. Beispielsweise sind zwei author-Felder, in denen die gleichen Autoren in unterschiedlicher Reihenfolge angegeben sind, ähnlich. Felder, in denen Wortvertauschungen kritisch sind, d.h. veränderte Reihenfolge der Worte führt zu unterschiedlichen, semantisch nicht ähnlichen, Zeichenketten, werden mit der zweiten Mehtode verglichen. Diese Methode wird in BibConsist beispielsweise auf die journal-Felder angewandt.

Neben der Ähnlichkeit überprüft BibConsist auch, ob Datensatzschlüssel mehrfach vergeben sind, ob alle Schlüssel in den Feldern precedes, succeeds und cites definiert sind, d.h. es gibt Einträge mit diesen Datensatzschlüsseln, und ob kein Schlüssel in den Feldern precedes, succeeds und cites auf den Eintrag selbst verweist. Darüberhinaus meldet BibConsist, wenn bei Büchern der Buchtitel sowohl im Feld booktitle als auch im Feld title definiert ist.

Beispiele:

Die folgenden Beispiele für verschiedene Arten von Inkonsistenzen, die mit BibConsist gefunden werden können, sind ein Auszug aus den Ergebnissen der Konsistenzprüfung von geombib in der Version von März 1997 mit BibConsist. Insgesamt haben wir dabei nur 69 Paare von inkonsistenten ähnlichen Einträgen (ohne Berücksichtigung von technischen Berichten, Diplomarbeiten, etc.) und 49 Fehler bei den Datensatzschlüsseln gefunden.


BibConsist ist ursprünglich zum Gebrauch mit der Literaturdatenbank geombib entwickelt worden, kann aber auch für andere BibTEX-Dateien verwendet werden. Um möglichst genaue Ergebnisse zu erhalten, sollten die Felder title, author, booktitle, journal, publisher, year, number, volume, pages und edition in der zu prüfenden BibTEX-Datei enthalten sein, da BibConsist diese beim Ähnlichkeitstest verwendet. Felder, die nicht in geombib verwendet werden, werden von BibConsist überlesen.

BibConsist ist Public-Domain-Software und kann über anonymous FTP von ftp.fernuni-hagen.de aus der Datei pub/fachb/inf/pri6/BibRelEx/BibConsist/BibConsist.tar geladen werden. Das Programm darf auf eigene Verantwortung beliebig benutzt, verändert oder weitergegeben werden. Für Verbesserungsvorschläge und Hinweise auf Fehler wenden Sie sich bitte an Britta Landgraf.


Zusammenfassung Einleitung Stand der Forschung Datenbasis BibConsist & BibManage Visualisierung Literaturverzeichnis


[ Informatik Abt. I ] [ Forschung ] [ Lehre ] [ Publikationen ] [ Mitarbeiter ] [ Universität Bonn ]


© Universität Bonn, Informatik Abt. I - webmaster - Letzte Änderung: Mon Oct 15 19:15:59 2001