Die phonetische Ähnlichkeit von zwei Worten wird mit Hilfe eines modifizierten Soundex-Code bestimmt. Der Soundex-Code [Knu73]basiert auf der Annahme, daß Worte, die ähnlich klingen, auch von der Semantik her ähnlich sind und wurde ursprünglich als Indexsystem für Namen verwendet: Jeder Name wird auf einen eindeutigen maximal vier Zeichen (1 Grossbuchstabe + 3 Ziffern) langen Code reduziert. Über den invertierten Index der Soundex-Codes ist dann die Suche nach Namen, die ähnlich zu einem Suchnamen sind, realisierbar. Beispielsweise würden bei einer Suche nach Einträgen mit Name=Meier auch Einträge mit Name=Meyer oder Name=Mayer zum Suchergebnis gehören.
Um die phonetische Darstellung beliebig langer Zeichenfolgen, die auch Ziffern enthalten können, miteinander vergleichen zu können, wird in BibConsist ein modifizierter Soundex-Code verwendet. Er unterscheidet sich im wesentlichen in zwei Punkten vom ursprünglichen Soundex-Code:
Modifizierter Soundex-Code:
Ähnlichkeit von Zeichenketten:
Um die Ähnlichkeit von Zeichenketten zu bestimmen, werden in BibConsist zwei verschiedene Methoden verwendet:
Neben der Ähnlichkeit überprüft BibConsist auch, ob Datensatzschlüssel mehrfach vergeben sind, ob alle Schlüssel in den Feldern precedes, succeeds und cites definiert sind, d.h. es gibt Einträge mit diesen Datensatzschlüsseln, und ob kein Schlüssel in den Feldern precedes, succeeds und cites auf den Eintrag selbst verweist. Darüberhinaus meldet BibConsist, wenn bei Büchern der Buchtitel sowohl im Feld booktitle als auch im Feld title definiert ist.
Beispiele:
Die folgenden Beispiele für verschiedene Arten von Inkonsistenzen, die mit BibConsist gefunden werden können, sind ein Auszug aus den Ergebnissen der Konsistenzprüfung von geombib in der Version von März 1997 mit BibConsist. Insgesamt haben wir dabei nur 69 Paare von inkonsistenten ähnlichen Einträgen (ohne Berücksichtigung von technischen Berichten, Diplomarbeiten, etc.) und 49 Fehler bei den Datensatzschlüsseln gefunden.
@inproceedings{aarx-clgta-96 , author = "Oswin Aichholzer and Franz Aurenhammer and G{\"u}nter Rote and Yin-Feng Xu" , title = "Constant-level greedy triangulations approximate the MWT well" , editor = "Ding-Zhu Du and Xiang-Sun Zhang and Kan Cheng" , booktitle = "Proc. Second Internat. Symp. Operations Research and its Applications, Guilin, China, December 11--13, 1996" , series = "Lecture Notes in Operations Research" , volume = 2 , publisher = "World Publishing Corp." , address = "Beijing" , year = 1996 , pages = "309--318" , precedes = "aarx-clgta-96" , update = "97.03 rote" }
@book{p-stces-93 , title = "Set Theoretic Constructions in {Euclidean} Spaces" , editor = "J. Pach" , booktitle = "New Trends in Discrete and Computational Geometry" , series = "Algorithms and Combinatorics" , volume = 10 , publisher = "Springer-Verlag" , year = 1993 , keywords = "discrete/computational geometry, book, survey papers" , comments = "contains gs-caa-93, s-barga-93, m-encg-93, k-cpvc-93, gp-asotd-93, km-hart-93, gpw-gtt-93, b-hlcpr-93, b-gcabt-93, fk-rrtpc-93, mp-rdcg-93, and k-stces-93" , update = "93.09 erickson" }
@book{s-asds-90 , author = "H. Samet" , title = "Applications of Spatial Data Structures" , publisher = "Addison-Wesley" , address = "Reading, MA" , year = 1990 , update = "97.03 schwarzkopf" } looks similar to @book{s-asdsc-90 , author = "H. Samet" , title = "Applications of Spatial Data Structures: Computer Graphics, Image Processing, and {GIS}" , publisher = "Addison-Wesley" , address = "Reading, MA" , year = 1990 , isbn = "0-201-50300-X" , keywords = "octrees" , update = "97.03 schwarzkopf, 93.09 held" }
@incollection{fs-amgfe-72 , author = "J. Fukuda and J. Suhara" , title = "Automatic Mesh Generation for Finite Element Analysis" , editor = "J. T. Oden and R. W. Clough and Y. Yamamoto" , booktitle = "Advances in Computational Methods in Structural Mechanics and Design" , publisher = "UAU Press" , address = "Hunstville, Alabama" , year = 1972 , annote = "Two phases. First randomly generates points in polygon to required density, then triangulates points by horribly complicated algorithm. Picks five points minimizing triangle edge length. Discards triangle intersecting or containing. Then picks point making this triangle and the next one as equilateral as possible." } looks similar to @incollection{sf-amgfe-72 , author = "J. Suhara and J. Fukuda" , title = "Automatic Mesh Generation for Finite Element Analysis" , editor = "J. T. Oden and R. W. Clough and Y. Yamamoto" , booktitle = "Advances in Computational Methods in Structural Mechanics and Design" , publisher = "UAU Press" , address = "Huntsville, AL" , year = 1972 , pages = "607--624" , annote = "Adds points to interior and then triangulates." }
@article{ngv-begs- , author = "M. H. Nodine and M. T. Goodrich and J. S. Vitter" , title = "Blocking for External Graph Searching" , journal = "Algorithmica" , note = "To appear" , update = "97.03 tamassia" } looks similar to @article{ngv-begs-96 , author = "M. H. Nodine and M. T. Goodrich and J. S. Vitter" , title = "Blocking for External Graph Searching" , journal = "Algorithmica" , volume = 16 , number = 2 , month = aug , year = 1996 , pages = "181--214" , update = "97.03 murali"
@inproceedings{dl-cvdrp-91 , author = "H. Djidjev and A. Lingas" , title = "On computing the {Voronoi} diagram for restricted planar figures" , booktitle = "Proc. 2nd Workshop Algorithms Data Struct." , series = "Lecture Notes Comput. Sci." , volume = 519 , publisher = "Springer-Verlag" , year = 1991 , pages = "54--64" , keywords = "Voronoi diagram, Delaunay triangulation, simple polygon, histogram" , precedes = "dl-cvdsp-95" , update = "96.09 devillers" } looks similar to @incollection{d-cvdrp-91 , author = "H. Djidjev" , title = "On computing the {Voronoi} diagram of restricted planar figures" , booktitle = "??" , series = "Lecture Notes Comput. Sci." , volume = 519 , year = 1991 , pages = "54--64" , keywords = "Voronoi diagram, lower bounds" , update = "95.09 korneenko" }
@book{o-cgc-94b , author = "J. O'Rourke" , title = "Computational Geometry in {C}" , publisher = "Cambridge University Press" , year = 1994 , update = "97.03 tamassia" } looks similar to @book{o-cgcfix-94 , author = "J. O'Rourke" , title = "Computational Geometry in {C}" , publisher = "Cambridge University Press" , year = 1994 , update = "97.03 tamassia" }
@book{t-dsna-83 , author = "R. E. Tarjan" , title = "Data Structures and Network Algorithms" , series = "CBMS-NSF Regional Conference Series in Applied Mathematics" , volume = 44 , publisher = "Society for Industrial Applied Mathematics" , year = 1983 , keywords = "graph drawing" , update = "93.09 tamassia" } looks similar to @book{t-dsna-87 , author = "R. E. Tarjan" , title = "Data Structures and Network Algorithms" , publisher = "Society for Industrial and Applied Mathematics" , address = "Philadelphia, PA" , year = 1987 }
@article{fpp-hdpgg-90 , author = "H. de Fraysseix and J. Pach and R. Pollack" , title = "How to Draw a Planar Graph on a Grid" , journal = "Combinatorica" , volume = 10 , year = 1990 , pages = "41--51" , keywords = "graph drawing" , update = "93.09 tamassia" } looks similar to @article{dpp-hdpgg-90 , author = "H. {De Fraysseix} and J. Pach and R. Pollack" , title = "How to draw a planar graph on a grid" , journal = "Combinatorica" , volume = 10 , number = 1 , year = 1990 , pages = "41--51" , keywords = "graph representation" , update = "95.09 korneenko" }
article{dv-cprac-77 , author = "A. K. Dewdney and J. K. Vranch" , title = "A convex partition of {$R^{3}$} with applications to {Crum}'s problem and {Knuth}'s post-office problem" , journal = "Utilitas Math." , volume = 12 , year = 1977 , pages = "193--199" } looks similar to article{dv-cpr3a-77 , author = "A. K. Dewdney and J. K. Vranch" , title = "Convex partition of $R^3$ with applicatton to {Crum's} problem and {Knuth's} post-office problem" , journal = "Utilitas Math." , volume = 12 , year = 1977 , pages = "193--199" , keywords = "Voronoi diagram, proximity, searching" , update = "95.09 korneenko" }
BibConsist ist ursprünglich zum Gebrauch mit der Literaturdatenbank geombib entwickelt worden, kann aber auch für andere BibTEX-Dateien verwendet werden. Um möglichst genaue Ergebnisse zu erhalten, sollten die Felder title, author, booktitle, journal, publisher, year, number, volume, pages und edition in der zu prüfenden BibTEX-Datei enthalten sein, da BibConsist diese beim Ähnlichkeitstest verwendet. Felder, die nicht in geombib verwendet werden, werden von BibConsist überlesen.
BibConsist ist Public-Domain-Software und kann über anonymous FTP von ftp.fernuni-hagen.de aus der Datei pub/fachb/inf/pri6/BibRelEx/BibConsist/BibConsist.tar geladen werden. Das Programm darf auf eigene Verantwortung beliebig benutzt, verändert oder weitergegeben werden. Für Verbesserungsvorschläge und Hinweise auf Fehler wenden Sie sich bitte an Britta Landgraf.
Zusammenfassung | Einleitung | Stand der Forschung | Datenbasis | BibConsist & BibManage | Visualisierung | Literaturverzeichnis |
© Universität Bonn, Informatik Abt. I - webmaster - Letzte Änderung: Mon Oct 15 19:15:59 2001