Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml
Ο Παγκόσμιος Ιστός αποτελεί σήμερα το σημαντικότερο, ίσως, μέσο παγκοσμίως για την εξεύρεση κάθε είδους πληροφορίας και οι δικτυακοί τόποι, των οποίων το πλήθος αυξάνεται συνεχώς, δέχονται πολλές επισκέψεις χρηστών καθημερινά. Οι διαχειριστές των δικτυακών τόπων, σε μία προσπάθεια να κατανοήσουν...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2007
|
Θέματα: | |
Διαθέσιμο Online: | http://nemertes.lis.upatras.gr/jspui/handle/10889/508 |
id |
nemertes-10889-508 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
025.524 |
spellingShingle |
025.524 Μπλέκας, Αλέξανδρος Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
description |
Ο Παγκόσμιος Ιστός αποτελεί σήμερα το σημαντικότερο, ίσως, μέσο παγκοσμίως
για την εξεύρεση κάθε είδους πληροφορίας και οι δικτυακοί τόποι, των οποίων το
πλήθος αυξάνεται συνεχώς, δέχονται πολλές επισκέψεις χρηστών καθημερινά. Οι
διαχειριστές των δικτυακών τόπων, σε μία προσπάθεια να κατανοήσουν τις ανάγκες
και τις επιθυμίες των χρηστών, χρησιμοποιούν τα δεδομένα της πρόσβασης στους
δικτυακούς τόπους με την ελπίδα τα δεδομένα αυτά να τους βοηθήσουν να κάνουν
το δικτυακό τους τόπο πιο χρήσιμο και αποτελεσματικό για τους τελικούς χρήστες.
Τα δεδομένα της πρόσβασης στους δικτυακούς τόπους αποθηκεύονται στους
εξυπηρετητές ιστού με τη μορφή αρχείων καταγραφής πρόσβασης (web access
logs). Τα αρχεία αυτά, είναι αρχεία κειμένου τα οποία δημιουργούνται βάσει μίας
αυτοματοποιημένης διαδικασίας και παρουσιάζουν σειριακά πληροφορίες για κάθε
αίτημα το οποίο πραγματοποιείται από έναν χρήστη προς τον εξυπηρετητή ιστού.
Κάθε ένα από τα καταγεγραμμένα αιτήματα αναπαριστάται στο αρχείο καταγραφής
πρόσβασης ως μία γραμμή κειμένου που περιλαμβάνει πολλές ετερογενείς
πληροφορίες αναφορικά με το ίδιο το αίτημα, το χρήστη που το πραγματοποίησε
και τη σελίδα ή το αρχείο του διαδικτυακού τόπου για την οποία πραγματοποιήθηκε
το αίτημα.
Το μειονέκτημα των αρχείων καταγραφής πρόσβασης είναι το γεγονός ότι
αποτελούνται από δομημένη αλλά δυστυχώς πολύ δυσανάγνωστη πληροφορία. Για
το λόγο αυτό έχουν αναπτυχθεί πολλά εμπορικά εργαλεία διαχείρισης της
πληροφορίας αυτής. Στα πλαίσια της παρούσας εργασίας, δημιουργήθηκε ένα τέτοιο
εργαλείο, το οποίο όμως έχει ως στόχο να εξάγει και να επεξεργάζεται μόνο τη
χρήσιμη πληροφορία που περιέχεται στα αρχεία καταγραφής πρόσβασης. Με τον
τρόπο αυτό, ο διαχειριστής ενός δικτυακού τόπου μπορεί να έχει στη διάθεσή του
ουσιαστικά χρήσιμα στοιχεία αναφορικά με την πρόσβαση στο δικτυακό του τόπο
τα οποία μπορούν να τον βοηθήσουν να σχεδιάσει το δικτυακό τόπο με μεγαλύτερη
αποτελεσματικότητα, δίνοντας έμφαση στις πραγματικές ανάγκες και απαιτήσεις των
χρηστών.
Στην προσέγγιση που παρουσιάζεται στην εργασία αυτή, δίδεται επίσης βαρύτητα
στην αποθήκευση και τη διαχείριση της χρήσιμης, πλέον, πληροφορίας που
προκύπτει από τα αρχεία καταγραφής πρόσβασης. Σε αυτό τον τομέα,
δημιουργήθηκε μία καινούρια γλώσσα περιγραφής των αρχείων αυτών, βασισμένη σε
XML. Σήμερα, η γλώσσα XML τείνει να αποτελέσει ένα όσο το δυνατόν πιο
καθολικό πρότυπο αποθήκευσης δεδομένων, λόγω της καλά δομημένης φύσης της
και την ανεξαρτησίας της από υπολογιστικές πλατφόρμες. Η νέα γλώσσα, λόγω της
XML φύσης της, ορίζει με ακρίβεια και πληρότητα τα στοιχεία που αποτελούν τη
χρήσιμη πληροφορία των αρχείων καταγραφής πρόσβασης.
Η νέα αυτή γλώσσα έχει ορισμένα πλεονεκτήματα που την καθιστούν πρακτική και
συνάμα λειτουργική. Η σύνταξή της και η δομή της βασίζεται στην XML, γεγονός
που της επιτρέπει να μεταφέρει τα δεδομένα της σε οποιοδήποτε υπολογιστικό
περιβάλλον και έτσι αυτά να μπορούν να τύχουν περαιτέρω επεξεργασίας. Ένα
ακόμη σημαντικό πλεονέκτημά της, είναι η εξοικονόμηση χώρου που
πραγματοποιεί. Τα αρχεία καταγραφής πρόσβασης είναι από τη φύση τους μεγάλα
σε όγκο και με την εξαγωγή της χρήσιμης πληροφορίας τους, τα αρχεία της νέας
γλώσσας μπορούν να αποθηκεύουν την πληροφορία σε πιο ευανάγνωστη και εύκολα
διαχειρίσιμη μορφή, καταλαμβάνοντας παράλληλα πολύ λιγότερο χώρο.
Η νέα γλώσσα περιγραφής αρχείων καταγραφής πρόσβασης μπορεί με ευκολία να
παραστήσει οπτικά τη χρήσιμη πληροφορία σε ποικίλες μορφές και τα αρχεία της
έχουν τη δυνατότητα να συνδυάζονται απλά και αποτελεσματικά ώστε να υπάρχει
δυνατότητα συγκέντρωσης ενοποιημένης πληροφορίας που να αφορά μεγάλες
χρονικές περιόδους. Το στοιχείο αυτό δε συναντάται συνήθως στα υπάρχοντα
εργαλεία ανάλυσης αρχείων καταγραφής πρόσβασης, τα οποία εξάγουν κατά κύριο
λόγο στατικές και καθόλου ευέλικτες μορφές αποτελεσμάτων, αποτελώντας ένα
σημαντικό πλεονέκτημα της νέας γλώσσας, καθώς από την ενοποιημένη πληροφορία
μπορούν να εξαχθούν ακόμη πιο χρήσιμα και ρεαλιστικά συμπεράσματα για την
κίνηση και τη χρήση του δικτυακού τόπου.
Στην εργασία αυτή, μελετάται η πληροφορία που περιέχεται στα αρχεία καταγραφής
πρόσβασης σε δικτυακούς τόπους, ερευνάται το πεδίο εξαγωγής και επεξεργασίας
της χρήσιμης πληροφορίας από αυτά και παρουσιάζεται αναλυτικά η νέα γλώσσα, η
οποία περιγράφει τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους, με
στόχο την καλύτερη δόμηση και διαχείριση της πληροφορίας που περιέχουν.
Παράλληλα, παρουσιάζεται ένα ολοκληρωμένο σύστημα ανάλυσης και επεξεργασίας
αρχείων καταγραφής πρόσβασης σε δικτυακούς τόπους, το οποίο εξάγει τη χρήσιμη
πληροφορία και τη μετατρέπει σε αρχεία της νέας γλώσσας, ενώ την ίδια στιγμή
προσφέρει έναν αριθμό επιπλέον λειτουργιών όπως ο συνδυασμός αρχείων της νέας
γλώσσας, η παραγωγή αρχείων με οπτικές μορφές των αποτελεσμάτων και ο έλεγχος
της εγκυρότητας των αρχείων. Το σύστημα αυτό, εκμεταλλεύεται πλήρως τα
πλεονεκτήματα της νέας γλώσσας και έχει ως στόχο τη διευκόλυνση κάθε
διαχειριστή στην προσπάθειά του να βελτιώσει τη δομή και την αποτελεσματικότητα
του δικτυακού του τόπου. |
author2 |
Γαροφαλάκης, Ιωάννης |
author_facet |
Γαροφαλάκης, Ιωάννης Μπλέκας, Αλέξανδρος |
format |
Thesis |
author |
Μπλέκας, Αλέξανδρος |
author_sort |
Μπλέκας, Αλέξανδρος |
title |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
title_short |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
title_full |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
title_fullStr |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
title_full_unstemmed |
Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
title_sort |
εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml |
publishDate |
2007 |
url |
http://nemertes.lis.upatras.gr/jspui/handle/10889/508 |
work_keys_str_mv |
AT mplekasalexandros exagōgēkaiepexergasiachrēsimēsplērophoriasapoarcheiakatagraphēsprosbasēssediktyakoustopouskaimianeaglōssaperigraphēstousbasismenēsexml |
_version_ |
1771297175240704000 |
spelling |
nemertes-10889-5082022-09-05T06:58:34Z Εξαγωγή και επεξεργασία χρήσιμης πληροφορίας απο αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους και μια νέα γλώσσα περιγραφής τους βασισμένη σε xml Μπλέκας, Αλέξανδρος Γαροφαλάκης, Ιωάννης Γαροφαλάκης, Ιωάννης Μακρής, Χρήστος Χατζηλυγερούδης, Ιωάννης Blekas, Alexandros 025.524 Ο Παγκόσμιος Ιστός αποτελεί σήμερα το σημαντικότερο, ίσως, μέσο παγκοσμίως για την εξεύρεση κάθε είδους πληροφορίας και οι δικτυακοί τόποι, των οποίων το πλήθος αυξάνεται συνεχώς, δέχονται πολλές επισκέψεις χρηστών καθημερινά. Οι διαχειριστές των δικτυακών τόπων, σε μία προσπάθεια να κατανοήσουν τις ανάγκες και τις επιθυμίες των χρηστών, χρησιμοποιούν τα δεδομένα της πρόσβασης στους δικτυακούς τόπους με την ελπίδα τα δεδομένα αυτά να τους βοηθήσουν να κάνουν το δικτυακό τους τόπο πιο χρήσιμο και αποτελεσματικό για τους τελικούς χρήστες. Τα δεδομένα της πρόσβασης στους δικτυακούς τόπους αποθηκεύονται στους εξυπηρετητές ιστού με τη μορφή αρχείων καταγραφής πρόσβασης (web access logs). Τα αρχεία αυτά, είναι αρχεία κειμένου τα οποία δημιουργούνται βάσει μίας αυτοματοποιημένης διαδικασίας και παρουσιάζουν σειριακά πληροφορίες για κάθε αίτημα το οποίο πραγματοποιείται από έναν χρήστη προς τον εξυπηρετητή ιστού. Κάθε ένα από τα καταγεγραμμένα αιτήματα αναπαριστάται στο αρχείο καταγραφής πρόσβασης ως μία γραμμή κειμένου που περιλαμβάνει πολλές ετερογενείς πληροφορίες αναφορικά με το ίδιο το αίτημα, το χρήστη που το πραγματοποίησε και τη σελίδα ή το αρχείο του διαδικτυακού τόπου για την οποία πραγματοποιήθηκε το αίτημα. Το μειονέκτημα των αρχείων καταγραφής πρόσβασης είναι το γεγονός ότι αποτελούνται από δομημένη αλλά δυστυχώς πολύ δυσανάγνωστη πληροφορία. Για το λόγο αυτό έχουν αναπτυχθεί πολλά εμπορικά εργαλεία διαχείρισης της πληροφορίας αυτής. Στα πλαίσια της παρούσας εργασίας, δημιουργήθηκε ένα τέτοιο εργαλείο, το οποίο όμως έχει ως στόχο να εξάγει και να επεξεργάζεται μόνο τη χρήσιμη πληροφορία που περιέχεται στα αρχεία καταγραφής πρόσβασης. Με τον τρόπο αυτό, ο διαχειριστής ενός δικτυακού τόπου μπορεί να έχει στη διάθεσή του ουσιαστικά χρήσιμα στοιχεία αναφορικά με την πρόσβαση στο δικτυακό του τόπο τα οποία μπορούν να τον βοηθήσουν να σχεδιάσει το δικτυακό τόπο με μεγαλύτερη αποτελεσματικότητα, δίνοντας έμφαση στις πραγματικές ανάγκες και απαιτήσεις των χρηστών. Στην προσέγγιση που παρουσιάζεται στην εργασία αυτή, δίδεται επίσης βαρύτητα στην αποθήκευση και τη διαχείριση της χρήσιμης, πλέον, πληροφορίας που προκύπτει από τα αρχεία καταγραφής πρόσβασης. Σε αυτό τον τομέα, δημιουργήθηκε μία καινούρια γλώσσα περιγραφής των αρχείων αυτών, βασισμένη σε XML. Σήμερα, η γλώσσα XML τείνει να αποτελέσει ένα όσο το δυνατόν πιο καθολικό πρότυπο αποθήκευσης δεδομένων, λόγω της καλά δομημένης φύσης της και την ανεξαρτησίας της από υπολογιστικές πλατφόρμες. Η νέα γλώσσα, λόγω της XML φύσης της, ορίζει με ακρίβεια και πληρότητα τα στοιχεία που αποτελούν τη χρήσιμη πληροφορία των αρχείων καταγραφής πρόσβασης. Η νέα αυτή γλώσσα έχει ορισμένα πλεονεκτήματα που την καθιστούν πρακτική και συνάμα λειτουργική. Η σύνταξή της και η δομή της βασίζεται στην XML, γεγονός που της επιτρέπει να μεταφέρει τα δεδομένα της σε οποιοδήποτε υπολογιστικό περιβάλλον και έτσι αυτά να μπορούν να τύχουν περαιτέρω επεξεργασίας. Ένα ακόμη σημαντικό πλεονέκτημά της, είναι η εξοικονόμηση χώρου που πραγματοποιεί. Τα αρχεία καταγραφής πρόσβασης είναι από τη φύση τους μεγάλα σε όγκο και με την εξαγωγή της χρήσιμης πληροφορίας τους, τα αρχεία της νέας γλώσσας μπορούν να αποθηκεύουν την πληροφορία σε πιο ευανάγνωστη και εύκολα διαχειρίσιμη μορφή, καταλαμβάνοντας παράλληλα πολύ λιγότερο χώρο. Η νέα γλώσσα περιγραφής αρχείων καταγραφής πρόσβασης μπορεί με ευκολία να παραστήσει οπτικά τη χρήσιμη πληροφορία σε ποικίλες μορφές και τα αρχεία της έχουν τη δυνατότητα να συνδυάζονται απλά και αποτελεσματικά ώστε να υπάρχει δυνατότητα συγκέντρωσης ενοποιημένης πληροφορίας που να αφορά μεγάλες χρονικές περιόδους. Το στοιχείο αυτό δε συναντάται συνήθως στα υπάρχοντα εργαλεία ανάλυσης αρχείων καταγραφής πρόσβασης, τα οποία εξάγουν κατά κύριο λόγο στατικές και καθόλου ευέλικτες μορφές αποτελεσμάτων, αποτελώντας ένα σημαντικό πλεονέκτημα της νέας γλώσσας, καθώς από την ενοποιημένη πληροφορία μπορούν να εξαχθούν ακόμη πιο χρήσιμα και ρεαλιστικά συμπεράσματα για την κίνηση και τη χρήση του δικτυακού τόπου. Στην εργασία αυτή, μελετάται η πληροφορία που περιέχεται στα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους, ερευνάται το πεδίο εξαγωγής και επεξεργασίας της χρήσιμης πληροφορίας από αυτά και παρουσιάζεται αναλυτικά η νέα γλώσσα, η οποία περιγράφει τα αρχεία καταγραφής πρόσβασης σε δικτυακούς τόπους, με στόχο την καλύτερη δόμηση και διαχείριση της πληροφορίας που περιέχουν. Παράλληλα, παρουσιάζεται ένα ολοκληρωμένο σύστημα ανάλυσης και επεξεργασίας αρχείων καταγραφής πρόσβασης σε δικτυακούς τόπους, το οποίο εξάγει τη χρήσιμη πληροφορία και τη μετατρέπει σε αρχεία της νέας γλώσσας, ενώ την ίδια στιγμή προσφέρει έναν αριθμό επιπλέον λειτουργιών όπως ο συνδυασμός αρχείων της νέας γλώσσας, η παραγωγή αρχείων με οπτικές μορφές των αποτελεσμάτων και ο έλεγχος της εγκυρότητας των αρχείων. Το σύστημα αυτό, εκμεταλλεύεται πλήρως τα πλεονεκτήματα της νέας γλώσσας και έχει ως στόχο τη διευκόλυνση κάθε διαχειριστή στην προσπάθειά του να βελτιώσει τη δομή και την αποτελεσματικότητα του δικτυακού του τόπου. The World Wide Web is probably the most important mean for retrieving all kinds of information nowadays and a large number of users visit the web sites every day. The web sites’ number increases rapidly and the web sites’ administrators are trying to understand what the users really need and desire. In order to achieve this, the administrators use the access data of their web sites, hoping that this data will help them make the web sites more useful and effective for the final users. The web sites’ access data is stored in the web servers in the form of documents that are called Web Access Logs. These logs are text documents, created by an automated process, which hold information about each request made from a user towards the web server, in a serial manner. Each recorded request is represented as a line of text including many heterogeneous kinds of information about the request itself, the user that made it and the page or file of the web site that was requested. Although the information held in the web access logs is structured, their main drawback is that this information is not easily readable by humans. Hence, there are many commercial tools that can analyze the web access logs’ information. This thesis includes the development of such a tool, which aims to extract and process only the useful information contained in the web access logs. This approach provides the web sites’ administrators with the ability to obtain truly useful data concerning the access to their web site. This kind of data is considered efficient for designing web sites in a more effective way, focusing on the true users’ needs and demands. This thesis presents a new approach on the web access log analysis issue, which basically focuses on the storing and management of the useful information that comes out of the web access logs. This led to the creation of a new, XML-based, language for the description of web access logs. Nowadays, XML tends to become a universal standard for storing information because of its well structured nature and its independency of computational platforms. The new language, due to its XML nature, specifies the elements that comprise the web access logs’ useful information in a strict and thorough manner. This new language has a number of advantages that make it a practical and functional language. The new language’s syntax and structure are based on XML allowing it to transfer its data towards any computational environment, where the data can be further processed. Another noticable advantage is the storage space that can be saved by using the new language. The web access logs are rather big files and the extraction of the useful information which they contain allows the new language’s files to store the access information in a more easily readable and manageable form, while occupying much less storage space. The new language for the description of web access logs may easily present the useful information of the logs in a variety of visual manners and the new language’s files have the ability to be combined easily and effectively. This last feature allows the gathering of integrated information that concerns large periods of time. It must be pointed out that this feature is not a common one among the existing commercial log analysis tools which mainly create static and not flexible reports. The easy and effective combination of the new language’s files constitutes one of the most important advantages of the language as the integrated information can lead to more useful and reliable inferences about the traffic and the usage of the web site. This thesis studies the useful information that is hidden inside the web access logs and investigates the field of this information’s extraction and processing. Furthermore, this thesis thoroughly presents the new language that describes the web access logs in order to achieve a better structure and management of their information. Moreover, a complete web access log analysis and processing system is presented, which extracts the logs’ useful information and converts it into files of the new language. The system provides a number of useful functions such as the combination of the new language’s files, the creation of files that visually present the information and the integration of a tool that validates those files. The implemented system fully exploits the new language’s advantages and aims to accommodate the administrators’ efforts for the improvement of their web sites’ structure and effectiveness. 2007-09-11T10:04:21Z 2007-09-11T10:04:21Z 2006-03 2007-09-11T10:04:21Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/508 gr Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. application/pdf |