Συλλέκτης δεδομένων από το Twitter 0.2

Το πρόγραμμα συλλέγει τα πλήρη στοιχεία ενός συνόλου λογαριασμών του Twitter που εμείς ορίζουμε καθώς και όλα τα tweets αυτών των λογαριασμών και τα αποθηκεύει σε αρχεία .csv.

Το πρόγραμμα είναι στα Ελληνικά.

Χρήση του προγράμματος

Προαπαιτούμενα

  1. Αρχικά δημιουργούμε τα απαραίτητα API credentials στο Twitter στη διεύθυνση: https://apps.twitter.com/app/new

  2. Στη συνέχεια περνάμε τα διαπιστευτήρια στο αρχείο config.py

  3. Στο ίδιο αρχείο περνάμε τα usernames των λογαριασμών Twitter που θέλουμε να συλλέξουμε.

  4. Για να τρέξει το πρόγραμμα χρειάζεται τις βιβλιοθήκες tweepy και unidecode. Εγκαθιστούμε διαδοχικά τις βιβλιοθήκες με:

pip install tweepy

και

pip install unidecode

Εκτέλεση

Εκτελούμε το πρόγραμμα get-user-data.py το οποίο συλλέγει τα στοιχεία (μεταδεδομένα) των λογαριασμών που έχουμε ορίσει και τα αποθηκεύει στο αρχείο user data.csv.

Στη συνέχεια εκτελούμε το πρόγραμμα get-tweets.py το οποίο συλλέγει όλα τα tweets των λογαριασμών μαζί με τα μεταδεδομένα τους όπως αριθμός retweets, αριθμός likes κ.ά. ενώ ταυτόχρονα εφαρμόζει και ανάλυση συναισθήματος μέσω επεξεργασίας φυσικής γλώσσσας για κάθε tweet.

Αποθηκεύει όλα τα παραπάνω στοιχεία σε ισάριθμα αρχεία .csv καθώς επίσης κι ένα αρχείο με συγκεντρωτικά στοιχεία.

Αποθηκεύει επίσης και τις εικόνες προφίλ των λογαριασμών.

Να σημειωθεί ότι το Twitter έχει δύο περιορισμούς όσον αφορά στη χρήση του API:

  1. Σε κάθε αίτημα επιτρέπει τη λήψη μέχρι και 200 tweets.
  2. Συνολικά επιτρέπει τη λήψη των 3240 πιο πρόσφατων tweets από κάθε λογαριασμό.

Αυτό σημαίνει ότι τα tweets λαμβάνονται ανά διακοσάδες και ότι ο μέγιστος αριθμός tweets που μπορούμε να λάβουμε για έναν λογαριασμό είναι 3240.

Στη συνέχεια μπορούμε να δούμε ένα ενδεικτικό παράδειγμα χρήσης.