Τα πρώτα δεδομένα: πηλός, πάπυρος, απογραφή
Τα πρώτα «δεδομένα» δεν ήταν δεδομένα— ήταν λογαριασμοί. Πριν 5.400 χρόνια, στη Σουμερία, γραφείς πίεζαν σφηνοειδή σύμβολα σε υγρές πλάκες πηλού. Κάθε πλάκα ήταν μια «εγγραφή»: πόσα πρόβατα, πόσο σιτάρι, πόσοι δούλοι. Η γραφή δεν εφευρέθηκε για ποίηση — εφευρέθηκε για λογιστική.
Σουμεριακές πινακίδες πηλού
Η αρχαιότερη γνωστή γραπτή πληροφορία: λίστες αποθεμάτων ναών. Βρέθηκαν 500.000+ πινακίδες — ο πρώτος «database» της ιστορίας. Μερικές αρχειοθετήθηκαν σε «βιβλιοθήκες» (Ashurbanipal, Νινευή).
Αιγυπτιακός πάπυρος
Ελαφρύτερος, πιο ευέλικτος από τον πηλό. Οι Αιγύπτιοι κατέγραφαν τα πάντα: φόρους, πληθυσμό, στρατιώτες, εργασίες. Ο «πάπυρος» της πρώτης «απογραφής» βρέθηκε: Census of 2 BC — ρωμαϊκή απογραφή στην Αίγυπτο, ο Ιωσήφ και η Μαρία.
Domesday Book (Αγγλία)
Ο Γουλιέλμος ο Κατακτητής διέταξε πλήρη απογραφή της Αγγλίας: κάθε σπίτι, κτήμα, ζώο, αγρότης. 13.418 τοποθεσίες καταγράφηκαν. Ο σκοπός; Φορολογία. Τα δεδομένα γεννήθηκαν — και παραμένουν — εργαλείο εξουσίας.
«Τα δεδομένα δεν είναι πληροφορία, η πληροφορία δεν είναι γνώση, η γνώση δεν είναι σοφία.»
Η εποχή της στατιστικής
Η λέξη «στατιστική» προέρχεται από τη λατινική status (κράτος) — κυριολεκτικά «η επιστήμη του κράτους». Τα δεδομένα ήταν εξουσία — και οι πρώτοι που τα χρησιμοποίησαν συστηματικά ήταν κυβερνήσεις.
🗺️ John Graunt (1662)
Ο Λονδρέζος έμπορος ανέλυσε τα «Bills of Mortality» — εβδομαδιαίες αναφορές θανάτων. Ανακάλυψε patterns: περισσότεροι πέθαιναν χειμώνα, οι γυναίκες ζούσαν περισσότερο, η πανούκλα εμφανιζόταν σε κύκλους. Θεωρείται ο πατέρας της δημογραφίας — στατιστική ανάλυση πριν καν υπάρξει ο όρος.
🗃️ Florence Nightingale (1858)
Η Nightingale δεν ήταν μόνο νοσηλεύτρια — ήταν πρωτοποριακή στατιστικολόγος. Δημιούργησε τα «polar area diagrams» (κυκλικά διαγράμματα) που απέδειξαν ότι περισσότεροι στρατιώτες πέθαιναν από ασθένεια παρά από μάχη. Τα δεδομένα της έσωσαν χιλιάδες ζωές — μέσω υγειονομικών μεταρρυθμίσεων.
🔢 Herman Hollerith (1890)
Η απογραφή ΗΠΑ 1880 χρειάστηκε 8 χρόνια για να αναλυθεί. Ο Hollerith εφηύρε μηχανές με διάτρητες κάρτες — η απογραφή 1890 ολοκληρώθηκε σε 1 χρόνο. Η εταιρεία του μετεξελίχθηκε στην IBM.
Η ψηφιακή εποχή: bits, bytes και βάσεις
IBM RAMAC 305: ο πρώτος σκληρός δίσκος
Χωρητικότητα: 5 MB. Βάρος: 1 τόνος. Κόστος: $10.000/μήνα ενοικίαση. Αποθήκευε δεδομένα σε 50 μεταλλικούς δίσκους 24 ιντσών. Σήμερα, 5 MB χωράνε σε μία φωτογραφία iPhone.
Edgar Codd: η σχεσιακή βάση δεδομένων
Ο Βρετανός μαθηματικός (IBM) δημοσίευσε «A Relational Model of Data» — θεμέλιο для SQL, Oracle, MySQL, PostgreSQL. Η ιδέα: τα δεδομένα αποθηκεύονται σε πίνακες που «σχετίζονται» μεταξύ τους. Απλό σε θεωρία — επαναστατικό στην πράξη.
Oracle: η πρώτη εμπορική SQL βάση
Ο Larry Ellison (βασισμένος στο paper του Codd) δημιούργησε τη Oracle. Πρώτος πελάτης: η CIA. Η Oracle έγινε η ραχοκοκαλιά κάθε τράπεζας, αεροπορικής, τηλεπικοινωνιακής. Ο Ellison έγινε δισεκατομμυριούχος — ο Codd δεν πήρε σχεδόν τίποτα.
World Wide Web
Ο Tim Berners-Lee δημιούργησε τον Παγκόσμιο Ιστό — και ξαφνικά τα δεδομένα δεν ήταν μόνο εσωτερικά: ήταν δημόσια, διασυνδεδεμένα, αναζητήσιμα. Η πρώτη ιστοσελίδα (info.cern.ch) εξηγούσε... τι είναι ο Παγκόσμιος Ιστός.
💾 Αποθήκευση δεδομένων ανά εποχή
Big Data: όταν τα δεδομένα γίνονται πετρέλαιο
To 2006, ο Clive Humby — ο μαθηματικός πίσω από την κάρτα πόντων Tesco Clubcard — δήλωσε: «Data is the new oil.» Η φράση εκτοξεύτηκε. Τα δεδομένα δεν ήταν πλέον μόνο αρχεία — ήταν πρώτη ύλη μιας νέας οικονομίας.
Ο όρος Big Data ορίζεται από τα «3V»: Volume (τεράστιος όγκος), Velocity (ταχύτητα δημιουργίας), Variety (ποικιλία τύπων — κείμενο, εικόνα, GPS, ήχος). Αργότερα προστέθηκαν: Veracity (αξιοπιστία) και Value (αξία). Αλλά η ουσία είναι απλή: τόσα πολλά δεδομένα που παραδοσιακά εργαλεία δεν μπορούν να τα επεξεργαστούν.
📊 Τι παράγουμε κάθε λεπτό (2024)
Google: 5,9 εκατ. αναζητήσεις
YouTube: 500 ώρες βίντεο ανεβαίνουν
WhatsApp: 41,6 εκατ. μηνύματα
Instagram: 66.000 φωτογραφίες
Email: 231,4 εκατ. emails
Spotify: 40.000 ώρες μουσικής ακρόασης
Ποιος κατέχει τα δεδομένα σου;
Η πραγματική ερώτηση δεν είναι πόσα δεδομένα υπάρχουν — αλλά ποιος τα ελέγχει. Και η απάντηση είναι: λιγότεροι από όσο νομίζεις.
🔵 Google/Alphabet
Αναζητήσεις, Gmail, Maps, YouTube, Android, Chrome, Nest, Fitbit, Waze. Η Google γνωρίζει: πού πηγαίνεις (Maps), τι ψάχνεις (Search), τι βλέπεις (YouTube), τι γράφεις (Gmail), πώς κοιμάσαι (Fitbit). Ένας μέσος χρήστης: ~5,5 GB δεδομένων στη Google.
🔵 Meta (Facebook)
Facebook, Instagram, WhatsApp, Messenger, Threads. 3,05 δισ. ημερήσιοι χρήστες. Η Meta γνωρίζει: τις σχέσεις σου, τα ενδιαφέροντά σου, τα πολιτικά σου, το πρόσωπό σου (αναγνώριση, πλέον αφαιρέθηκε). Κέρδη 2023: $39 δισ. — σχεδόν αποκλειστικά από τα δεδομένα σου.
🟠 Amazon
Τι αγοράζεις, τι ψάχνεις, τι βλέπεις (Prime Video), τι ακούς (Alexa/Echo — πάντα ακούει), τι διαβάζεις (Kindle). Το AWS (Amazon Web Services) φιλοξενεί τα δεδομένα άλλων εταιρειών: Netflix, Airbnb, CIA.
🟢 Data Brokers
Εταιρείες που αγοράζουν, συγκεντρώνουν και πωλούν δεδομένα: Acxiom, Experian, Equifax, Oracle Data Cloud. H Acxiom διαθέτει δεδομένα για 2,5 δισ. ανθρώπους, με ~1.500 στοιχεία ανά άτομο (φύλο, εισόδημα, χρέη, αγορές, κατοικίδια, πολιτικές τάσεις).
Data breaches: όταν τα δεδομένα χάνονται
Αν τα δεδομένα είναι «πετρέλαιο», τότε τα data breaches είναι οι πετρελαιοκηλίδες — αλλά πολύ χειρότερες, γιατί τα δεδομένα δεν «καθαρίζονται» ποτέ.
Yahoo: 3 δισεκατομμύρια λογαριασμοί
Η μεγαλύτερη παραβίαση στην ιστορία. Κάθε λογαριασμός Yahoo χάκαρπε. Η Yahoo αρχικά δήλωσε «1 δισ.» — τρία χρόνια αργότερα παραδέχτηκε «3 δισ.» Η εξαγορά από τη Verizon μειώθηκε κατά $350 εκατ.
Equifax: 147 εκατ. Αμερικανοί
Ονοματεπώνυμα, SSN, ημερομηνίες γέννησης, διευθύνσεις — δεδομένα που δεν αλλάζουν ποτέ. Η Equifax εντόπισε την παραβίαση 76 ημέρες μετά. Στελέχη πούλησαν μετοχές πριν την ανακοίνωση. Πρόστιμο: $700 εκατ.
Facebook: 533 εκατ. χρήστες
Τηλέφωνα, emails, ονόματα — δημοσιεύτηκαν δωρεάν σε hacker forum. Η Meta δεν ενημέρωσε τους χρήστες — ισχυρίστηκε ότι τα δεδομένα ήταν «παλιά» (2019). Η Ιρλανδική DPC επέβαλε πρόστιμο €265 εκατ.
💀 Μεγαλύτερα data breaches
AI και η εποχή των «synthetic data»
Η τεχνητή νοημοσύνη δεν θα υπήρχε χωρίς δεδομένα — είναι το «φαγητό» της. Το ChatGPT εκπαιδεύτηκε σε 570 GB κειμένου — ολόκληρο σχεδόν το Ίντερνετ. Η Midjourney σε δισεκατομμύρια εικόνες. Το GPT-4 κόστισε $100+ εκατομμύρια μόνο σε training — αλλά τα δεδομένα ήταν «δωρεάν» (scraped από web).
Νέο ερώτημα: αν μια AI εκπαιδεύτηκε στα δεδομένα σου — στα κείμενά σου, τις εικόνες σου, τη μουσική σου — ποιος κατέχει αυτό που παράγει; Η New York Times μήνυσε την OpenAI. Καλλιτέχνες μήνυσαν Midjourney/Stability AI. Η μάχη μόλις ξεκίνησε.
«Τον 20ό αιώνα, η πιο πολύτιμη πρώτη ύλη ήταν το πετρέλαιο. Τον 21ο, είναι τα δεδομένα. Αλλά υπάρχει μία κρίσιμη διαφορά: το πετρέλαιο τελειώνει. Τα δεδομένα πολλαπλασιάζονται.»
Τα δεδομένα ξεκίνησαν ως μια πλάκα πηλού σε ένα σουμεριακό ναό. Σήμερα είναι η αόρατη ύλη που χτίζει αυτοκρατορίες, κρίνει εκλογές, σχεδιάζει πόλεις, θεραπεύει ασθένειες — και παρακολουθεί κάθε σου βήμα. Η ερώτηση δεν είναι πια «πόσα δεδομένα υπάρχουν». Η ερώτηση είναι: ποιος αποφασίζει τι θα γίνουν — και αν εσύ έχεις λόγο σε αυτή την απόφαση.