Uncategorized

Μετατροπέας δυαδικού ↔ κειμένου — UTF-8 και ASCII

Μετατροπή κειμένου σε δυαδικό και αντίστροφα στον περιηγητή με υποστήριξη UTF-8 και ASCII.

Κείμενο για μετατροπή

Κωδικοποίηση

Ομαδοποίηση bit

Διαχωριστικό

Χαρακτήρες: 3 Bytes UTF-8: 6 Μήκος εξόδου: 53

Δυαδική έξοδος

11000110 10010011 11000110 10110101 11000110 10111001

Γρήγορη αναφορά: συνηθισμένοι χαρακτήρες ASCII σε δυαδικό 8-bit
Χαρακτήρας	Δεκαδικό	Δυαδικό (8 bit)
A	65	01000001
Z	90	01011010
a	97	01100001
z	122	01111010
0	48	00110000
9	57	00111001
(διάστημα)	32	00100000
!	33	00100001
?	63	00111111
(νέα γραμμή)	10	00001010

Συχνές ερωτήσεις

Πώς λειτουργεί η μετατροπή κειμένου σε δυαδικό;

Κάθε χαρακτήρας στο κείμενο έχει έναν αριθμητικό κωδικό (το code point). Για χαρακτήρες ASCII ο κωδικός χωράει σε 7 bit και συμπληρώνεται σε 8 με ένα μηδενικό μπροστά. Ο χαρακτήρας A έχει κωδικό 65, που σε δυαδικό είναι 01000001. Ο μετατροπέας διαβάζει κάθε χαρακτήρα, βρίσκει τον κωδικό του και γράφει τη δυαδική του αναπαράσταση byte προς byte.

Ποια η διαφορά ASCII και UTF-8;

Το ASCII καλύπτει 128 χαρακτήρες (αγγλικά γράμματα, ψηφία, σημεία στίξης) με ένα byte 7-bit ανά χαρακτήρα — δεν περιλαμβάνει ελληνικά. Το UTF-8 είναι κωδικοποίηση μεταβλητού μήκους που χειρίζεται κάθε χαρακτήρα: λατινικά, ελληνικά, κυριλλικά, κινέζικα, emoji — από 1 έως 4 bytes. Τα ελληνικά γράμματα (α, β, γ, Α, Β, Γ) χρειάζονται 2 bytes σε UTF-8. Οι ASCII χαρακτήρες ταυτίζονται με UTF-8 (1 byte). Χρησιμοποιήστε UTF-8 σχεδόν πάντα.

Γιατί αποτυγχάνει η αποκωδικοποίηση του δυαδικού μου;

Συνήθεις αιτίες: (1) οι ομάδες bit δεν είναι 8 (ή 7) bit η καθεμία — ελέγξτε για επιπλέον κενά· (2) υπάρχουν χαρακτήρες εκτός από 0 και 1· (3) το δυαδικό αντιστοιχεί σε ελλιπή ακολουθία UTF-8. Ο αποκωδικοποιητής αναφέρει τη θέση του πρώτου σφάλματος. Αν η είσοδος δεν έχει διαχωριστικά, βάλτε «Ομαδοποίηση bit» = 8 και «Διαχωριστικό» = Κανένα.

Πόσα bit ανά χαρακτήρα να χρησιμοποιήσω;

Η συνηθισμένη σύμβαση είναι 8 bit ανά byte. Το καθαρό ASCII χωράει σε 7 bit, αλλά τα αποθηκευμένα δεδομένα και τα δικτυακά πρωτόκολλα συμπληρώνουν πάντα στα 8. Χρησιμοποιήστε 7-bit μόνο για παλιά τηλετυπικά πρωτόκολλα ή ασκήσεις στο μάθημα Πληροφορικής (π.χ. ΑΕΠΠ). Οι ελληνικοί χαρακτήρες απαιτούν UTF-8 πολυ-byte, οπότε η ομαδοποίηση 7-bit δεν εφαρμόζεται.

Μπορώ να μετατρέψω ελληνικό κείμενο ή emoji;

Ναι — αρκεί η κωδικοποίηση να είναι UTF-8. Το ελληνικό α είναι δύο bytes σε UTF-8: 11001110 10110001. Το Α κεφαλαίο είναι 11001110 10010001. Χαρακτήρες CJK (κινέζικα, ιαπωνικά, κορεάτικα) είναι 3 bytes. Τα emoji συνήθως 4 bytes. Η παλιά κωδικοποίηση ISO-8859-7 για ελληνικά είναι μονό byte, αλλά πρακτικά αντικαταστάθηκε από το UTF-8. Η λειτουργία ASCII απορρίπτει κάθε χαρακτήρα εκτός εύρους 0–127.

Είναι το δυαδικό το ίδιο με τον κώδικα μηχανής;

Όχι. Το δυαδικό είναι απλώς αριθμητική βάση — βάση 2 — με δύο ψηφία, 0 και 1. Ο κώδικας μηχανής είναι η δυαδική αναπαράσταση εντολών CPU, μια συγκεκριμένη κωδικοποίηση για συγκεκριμένο επεξεργαστή (x86, ARM κ.λπ.). Το δυαδικό εδώ είναι κείμενο κωδικοποιημένο ως bytes, όχι εκτελέσιμες εντολές. Και τα δύο χρησιμοποιούν 0 και 1, γι' αυτό «δυαδικό» καθημερινά σημαίνει «κατανοητό από υπολογιστή».

Πώς μετατρέπω δυαδικό πίσω σε κείμενο;

Επιλέξτε την καρτέλα Δυαδικό → Κείμενο και επικολλήστε το δυαδικό σας. Ο αποκωδικοποιητής χωρίζει την είσοδο με βάση το διαχωριστικό (προεπιλογή: διάστημα) σε bytes, μετατρέπει κάθε ομάδα από βάση 2 στον δεκαδικό κωδικό της και συναρμολογεί το αποτέλεσμα. Για UTF-8 ενώνει σωστά τις πολυ-byte ακολουθίες ώστε π.χ. δύο bytes να συνθέσουν έναν ελληνικό χαρακτήρα.

Όλη η μετατροπή γίνεται στον περιηγητή σας. Τίποτα δεν αποστέλλεται.

Ο μετατροπέας λειτουργεί σε δύο κατευθύνσεις: κείμενο σε δυαδικό και δυαδικό σε κείμενο. Επιλέγετε κωδικοποίηση (UTF-8 ή ASCII), ομαδοποίηση bit (8, 7 ή χωρίς) και διαχωριστικό. Σε UTF-8 τα ελληνικά γράμματα χρησιμοποιούν 2 bytes: π.χ. το α κωδικοποιείται ως 11001110 10110001. Χρήσιμο για ασκήσεις ΑΕΠΠ στις Πανελλήνιες, μαθήματα Πληροφορικής σε ΕΜΠ ή ΕΚΠΑ, και κατανόηση κωδικοποιήσεων. Παράδειγμα: η λέξη Γεια σε UTF-8 8-bit είναι έξι bytes (κάθε γράμμα 2 bytes). Όλη η μετατροπή γίνεται στον περιηγητή — τίποτα δεν αποστέλλεται σε διακομιστή.