Wikipedia:Bar/Discussioni/Template Unicode a tappeto nelle voci

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Template Unicode a tappeto nelle voci NAVIGAZIONE


Qualche tempo fa era stato proposto qui di trovare un modo per far inserire ad un bot il template {{Avvisounicode}} in tutte le voci che contengono caratteri unicode e che ne sono sprovviste.

Dopo un po' di discussioni si è deciso di considerare tutte le voci che contengono caratteri diversi da quelli presenti nella tabella ASCII.

Fatta la richiesta, e creata la lista (enorme).

In questa lista appaiono voci che hanno caratteri "unicode" tipo il RIGHT SINGLE QUOTATION MARK o il EN DASH, ecc.

Si tratta di caratteri potenzialmente non visualizzabili da un lettore, che quindi potrebbe aver bisogno di informazioni per risolvere il problema (informazioni presenti nel suddetto template "Avvisounicode").

Visto che parliamo di taaaante voci, prima di far partire il bot di Mauro voglio sapere se siete d'accordo con l'inserimento a tappeto. Jalo 00:08, 18 nov 2009 (CET)[rispondi]

Per precisare, il lettore che non vede questi caratteri troverebbe al loro posto caratteri che riportano solo numeri di codice unicode, come questi. Jalo 00:17, 18 nov 2009 (CET)[rispondi]
O un quadratino vuoto (dipende dal browser). --79.10.160.50 (msg) 08:56, 18 nov 2009 (CET)[rispondi]
Male non fa. A margine, noto che al momento il template va a finire nel banner, circostanza che di fatto lo "ammazza" (non so se valga per tutti: io uso FF 3.5.5). Bisognerebbe abbassarlo in qualche modo, in modo da renderlo visibile sia quando il banner c'è che in sua assenza. --Formica rufa 09:21, 18 nov 2009 (CET)[rispondi]
A ri-margine, faccio notare che anche {{coord}} e le coordinate in genere rimangono sotto al banner. La cosa è risolvibile? --gvnn scrivimi! 10:31, 18 nov 2009 (CET)[rispondi]
-1000. La tabella che avete scelto senza conoscere a fondo l'argomento (il codice ASCII propriamente detto ha solo 128 caratteri per esempio, non 256) e' quella del DOS, vecchia di 15 anni e non valida da Windows 95 in poi (forse Windows 3.1). Windows in Italia usa una sua estensione di ISO-8859-1, chiamata Windows-1252, e per esempio i caratteri per disegnare in Windows e Linux non sono presenti nei punti indicati dalla tabella. Propongo questi passaggi:
1) far passare un bot a tappeto per convertire le estensioni Microsoft (caratteri 80-9f) nei corrispondenti caratteri Unicode o nelle corrispondenti entita' HTML; sono quasi sicuro che questo bot esista gia'.
2) seguire questa lista; per le estensioni Microsoft (caratteri 80-9f) vengono permessi sia appunto le estensioni sia i caratteri Unicode corrispondenti (presenti nella tabella su en.wiki), perche' tanto poi passa il bot di cui al punto 1 a convertirle. Questo permetterebbe l'uso dei seguenti caratteri: 0x20AC, 0x80, 0x201A, 0x82, 0x192, 0x83, 0x201E, 0x84, 0x2026, 0x85, 0x2020, 0x86, 0x2021, 0x87, 0x2030, 0x89, 0x2039, 0x8A, 0x2018, 0x91, 0x2019, 0x92, 0x201C, 0x93, 0x201D, 0x94, 0x2022, 0x95, 0x2013, 0x96, 0x2014, 0x97, 0x2122, 0x99, 0x203A, 0x8A.
Di fatto anche i caratteri dell'Europa centrale (Windows-1250) sono disponibili su tutti i computer, e si potrebbero (secondo me dovrebbero) permettere pure quelli. --balabiot 10:28, 18 nov 2009 (CET)[rispondi]
Non sono un dotto dell'argomento, anzi ne sono abbastanza ignorante, suppongo sia vero ciò che hai detto, ma farei attenzione al fatto che il mondo non è a immagine e somiglianza di Windows...--Nickanc Fai bene a dubitarecontributi 17:14, 18 nov 2009 (CET)[rispondi]
Appunto, di solito e' meglio ;-) se non altro perche' ci sono meno problemi di compatibilita' all'indietro. I Mac sono tutti abbastanza recenti da avere supporto perfetto per Unicode, e per Linux direi che dal 2003 in poi non ci dovrebbe essere problema (ma probabilmente anche prima). L'unico problema sono quelle estensioni Microsoft, che esulano dall'argomento {{Avvisounicode}} e vanno sistemate in altro modo. --balabiot 19:32, 18 nov 2009 (CET)[rispondi]
Perfetto, se fai avere a Mauro742 la lista giusta dei caratteri potrà usare il bot sulle voci giuste. Invece nel merito, ovvero sull'introduzione del template, sei d'accordo? Jalo 19:50, 18 nov 2009 (CET)[rispondi]
(rientro) Per generare la lista utilizzo i dump prodotti settimanalmente. Questi file XML utilizzano UTF-8: al momento aggiungo alla lista le voci che hanno caratteri con codice unicode maggiore di 0xFF. Da quanto ho capito devo escludere i caratteri presenti nelle estensioni MS (cioè non considerare i caratteri 0x20AC, 0x80, 0x201A, ecc al fine di generare la lista). Giusto? --Mauro742 (msg) 20:33, 18 nov 2009 (CET)[rispondi]
si', esatto, ecco la lista:
estensioni microsoft (sia il codice unicode sia quello microsoft):
<U20AC>     /x80         EURO SIGN
<U201A>     /x82         SINGLE LOW-9 QUOTATION MARK
<U0192>     /x83         LATIN SMALL LETTER F WITH HOOK
<U201E>     /x84         DOUBLE LOW-9 QUOTATION MARK
<U2026>     /x85         HORIZONTAL ELLIPSIS
<U2020>     /x86         DAGGER
<U2021>     /x87         DOUBLE DAGGER
<U2030>     /x89         PER MILLE SIGN
<U2039>     /x8b         SINGLE LEFT-POINTING ANGLE QUOTATION MARK
<U2018>     /x91         LEFT SINGLE QUOTATION MARK
<U2019>     /x92         RIGHT SINGLE QUOTATION MARK
<U201C>     /x93         LEFT DOUBLE QUOTATION MARK
<U201D>     /x94         RIGHT DOUBLE QUOTATION MARK
<U2022>     /x95         BULLET
<U2013>     /x96         EN DASH
<U2014>     /x97         EM DASH
<U02DC>     /x98         SMALL TILDE
<U2122>     /x99         TRADE MARK SIGN
<U203A>     /x9b         SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
(ho lasciato per sicurezza solo le estensioni che capitano piu' spesso a causa del copia-incolla da word, ce ne sono altre tipo Œ o Ž ma dubito che ne abbiamo.
europa occidentale: unicode compreso tra 0xa0 e 0xff
infine ecco un'altra lista con le rimanenti estensioni microsoft (solo il carattere unicode, non quello tra 0x80 e 0x9f che infatti non ho riportato) + le estensioni all'alfabeto latino per l'europa centrale/orientale; tutti questi dovrebbero esser presenti da Windows 95 in poi (se ricordo bene anche i caratteri greci e cirillici c'erano, e anche altre estensioni all'alfabeto latino, ma e' meglio star stretti):
<U0100>                  LATIN CAPITAL LETTER A WITH MACRON
<U0101>                  LATIN SMALL LETTER A WITH MACRON
<U0102>                  LATIN CAPITAL LETTER A WITH BREVE
<U0103>                  LATIN SMALL LETTER A WITH BREVE
<U0104>                  LATIN CAPITAL LETTER A WITH OGONEK
<U0105>                  LATIN SMALL LETTER A WITH OGONEK
<U0106>                  LATIN CAPITAL LETTER C WITH ACUTE
<U0107>                  LATIN SMALL LETTER C WITH ACUTE
<U010C>                  LATIN CAPITAL LETTER C WITH CARON
<U010D>                  LATIN SMALL LETTER C WITH CARON
<U010E>                  LATIN CAPITAL LETTER D WITH CARON
<U010F>                  LATIN SMALL LETTER D WITH CARON
<U0110>                  LATIN CAPITAL LETTER D WITH STROKE
<U0111>                  LATIN SMALL LETTER D WITH STROKE
<U0112>                  LATIN CAPITAL LETTER E WITH MACRON
<U0113>                  LATIN SMALL LETTER E WITH MACRON
<U0116>                  LATIN CAPITAL LETTER E WITH DOT ABOVE
<U0117>                  LATIN SMALL LETTER E WITH DOT ABOVE
<U0118>                  LATIN CAPITAL LETTER E WITH OGONEK
<U0119>                  LATIN SMALL LETTER E WITH OGONEK
<U011A>                  LATIN CAPITAL LETTER E WITH CARON
<U011B>                  LATIN SMALL LETTER E WITH CARON
<U0122>                  LATIN CAPITAL LETTER G WITH CEDILLA
<U0123>                  LATIN SMALL LETTER G WITH CEDILLA
<U012A>                  LATIN CAPITAL LETTER I WITH MACRON
<U012B>                  LATIN SMALL LETTER I WITH MACRON
<U012E>                  LATIN CAPITAL LETTER I WITH OGONEK
<U012F>                  LATIN SMALL LETTER I WITH OGONEK
<U0136>                  LATIN CAPITAL LETTER K WITH CEDILLA
<U0137>                  LATIN SMALL LETTER K WITH CEDILLA
<U0139>                  LATIN CAPITAL LETTER L WITH ACUTE
<U013A>                  LATIN SMALL LETTER L WITH ACUTE
<U013B>                  LATIN CAPITAL LETTER L WITH CEDILLA
<U013C>                  LATIN SMALL LETTER L WITH CEDILLA
<U013D>                  LATIN CAPITAL LETTER L WITH CARON
<U013E>                  LATIN SMALL LETTER L WITH CARON
<U0141>                  LATIN CAPITAL LETTER L WITH STROKE
<U0142>                  LATIN SMALL LETTER L WITH STROKE
<U0143>                  LATIN CAPITAL LETTER N WITH ACUTE
<U0144>                  LATIN SMALL LETTER N WITH ACUTE
<U0145>                  LATIN CAPITAL LETTER N WITH CEDILLA
<U0146>                  LATIN SMALL LETTER N WITH CEDILLA
<U0147>                  LATIN CAPITAL LETTER N WITH CARON
<U0148>                  LATIN SMALL LETTER N WITH CARON
<U014C>                  LATIN CAPITAL LETTER O WITH MACRON
<U014D>                  LATIN SMALL LETTER O WITH MACRON
<U0150>                  LATIN CAPITAL LETTER O WITH DOUBLE ACUTE
<U0151>                  LATIN SMALL LETTER O WITH DOUBLE ACUTE
<U0152>                  LATIN CAPITAL LIGATURE OE
<U0153>                  LATIN SMALL LIGATURE OE
<U0154>                  LATIN CAPITAL LETTER R WITH ACUTE
<U0155>                  LATIN SMALL LETTER R WITH ACUTE
<U0158>                  LATIN CAPITAL LETTER R WITH CARON
<U0159>                  LATIN SMALL LETTER R WITH CARON
<U015E>                  LATIN CAPITAL LETTER S WITH CEDILLA
<U015F>                  LATIN SMALL LETTER S WITH CEDILLA
<U0160>                  LATIN CAPITAL LETTER S WITH CARON
<U0161>                  LATIN SMALL LETTER S WITH CARON
<U0162>                  LATIN CAPITAL LETTER T WITH CEDILLA
<U0163>                  LATIN SMALL LETTER T WITH CEDILLA
<U016A>                  LATIN CAPITAL LETTER U WITH MACRON
<U016B>                  LATIN SMALL LETTER U WITH MACRON
<U016E>                  LATIN CAPITAL LETTER U WITH RING ABOVE
<U016F>                  LATIN SMALL LETTER U WITH RING ABOVE
<U0170>                  LATIN CAPITAL LETTER U WITH DOUBLE ACUTE
<U0171>                  LATIN SMALL LETTER U WITH DOUBLE ACUTE
<U0172>                  LATIN CAPITAL LETTER U WITH OGONEK
<U0173>                  LATIN SMALL LETTER U WITH OGONEK
<U0178>                  LATIN CAPITAL LETTER Y WITH DIAERESIS
<U0179>                  LATIN CAPITAL LETTER Z WITH ACUTE
<U017A>                  LATIN SMALL LETTER Z WITH ACUTE
<U017B>                  LATIN CAPITAL LETTER Z WITH DOT ABOVE
<U017C>                  LATIN SMALL LETTER Z WITH DOT ABOVE
<U017D>                  LATIN CAPITAL LETTER Z WITH CARON
<U017E>                  LATIN SMALL LETTER Z WITH CARON
<U02C7>                  CARON (Mandarin Chinese third tone)
<U02D8>                  BREVE
<U02D9>                  DOT ABOVE (Mandarin Chinese light tone)
<U02DB>                  OGONEK
<U02DD>                  DOUBLE ACUTE ACCENT
adesso do un occhio alle pagine con il left-to-right mark (questa non me l'aspettavo, sono curioso di vedere che cosa ci fanno!).
come si vede dalla lista, una volta fatte le cose bene (quindi una volta rifatta la lista che sperabilmente sara' molto piu' corta!) sono d'accordo con l'introduzione del template. :-) --balabiot 21:15, 18 nov 2009 (CET)[rispondi]

Ho aggiornato l'elenco. Invito di darci un'occhiata; comunque rispetto a prima l'elenco è moooolto più breve :) --Mauro742 (msg) 21:32, 20 nov 2009 (CET)[rispondi]
pero', sono 50000 ed e' "moooolto piu' breve"... ;-)
ho trovato qualche caso dubbio, per esempio · ½ (soprattutto le freccine sono abbastanza comuni, anche nei template), pero' per il resto va bene direi. se hai voglia di rifare il lavoro, su en.wiki ho trovato l'elenco dei caratteri presenti gia' in tutti i Windows da 95 in poi (WGL-4). escludendo (piu' o meno arbitrariamente) greco e cirillico e omettendo per brevita' i caratteri fino al 256 (per i quali va bene quanto gia' stabilito), quello che avanza sono i seguenti caratteri:
U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F
010 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
011 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
012 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
013 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
014 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
015 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
016 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
017 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
019   ƒ  
01F   Ǻ ǻ Ǽ ǽ Ǿ ǿ
02C   ˆ ˇ   ˉ  
02D   ˘ ˙ ˚ ˛ ˜ ˝  
1E8  
1EF    
201      
202    
203          
204    
207  
20A        
210    
211      
212     Ω    
215    
219  
220      
221        
222      
224    
226    
25B      
25C    
FB0    
Le freccine non sono così comuni. Spesso mi è capitato di modificare il testo con editor esteri, e di perdermeli Jalo 14:35, 21 nov 2009 (CET)[rispondi]
e' un problema diverso da quello della visualizzazione, cmq per me nessun problema. per curiosita' che editor esterno era? --balabiot 16:48, 21 nov 2009 (CET)[rispondi]
Notepad++ Jalo 15:11, 22 nov 2009 (CET)[rispondi]

Sull'esclusione di greco e cirillico: sostengo di escluderli però allora andrebbero esclusi anche ŠšŢţŤťŦŧŴŵŶŷŸŹźŻżŽžſ che sinceramente trovo molto meno comuni e usati di α. L'unico alfabeto greco effettivamente fuori da win è il greco politonico. però non sono esperto nell'argomento.--Nickanc Fai bene a dubitarecontributi 13:40, 23 nov 2009 (CET) Dunque?--Nickanc Fai bene a dubitarecontributi 22:08, 27 nov 2009 (CET)[rispondi]

Su enwiki, alla pagina en:Help:Special characters, si dice che i caratteri presenti in Windows Glyph List 4 possono essere usati senza problemi. Io sarei d'accordo per includerli nella whitelist in modo da poter rigenerare l'elenco e vedere se ci sono altri problemi --Mauro742 (msg) 09:54, 30 nov 2009 (CET)[rispondi]
@Nickanc, perche' escluderesti quelli?
@Mauro742: WGL4 = greco + cirillico + lista qua sopra. Sono d'accordo con te, se vogliamo escludere i problemi di editing (e non solo quelli di visualizzazione) dovremmo utilizzare le entita' HTML invece dell'unicode per i caratteri speciali. Potremmo creare un bot entit-izzatore contestualmente a quello per il template? --balabiot 12:16, 30 nov 2009 (CET)[rispondi]

Mi sembrava che se si escludeva il cirillico e il greco come hai detto più sopra allora imho sarebbero state da escludere anche caratteri molto meno usati e riconosciuti. Però ho capito solo ora che escludendo nel messaggio la sopra (escludendo (piu' o meno arbitrariamente) greco e cirillico) significava non scrivendo anziché omettendolo dal controllo del bot. dal en:Windows Glyph List 4 escluderei dalla whitelist i caratteri segnati qui come optional e private use, imho. Quindi, se non ho capito male e seguendo questo ragionamento la richiesta diventa:

  1. Convertire le estensioni Microsoft (caratteri 80-9f) nei corrispondenti caratteri Unicode o nelle corrispondenti entita' HTML; sono quasi sicuro che questo bot esista gia'.
  2. Se una voce contiene caratteri non appartenenti a en:Windows Glyph List 4 e non ha il template {{avvisounicode}}, aggiungere il template.
  3. Se una voce ha {{avvisounicode}} ma contiene solo caratteri di en:Windows Glyph List 4, inserirla in una lista da controllare a mano (mi sembra che sia indifferente in che pagina sia la lista, purché si sappia dov'è)

Da ripetere ogni 15 giorni per sempre: quindi da inserire in Wikipedia:Bot/Richieste/Errori comuni e Wikipedia:Bot/Sostituzioni? Giusto?--Nickanc Fai bene a dubitarecontributi 19:09, 30 nov 2009 (CET)[rispondi]

fuori cron con escludendo intendevo "escludendo dalla whitelist anche se sono in WGL4" con l'idea che se non vedi una freccina fa niente, magari passa anche inosservata, ma la possibilità che vada persa una intera traslitterazione è più problematica e vale bene quale template in più. la tabella che avevo preparato già escludeva gli optional e private. mi pare un'ottima cosa aver raggiunto il consenso! --balabiot 16:06, 5 dic 2009 (CET)[rispondi]
✔ Fatto Sono d'accordo --Mauro742 (msg) 14:19, 1 dic 2009 (CET)[rispondi]

Dunque annullo la richiesta precedente e ne faccio una nuova con queste modalità in attesa di un bot che se ne occupi?--Nickanc Fai bene a dubitarecontributi 14:38, 3 dic 2009 (CET)[rispondi]

Direi di aspettare un paio di giorni (tempo che sistemi il codice) che generi le nuove liste: se sono regolari puoi creare la nuova richiesta. Mi occuperò io di ricreare in modo automatico le liste --Mauro742 (msg) 21:52, 3 dic 2009 (CET)[rispondi]

Ecco la nuova lista: le voci si sono dimezzate rispetto alla precedente. Se questa volta è corretta direi che la discussione si può chiudere :) --Mauro742 (msg) 10:33, 5 dic 2009 (CET)[rispondi]

yeah! ;-) --balabiot 16:06, 5 dic 2009 (CET)[rispondi]
Creato Wikipedia:Bot/Richieste#Uso_del_TMP_avvisounicode e annullato precedente--Nickanc Fai bene a dubitarecontributi 12:27, 7 dic 2009 (CET)[rispondi]