Diakritinių ženklų pašalinimas
Trys režimai — nuimk diakritikas su Unicode NFD, transliteruok ligatūras, kurių NFD nepasiekia (ß, æ, ø, Ł, þ, ð), arba sukurk URL saugius šlaugus. Pakeisti simboliai paryškinami vietoje.
Teksto įvestis
Kas keičiama
Nuimti · TransliteruotiNuėmimo režimas tvarko viską, ką Unicode gali išskaidyti. Transliteracija prideda rankomis sudarytą lentelę simboliams, kurių NFD suskaidyti negali — ligatūrų, eth, thorn, lenkiškajai įstriženajai L.
Kurį režimą rinktis?
Grynasis NFD: kiekviena bazinė raidė išsaugoma, pašalinami tik jungiamieji ženklai. ß lieka kaip ß, æ lieka kaip æ. Tinka, kai reikia ištikimos lotyniškos formos be diakritikų — pvz., autorių pavardėms tvarkyti abėcėlės tvarka.
São Paulo, Dvořák
→
Sao Paulo, Dvorak
NFD plius rankomis sudaryta lentelė simboliams, kurių Unicode neišskaido: ß→ss, æ→ae, ø→o, Ł→L, þ→th, ð→d. Tinkamas pasirinkimas, kai tolesnis kodas reikalauja griežto ASCII (senos sistemos, failų pavadinimai, identifikatoriai).
Straße, Bjørn
→
Strasse, Bjorn
Transliteruoja, paskui verčia mažosiomis, sutraukia tarpus ir skyrybą į -, apkerpa brūkšnelius galuose. Tiesiogiai deda į URL kelią ar failų sistemai saugų pavadinimą. Puikiai dera su teksto į šlaugą generatoriumi.
Crème Brûlée & Co.
→
creme-brulee-co
Kaip tai veikia
é, išskaido į bazinę raidę e ir jungiamąjį kirčio ženklą U+0301. Pašalinus visus kodinius taškus jungiamųjų ženklų ruože U+0300–U+036F, bazinės raidės lieka nepaliestos.NFD turi ribų. Kai kurios raidės nėra vien „bazinė raidė + kirčio ženklas" — jos yra atominiai simboliai, neturintys skaidinio. Vokiškasis aštrusis s
ß, skandinaviškas ø, lenkiškas ł, senosios anglų þ ir ð bei ligatūros æ ir œ po NFD lieka nepakitę. Transliteracijos režimas juos tvarko rankomis sudaryta lentele (ß→ss, æ→ae, ø→o, Ł→L, þ→th, ð→d). Tai tinkamas režimas, kai tolesniam kodui reikia griežto ASCII.Šlaugo režimas — tai transliteracija + mažosios raidės + brūkšnelių sutraukimas: kiekviena nealfanumerinių simbolių seka virsta vienu
-, o pradžios ir pabaigos brūkšneliai apkerpami. Rezultatą gali dėti tiesiai į URL kelią ar failų sistemai saugų identifikatorių.Nelotyniški raštai (CJK, arabų, kirilica, graikų, hebrajų, devanagari, tajų) nuėmimo ir transliteracijos režimuose lieka nepakitę, nes nenaudoja lotyniškų jungiamųjų diakritikų. Šlaugo režimas juos taip pat pašalina — viskas, kas nepatenka į
[a-z0-9], virsta brūkšneliu. Įrankis aptinka tokius raštus ir įspėja, kai pasirinktas režimas greičiausiai veiks ne taip, kaip norėjai.Patarimai ir geroji praktika
.txt failą tiesiai ant įvesties lango — nėra jokio įkėlimo žingsnio, failas skaitomas lokaliai.Dažniausiai užduodami klausimai
Ką iš tikrųjų daro Nuėmimo režimas?
Jis paleidžia Unicode NFD normalizavimą — kiekvieną simbolį suskaido į bazinę raidę ir jungiamuosius ženklus — tada ištrina kiekvieną jungiamąjį ženklą iš U+0300 iki U+036F ruožo. café virsta cafe; Dvořák — Dvorak. Skyryba, tarpai, skaitmenys ir nelotyniški raštai lieka nepaliesti.
Kodėl Nuėmimo režime ß lieka kaip ß?
ß (vokiškasis aštrusis s), æ, œ, ø, ł, þ, ð Unicode'e yra atominiai simboliai — jie neturi skaidinio į bazinę raidę ir jungiamąjį ženklą, todėl NFD jų neliečia. Perjunk į Transliteracijos režimą, kad paverstum juos į ASCII (ß→ss, æ→ae, ø→o, …).
Kada naudoti Šlaugo režimą?
Kai reikia URL arba failų sistemai saugaus identifikatoriaus. Šlaugo režimas transliteruoja, verčia į mažąsias raides ir kiekvieną nealfanumerinių simbolių seką pakeičia vienu brūkšneliu. "Crème Brûlée & Co." virsta "creme-brulee-co".
Ar tai veikia kinų, japonų, arabų ar kirilicos tekstą?
Nuėmimo ir Transliteracijos režimuose — ne: šie raštai nenaudoja lotyniškų jungiamųjų diakritikų, todėl NFD neturi ką šalinti, o rankomis sudaryta lentelė apima tik lotyniškas ligatūras. Šlaugo režimas juos taip pat pašalina, nes viskas, kas nepatenka į [a-z0-9], virsta brūkšneliu. Įrankis įspėja, kai tai greičiausiai nustebins.
Ar transformaciją galima atsukti?
Ne. Diakritikų šalinimas arba ß→ss pakeitimas sunaikina informaciją — kelios skirtingos įvestys gali duoti vienodą rezultatą, todėl iš išvalyto teksto originalo atkurti neįmanoma. Visada išsaugok pradinį tekstą, jei jo prireiks vėliau.
Ar kuri nors teksto dalis iškeliauja iš naršyklės?
Ne. Viskas vyksta lokaliai JavaScript kalba — įvestis, transformacija, failų įmetimas ir dalinamosios nuorodos kodavimas. Užtenka uždaryti skirtuką, kad viskas dingtų. Dalinamoji nuoroda apima tik tą tekstą, kurį pats nusprendei kopijuoti.