Zeerak Ahmed passou anos nos EUA, trabalhando para algumas das maiores empresas de tecnologia do mundo. Mas uma coisa que o deixa frustrado é como “a computação trata as línguas não latinas como cidadãos de segunda classe”. Uma dessas línguas é a sua língua materna, o urdu, a língua nacional e língua franca do Paquistão, que também é amplamente falada na Índia. Ahmed, que é de Lahore, conversou muitas vezes com seus amigos e familiares sobre as dificuldades de tentar usar os teclados urdu existentes ou ler o tipo urdu. E ele testemunhou muitos jovens recorrendo ao inglês ou ao chamado urdu romano, usando a escrita latina para produzir uma transliteração fonética, na ausência de uma solução melhor.
Ao realizar seu mestrado em design de engenharia na Universidade de Harvard, ele encontrou sua própria solução. Depois de cinco anos trabalhando no projeto, no ano passado ele lançou o Matnsaz aplicativo iOS. O aplicativo oferece aos usuários um teclado Urdu mais refinado que agrupa letras por formato, corrige automaticamente e até sugere palavras subsequentes. É uma melhoria drástica em relação aos teclados Urdu padrão disponíveis em dispositivos convencionais.
Apesar de ser a décima língua mais falada no mundo, segundo publicação de referência Etnólogo, O Urdu ficou para trás na era digital devido a múltiplas limitações. Muitos paquistaneses fora da indústria tecnológica acreditam que o texto em urdu é incompatível com a computação, diz Ahmed. Mas ele argumenta que isso é uma falha por parte da computação, e não da linguagem. Um esforço está em andamento para mudar a narrativa.
Os desafios da escrita Urdu
“Vivemos em uma sociedade saturada de texto, então a exposição que as gerações mais jovens têm à complexidade tipográfica é muito alta”, afirma a designer gráfica e desenvolvedora web Abeera Kamran. “Eles esperam resultados sofisticados.” O que está disponível em urdu muitas vezes não atende a essas expectativas, porque os escritores resistiram à digitalização por muito tempo devido à complexidade de sua forma escrita. (O urdu usa a fonte Nastaliq, uma variação ornamentada e fluida do árabe escrito que é particularmente complexa porque o formato de cada letra depende da letra seguinte.) Isso agora significa que há muito pouco conteúdo digital disponível em urdu que possa competir com o que os usuários são. costumava em escritas latinas. Roman Urdu é frequentemente usado como substituto online. As tentativas anteriores de digitalizar a escrita Urdu dependiam da fonte Naskh Árabe, que é mais direta e, portanto, mais fácil de codificar. Mas alguns têm argumentou que a fonte Naskh é inferior à Nastaliq quando usada para expressar a língua Urdu por escrito. À medida que mais vidas se tornam dependentes da informação e comunicação digital, alguma preocupação que a falta de uma versão digital acessível da verdadeira forma escrita da língua pode fazer com que o urdu se torne irrelevante para as gerações mais jovens, que passam mais tempo online do que os mais velhos.
“Existe a crença de que não se pode usar o urdu para fins modernos e, por isso, é difícil que a língua evolua e permaneça relevante para os jovens”, diz Ahmed.
Ahmed e Kamran estão entre aqueles que lideram os esforços para evitar que isso aconteça. O aplicativo Matnsaz faz parte de uma iniciativa maior de mesmo nome, que visa construir ferramentas on-line para consumidores e desenvolvedores em urdu. Atualmente, o trabalho de Ahmed inclui Makhzan, um corpus de texto Urdu de código aberto, e Naqqash, uma biblioteca de processamento de strings para escrita árabe.
Ahmed diz que esteve a brincar com a ideia durante anos antes de iniciar o esforço a sério em 2017. “Na Europa, a maioria das pessoas utiliza computadores nas suas línguas nativas, mas no Paquistão não fazemos isso”, diz ele. “Se você conversar com paquistaneses fora da indústria de tecnologia, eles acreditam que não é possível fazer computação moderna em urdu.” Ahmed acredita que o urdu poderia ser facilmente usado na computação da mesma maneira se tivesse a mesma importância que a escrita latina e tivesse ferramentas construídas para apoiá-lo. Essa ideia tornou-se a base para Matnsaz porque muitos progressos em Urdu estavam a ser prejudicados simplesmente porque os blocos de construção básicos não existiam, diz ele.
Urdu é falado aproximadamente 230 milhões de pessoas globalmente – principalmente no Paquistão e na Índia, bem como entre as comunidades da diáspora em todo o mundo. Embora tenha havido tentativas individuais de digitalizar a linguagem, é necessário colmatar lacunas entre os diferentes esforços para ter um impacto global, diz Kamran. Ela observa que a adoção da impressão tipográfica em urdu só aconteceu no final do século 20, devido à complexidade do Nastaliq fonte e falta de interesse da sociedade paquistanesa em Naskh como alternativa. Antes disso, jornais e livros eram manuscritos e depois fotocopiados para fazer múltiplas cópias conforme necessário.
Complexidades culturais
O Paquistão tem um vínculo cultural de longa data com Nastaliq, e Lahori Nastaliq em particular – o estilo em que o urdu é escrito – que pode ser complexo de codificar com os conjuntos de dados existentes, diz Kamran. As associações culturais com a língua também são importantes para compreender e considerar no esforço para digitalizar o urdu, acrescenta ela. “Percebi que não podemos fazer nada disso sem um cálculo cultural de como o Urdu e o Nastaliq estão ideologicamente ligados um ao outro.”
As lutas sócio-políticas do Paquistão e o impulso para criar um Identidade nacional muçulmana-paquistanesa, resultaram na resistência a certas mudanças consideradas desenvolvimentos de influência ocidental ou estrangeira, diz Kamran. O urdu está ligado à identidade paquistanesa e é a língua oficial do país, embora várias outras línguas sejam faladas lá. Na Índia pré-partição, os falantes de urdu usavam a língua como forma de se levantar contra a colonização britânica. Hoje continua sendo um ponto de tensão na Índia, onde ainda é falado por milhões de pessoas, mas é sob ameaça. Embora o urdu não seja falado exclusivamente pelos muçulmanos, está intimamente associado à prática da fé na região. “Quando se trata de Lahori Nastaliq, pensamos em conjunto na identidade paquistanesa e muçulmana e, por isso, resistimos à mudança”, diz Kamran.
Essa conexão foi o que levou Zeeshan Nasar e seu pai Nasrullah Mehr a começar Mais tipo, uma fundição de tipos digitais com foco em fontes personalizadas em urdu, árabe e persa. Mehr, um aclamado calígrafo no Paquistão, trabalha na escrita Lahori Nastaliq. Para ele, o disponível teclados baseados em ligadura— que permitem flexibilidade ao digitar scripts como árabe e Nastaliq, adaptando-se às mudanças de estilos de letras dependendo do que está sendo digitado — simplesmente não eram suficientes. Nasar chama as abordagens baseadas em ligaduras para o urdu como ‘jugad’, um termo urdu para uma solução improvisada. “Com fontes baseadas em ligaduras, se você inserir uma nova palavra no teclado e ele não a reconhecer, isso irá quebrá-la e arruinar a palavra e o estilo das letras”, diz Nasar.
É por isso que MehrType se concentrou na criação de fontes leves baseadas em caracteres que funcionariam bem para incorporação na web. Nasar diz que se um arquivo for muito grande, demorará muito para funcionar quando incorporado a um link e poderá causar lentidão nos sites. A equipe está atualmente testando uma nova ferramenta de configuração que não apenas dará às suas fontes melhor segurança online, mas também incluirá recursos de tipografia. No futuro, a empresa pretende preservar diferentes estilos de caligrafia Urdu, transformando-os em tipografia. Ela também espera envolver mais pessoas no uso digital do urdu, fornecendo serviços para personalizar tipografia, oferecendo cursos de curta duração para aprender tipografia urdu e convertendo livros e textos existentes em fontes Mehr.
Do outro lado da fronteira com a Índia, Sanjiv Saraf foi curador da maior biblioteca online de poesia urdu sob o banner Rekhta. A plataforma online, batizada com o nome de um antigo nome do dialeto urdu, digitaliza o conteúdo urdu para torná-lo mais acessível. O site começou com trabalhos de 50 poetas em 2013 e hoje abriga o trabalho de mais de 5.000 escritores. O objetivo de Saraf é levar o urdu a um público mais amplo, e o site apresenta literatura e poesia urdu em vários formatos. “Muito do conteúdo que temos online também foi recitado para que as pessoas tenham uma ideia da dicção, porque a pronúncia também é muito importante para o idioma”, diz Saraf. Embora a equipe da Rekhta, que consiste de 230 funcionários e 100 voluntários, escaneie um grande número de livros em urdu para publicar o conteúdo on-line todos os dias, eles não podem realmente digitalizar as obras até que sejam capazes de digitar textos e literatura em urdu. A atual falta de reconhecimento óptico de caracteres (OCR) – que converte texto digitado, escrito ou impresso em texto codificado por máquina – para o Urdu limitou a acessibilidade de materiais digitalizados no idioma. Kamran diz que há vários motivos para isso.
“Em primeiro lugar, o texto é lido de forma diferente na versão impressa e online, o que cria um problema de acessibilidade. Você não pode pesquisar em imagens e isso significa que qualquer tipo de pesquisa e localização de recursos (disponíveis) fica difícil, porque você nunca saberá que eles estão lá. Roman Urdu também não tem grafia definida, então não há uma maneira única de pesquisar material em urdu”, diz ela.
Kamran iniciou seu mestrado em tipografia depois de tentar criar um site em urdu para Laboratório Urbano de Karachi, uma organização focada em pesquisa, ensino e defesa do desenvolvimento e urbanização em Karachi por meio de dados. Ela descobriu que a falta de recursos tipográficos disponíveis era um obstáculo. Seu objetivo é ajudar a contribuir para o trabalho que desenvolvedores e especialistas em idiomas em todo o mundo estão fazendo para digitalizar o urdu, levando em conta sua história cultural. Ela diz que a importância de Nastaliq não pode ser compreendida até que as suas ligações à construção da identidade muçulmana-paquistanesa sejam igualmente compreendidas. “Urdu e Nastaliq estão ideologicamente ligados um ao outro”, diz Kamran. Devido às sensibilidades em torno do urdu, ela acredita que quaisquer alterações na sua apresentação devem ser aceitas pela sociedade antes que o progresso possa ser feito.
“O resultado deve ser a criação de recursos complexos que os usuários possam usar em documentos para criar documentos estilizados detalhados em urdu, da mesma forma que vemos a formatação em inglês”, diz ela.
O atual estágio de desenvolvimento da digitalização do Urdu, com teclados e fontes básicas agora disponíveis, vem sendo desenvolvido há muito tempo e há muito mais a ser feito. Nasar trabalha no desenvolvimento do Urdu há 18 anos. Muitas das fontes nas quais ele deseja trabalhar ainda estão em andamento simplesmente porque o desenvolvimento de fontes é um processo muito caro. Mas na verdade houve um grande progresso na última década. Os desenvolvedores deixaram de depender anteriormente de Na página—um processador de texto e software de layout de página usado para idiomas como árabe, urdu e persa—há anos, até agora ter vários esforços em andamento em conjuntos de dados e design. Este rápido crescimento nos esforços de digitalização do urdu e no desenvolvimento de recursos nos últimos anos oferece esperança de que a base se tornará mais fácil de construir. E agora, com os modelos de linguagem de IA em foco, gigantes da tecnologia como o Google podem ajudar a contribuir para esse impulso. A empresa anunciou em julho que a plataforma AI Google Bardo agora oferece suporte a nove idiomas indianos, incluindo urdu.
Saraf está na primeira fila do progresso e está otimista. “Não creio que o Urdu esteja enfrentando dificuldades on-line, devido à forma como nosso número de leitores está crescendo. Temos 24 milhões de seguidores no Rekhta para conteúdo em urdu e a cada mês esse número cresce”, diz ele. “Portanto, o segredo é simplesmente apresentar as informações de maneira fácil de acessar.”