Funcionalidade de leitura/Site/PDF

< Reading‎ | Web
This page is a translated version of the page Reading/Web/PDF Functionality and the translation is 97% complete.
Outdated translations are marked like this.

Atualização na renderização de PDF, 15 de julho de 2019

Lançamos o novo renderizador de PDF. Estamos analisando o feedback, mas até agora não observamos nenhum problema significativo. Podemos incorporar algumas sugestões, mas não queremos que este não seja um projeto em andamento com desenvolvimento contínuo. Em outras palavras, agora que está implantado e comprovado, o novo renderizador está entrando no modo de manutenção. A página de discussão desta página não será abandonada, mas pode levar algum tempo até que alguém reaja, simplesmente porque todos têm muito mais em suas mãos.

Em termos de livros, deixamos isso nas mãos de desenvolvedores voluntários e da PediaPress. Ficaremos felizes em contatá-los com perguntas, mas não planejamos nenhum envolvimento em termos de implementação técnica.

Atualização na renderização de PDF, 4 de junho de 2019

Nós implantamos o novo renderizador para PDFs de artigo único para todos os projetos. Esperamos que isso resolva os problemas associados ao renderizador Electron, que muitas vezes não conseguiu gerar PDFs conforme o esperado. Sinta-se à vontade para experimentar o novo renderizador e nos avise se tiver dúvidas ou se encontrar algum bug ou outros problemas.

Atualização na renderização de PDF, 18 de março de 2019

Estamos chegando perto da implantação do nosso novo renderizador, Proton, com apenas algumas tarefas restantes como bloqueadores (como pode ser visto no gráfico de tarefas em phab:T181084). Publicaremos outra atualização assim que a data de implantação estiver definida. Esse renderizador substituirá o renderizador de electron como o renderizador de PDF padrão para PDFs de página única.

Atualização em livros, 17 de agosto de 2018

 
Livro de amostra da PediaPress

Aqui está uma atualização e amostra mais compreensiva do novo renderizador de livros. O layout mudou muito da primeira versão apresentada na Wikimania. Obrigado por todos os comentários. A exportação ainda tem um número significante de problemas: quebras de página, caixas de informação, tabelas, e fórmulas matemáticas precisam ser melhoradas substancialmente. Esse arquivo de amostra focado em textos internacionais e fórmulas matemáticas revela alguns dos problemas que ainda precisam ser resolvidos. Fórmulas matemáticas são atualmente renderizadas usando MathML - mudando para LaTeX deve levar a melhoras significativas.

Atualização em livros, 8 de agosto de 2018

Nós estivemos trabalhando com a PediaPress na geração e estilização de novos livros. Eles têm nos provido com um modelo da saída atual, a qual será muito similar com a versão final. Nós discutimos pontos de melhoria com a equipe PediaPress, os quais eles estão abordando atualmente. Se você algum feedback ou outros comentários nestes exemplos, por favor, nos informe na página de discussão.

Atualização em livros, abril de 2018

A funcionalidade de livros estará retornando via PediaPress. Depois de investigar o novo renderizador a fundo, percebemos que as características internas do criador de livros original (tais como números das páginas e tabela de conteúdo) seriam muito difíceis de serem implementadas usando o novo renderizador. Além do mais, nós havíamos tido problemas significantes com nosso código de concatenação. Portanto, nós tivemos que procurar por alternativas para trazer de volta a funcionalidade de PDF em projetos na Wikimedia. Nós contactamos a PediaPress, que foram os patronos originais de livros na Wikipédia, para ver se eles estariam interessados em assumir a renderização PDF para livros mais uma vez. Eles concordaram e estamos trabalhando nos detalhes e no cronograma. Eles começarão trabalhando em uma solução temporária baseada em uma tecnologia mais antiga que foi usada anteriormente para criar PDF. Isso pode ter algumas desvantagens quando se trata de elementos gráficos, como mapas, mas significará uma solução de trabalho mais rápida. Eles então planejam trabalhar em um novo renderizador de HTML para PDF posteriormente, com base no feedback da primeira implementação.

Atualização de janeiro de 2018

Estamos atualmente preparando testes de performance para a função de PDF para livro. Devemos saber mais no início de fevereiro.

Atualização de setembro de 2017

O nosso serviço atual de composição de PDF, o gerador de conteúdo fora de linha (OCG) deixará de ser mantido. Por outras palavras, irá deixar de funcionar. A equipa de leitura da Wikimedia Foundation trabalha há meses para substituí-lo. O OCG tem funcionado com código desatualizado que pode criar vulnerabilidades de segurança e outros problemas sérios no futuro. Durante os últimos três meses apresentámos banners na página de criação de PDF solicitando comentários sobre o protótipo do nosso novo compositor. O novo compositor terá funcionalidades melhoradas em comparação com o OCG — irá imprimir tabelas e caixas informativas, e elementos estilísticos focados na melhoria da legibilidade. Recebemos uma grande quantidade de comentários sobre o protótipo e estamos a fazer as atualizações necessárias aos nossos novos PDF.

Adendo posterior: ativando a renderização do livro PDF para o curto prazo

Infelizmente, grandes problemas com nosso antigo renderizador (OCG) nos obrigarão a removê-lo como uma opção de renderização antes de completar as atualizações necessárias para a criação de livros. Isto é mais cedo do que queríamos. Quando removermos o OCG, O trabalho de processamento de artigos individuais estará completo. No entanto, o processamento de livros vai ser pausado enquanto nós avaliamos e concluímos os trabalhos necessários. Nossa escolha inicial para substituí-lo, Electron, não é capaz de suportar PDFs de tamanhos grandes e falha ao tentar processar um livro com vários artigos. Vamos procurar um novo sistema para criar livros que possam suportar o tamanho dos arquivos e que cumpra os nossos requisitos. Não é assim que planejamos fazer isso. We never aimed to temporarily remove the book PDF functionality.

Linha do Tempo

  • Lançamento do criador completo para artigos individuais (imprimir em PDF) - 1 de outubro de 2017
  • Pausando a renderização de livros em PDF - 1 de outubro de 2017
  • Desativação do renderizador OCG - 1 de outubro de 2017
  • Lançamento do novo criador PDF - janeiro de 2018 (data provisória com base nos resultados da pesquisa de sistemas de composição alternativos)

Funcionalidade:

Para uma lista completa das funcionalidades atuais e futuras, veja abaixo.

Para além da atualização desta página, isto será comunicado num banner na página de criação de ficheiros PDF, em Tech News e em algumas listas de divulgação por correio eletrônico da Wikimedia.

Introdução

O nosso serviço atual de renderização em PDF, o gerador de conteúdo offline, não é mais sustentável. Simplificando, está quebrando. Originalmente criado por terceiros, ele funciona atualmente com um código desatualizado que pode apresentar vulnerabilidades de segurança e outros problemas maiores no futuro. Se quisermos ter a funcionalidade PDF, infelizmente, teríamos de substitui-la, senão poderemos subitamente nos encontrar numa situação em que teríamos de acabar com ela sem haver planejado fazer isso.

Além disso, este serviço não suporta alguns pedidos de composição feitos pela comunidade, sendo o principal a capacidade de compor tabelas. Selecionámos um novo serviço, o serviço de composição Electron, como substituto adequado. O nosso próximo passo será duplicar a funcionalidade fornecida pelo OCG usando o novo serviço de composição Electron. Abaixo, iremos descrever as principais funcionalidades que identificámos serem necessárias. Gostaríamos de fomentar um diálogo acerca das funcionalidades que possam estar em falta, ou sejam supérfluas, na lista fornecida. Gostaríamos também de realçar os nossos planos futuros para composição de ficheiros PDF, de forma a recebermos comentários iniciais.

Problemas conhecidos

Base de usuários

A tabela a seguir mostra uma amostra do tráfego para o serviço "Download como PDF" da Electron por um período de mais de 6 horas. O tráfego é dividido pelo sistema operacional (SO), pelo navegador e pela versão principal do navegador (por exemplo, Windows 7, Chrome v61. *). Note bem que a maioria do nosso tráfego parece vir de máquinas baseadas no Windows.

OS Navegador Versão Principal do Navegador % de requerimentos 
Outro Outro - 14.38
Windows 7 Chrome 61 12.42
Windows 10 Chrome 61 8.83
Windows 7 IE 11 7.33
Windows 7 Firefox 56 6.59
Windows 10 Firefox 56 3.82
Windows 10 Edge 15 3.24
Windows 8.1 Chrome 61 3.07
Windows XP Chrome 49 2.2
Windows 10 Chrome 59 1.53
Windows 10 IE 11 1.51
Windows 8.1 Firefox 56 1.31
Windows XP Firefox 52 1.22
Windows 8 Chrome 61 1.15
Windows 8.1 IE 11 1.15
Mac OS X Safari 11 0.9
Windows 7 Firefox 53 0.89
Windows 7 Firefox 52 0.78
Ubuntu Firefox 56 0.78
Windows XP IE 6 0.7
Windows 7 Chrome 55 0.68
Windows 7 Firefox 55 0.62
Mac OS X Chrome 61 0.62
Android UC Browser 11 0.6
Windows 10 Edge 14 0.59
Windows 7 Opera 48 0.53
Android Chrome Mobile 61 0.49
Windows 10 Opera 48 0.44
Windows 7 Chrome 60 0.4
Windows Vista Chrome 49 0.39
Windows 7 Yandex Browser 17 0.37
Windows 10 Firefox 55 0.37
Mac OS X Safari 10 0.36
Windows 10 Chrome 50 0.34
Android Android 4 0.33
Mac OS X Firefox 56 0.33
Windows 10 Chrome 60 0.32
Windows 8.1 Chrome 43 0.3
Android Amazon Silk 60 0.29
Windows 7 Sogou Explorer 1 0.27
Windows 8 IE 10 0.26
Windows 7 IE 8 0.26
Windows 7 IE 9 0.25
Windows 8 Opera 12 0.25
Linux Firefox 52 0.25
Mac OS X Firefox 53 0.24
Windows 7 Firefox 45 0.24
Windows 10 Firefox 57 0.24
Windows 7 Firefox 38 0.22
Windows 10 Firefox 47 0.21

Requisitos atuais de funcionalidade

A seguir está uma lista dos requisitos atuais para renderização em PDF para um artigo único PDF para livros. Os requisitos diferentes da implementação atual são exibidos em negrito.

História

  • A composição de artigos e livros em PDF a partir das páginas da Wikipédia é feita por um serviço chamado OCG. Ao compor «livros» através do criador de livros, este utiliza o OCG tal como incorporado na extensão Collection. OCG tem vários problemas, especialmente com tabelas.

When rendering "books" through the book creator, it uses OCG as embedded within the Collection extension. OCG has multiple issues, especially with tables.

  • Estão identificados vários problemas com o OCG, incluindo queixas da comunidade motivadas pela incapacidade do OCG de compor tabelas.
  • A composição de tabelas surge no número 9 da Lista de Requisitos Técnicos da Comunidade de Língua Germânica.
  • A Wikimedia Deutschland começa a trabalhar na solução para a composição de tabelas em ficheiros PDF, e introduz o Electron. Fazem-no com a intenção de executá-lo em paralelo com o OCG e não de o substituir.
  • Ao mesmo tempo que a Wikimedia Deutschland trabalha no serviço Electron, os responsáveis pelo serviço de manutenção do serviço OCG da Wikimedia Foundation chegam à conclusão de que o OCG tem de ser substituído.
  • A equipe de leitura da WMF assume a responsabilidade de manutenção a longo prazo do compositor de ficheiros PDF, e começa a planejar a implementação da composição de tabelas para todos os projetos.
  • A equipe de leitura lança uma consulta da comunidade para recolher comentários acerca do Electron.
  • As equipas da infraestrutura de leitura e web começam a delimitar o trabalho necessário para transferir a funcionalidade OCG para o serviço Electron.

Atualização após consulta

 
PDFs e estilos de impressão propostos baseados em comentários e consultas

Lançamos uma consulta sobre a implementação atual do PDF renderer no início de junho de 2017. Depois de analisar as respostas da consulta, fizemos as seguintes observações:

  • Um número maior de usuários preferiu o formato de coluna única no formato de coluna dupla
  • Os usuários que preferiram o formato de duas colunas ressaltaram que sua preferência se baseava no estilo e na aparência das colunas duplas. Alguns usuários também expressaram preocupações com o tamanho da fonte e desperdiçando papel ao imprimir PDF na opção de coluna única.
  • Os seguintes pedidos de recursos foram feitos:
    • Hyperlinks funcionais
    • Data e url, 'esta página foi baixada em [data] de [URL]'
    • CSS customizável para layout, título, sumário
    • Opção para o formato de 2 colunas
    • Versões com e sem imagens
    • Margens ajustáveis
    • Imprimir por seção - permite remover referências, parágrafos que você não deseja, índice, etc.
    • Tamanho de texto ajustável

Com base nos comentários, incorporamos o seguinte nos nossos novos estilos de impressão:

  • hyperlinks
  • informações do artigo
  • fonte menor e estilos parecidos com livros

O restante dos pedidos acima será adiado até a segunda iteração do renderizador PDF, na qual planejamos criar um modo de configurações que permitirá a personalização das opções disponíveis.

Proposta

Este seguinte é uma proposta para o âmbito de funcionalidades necessárias para a renderização em PDF:

  • Os artigos individuais serão renderizados para PDF usando o link Baixar como PDF na barra lateral.
  • Múltiplos artigos serão renderizados para PDF usando a ferramenta de criação de livros.
  • Todos os artigos conterão a atribuição de texto e imagens.
  • Todos os PDFs renderizados serão capazes de imprimir tabelas.
    • Os usuários poderão personalizar o layout de seus PDFs (opcional).

Diferenças entre a atual e a futura implementação

OCG Novo Serviço Notas
Renderização de artigos individuais Yes Yes
Composição de mais que um artigo usando o criador de livros Yes Yes
Contém sumário para múltiplos artigos Yes Yes
Renderiza tabelas No Yes
Atribuição Yes Yes Questão em aberto: localização de atribuição dentro do novo serviço
Estilos Latex Novos estilos
Layout N-colunas Yes No
Layout padrão de 2 colunas Yes Tentativa O layout padrão de uma coluna ou de duas colunas será escolhido com base no feedback e no teste quantitativo e/ou qualitativo
Formato de saída PDF, Texto simples Somente PDF

Design

Os novos estilos de PDF serão projetados para maior legibilidade. Baseado nos comentários da comunidade e testes qualitativos ou quantitativos, suporte para um layout de duas colunas pode ser feito para o criador de livro e/ou para PDFs individuais.

Development and Deployment Roadmap

A seguir, um esboço do roteiro de desenvolvimento e implantação. Está sujeito a alterações.

  1. Abril – Maio de 2017:
    1. A equipe de leitura cria suporte de back-end para a funcionalidade identificada acima
    2. As comunidades são consultadas sobre a expansão ou redução da funcionalidade proposta
    3. Teste qualitativo realizado para estilização
  2. Junho – Julho de 2017:
    1. Novos estilos implementados
    2. A primeira iteração é lançada junto com o OCG em todos os projetos e o desempenho é comparado
    3. Iterações baseadas em consultas e casos de borda identificados
  3. Agosto de 2017 – Setembro de 2017:
    1. Mudanças adicionais feitas, se necessário
  4. outubro de 2017
    1. Segunda iteração lançada sem o OCG em todos os projetos

Artigos Únicos

  • Um PDF para um artigo único será criado selecionando o link "Baixar como PDF"
  • Ao selecionar "Baixar como PDF", o arquivo PDF será gerado. Para baixar o arquivo, os usuários selecionarão "Baixar o link do arquivo"
  • Todo arquivo de PDF conterá o seguinte:
    • Título do artigo e texto
    • Caixa de informação (caso existam)
    • Tabela (caso existam)
    • Layout de coluna única
    • Número da página
    • Todas as imagens e legendas do artigo
    • Liks para páginas ligadas a partir do artigo (links azuis e links externos)
    • Fontes do texto e imagem, contribuidores e licenças

Acompanhamento Phabricator

Todas as alterações relacionadas ao PDF, incluindo a desativação do OCG, a substituição do renderizador de PDF do Electron e todas as atualizações de livros ou a extensão de coleções são rastreadas no projeto do phabricator Proton. A página do projeto exibirá as atualizações recentes de todas as tarefas relacionadas a PDFs.

Livros

Funcionalidade disponível em outubro de 2017

Nota: nenhuma mudança será feita para fluxo de trabalho do criador de livros atual nesse momento

  • O usuário iniciará o criador de livros selecionando "Ciar um livro"
  • Isto navegará para a pagina atual de criação de livro
  • Para baixar um livro, os usuários selecionarão o link de "donwload" da página do livro
  • Usuários podem baixar livros apenas em formato de PDF
  • Livro conterão todos os elementos do formato de artigo único, assim como:
    • Página de título do livro
    • As referências para cada artigo do livro aparecerão no fim do artigo
    • Cada artigo começará em uma nova página
    • Uma seleção única de textos e fontes de imagens, contribuintes, e licenças, que contém as contribuições coletadas de todos os artigos

Funcionalidade disponível em novembro - dezembro de 2017

  • Livros conterão uma tabela de conteúdos com números de páginas
    • Selecionando uma seção da tabela de conteúdo levará o usuário para a seção correspondente dentro do livro

Estilos para livros serão atualizados para melhorar a legibilidade

Alternativa

Existe uma maneira alternativa de exportar o MediaWiki para o LaTeX, PDF, ODT e EPUB:

http://mediawiki2latex.wmflabs.org/

Os recursos computacionais no servidor são limitados.

Se você rodar o Ubuntu Linux e quiser resultados mais rápidos, você pode instalar o m2l-pyqt ou mediawiki2latex.