Dados Estruturados na Wikimedia/Tópicos de Seção
Esta página descreve o trabalho em andamento para projetar e construir recursos para identificar 'tópicos de seção em um artigo da Wikipédia, atualmente em desenvolvimento pela equipe Dados Estruturados na Wikimedia.
Contexto
O projeto Tópicos de Seção identificará seções em um artigo e criará tópicos de acordo com essas seções, baseando-se em vários elementos, como por exemplo:
- um algoritmo que detecta itens do Wikidata com base nos links azuis da seção (que será desenvolvido em parceria com as equipes de Dados Estruturados, Pesquisa e Plataforma de Dados);
- a capacidade de identificar automaticamente seções em um artigo (que será desenvolvido em parceria com as equipes de Dados Estruturados e Plataforma de Dados).
Um dos primeiros casos de uso que previmos para os tópicos de seção será a sugestão de imagens em nível de seção, que utilizará o algoritmo dos links azuis e a infraestrutura de identificação de seção acima, e será entregue tanto através da experiência de recém-chegados quanto através de notificações para colaboradores experientes. Isto se baseará no trabalho feito com sugestões de imagens e será desenvolvido em parceria com as equipes de Dados Estruturados, Plataforma de Dados, Pesquisa, Busca, Android, e Crescimento. This will build upon the work done on image suggestions and will be developed in partnership with the Structured Data, Data Platform, Research, Search, Android, and Growth teams.
Esses elementos não serão alterados nem afetarão a experiência de edição atual dos usuários. Todas essas atividades serão automáticas e não dependerão de nenhuma ação dos editores. Atualmente, este projeto ainda está em fase de investigação, e ainda existem aspectos que podem exigir mais investigação e/ou feedback dos usuários. All these activities will be automatic and will not depend on any action from editors. Currently, this project is in its development phase, and there are still aspects that may require further investigation and/or feedback from users.
Exemplo de potenciais tópicos de seção
A seguir, alguns exemplos de tópicos de seção extraídos de artigos da Wikipédia, durante uma série de testes sobre Wikipédias em inglês e russo. Atualmente, estamos trabalhando em uma maneira de determinar os tópicos mais relevantes para qualquer seção, através de uma função de peso personalizada . Currently, we are working on a way to determine the most relevant topics for any given section, through a custom TF-IDF weight function.
- Exemplo 1 (Wikipédia em inglês)
- Artigos: Campbell Island, New Zealand
- Seção: History
- Exemplo de tópicos de seção “World War II”, “Pinniped”, “Brig”, “Great Depression”, “Perseverance Harbour”
- Exemplo 2 (Wikipédia em inglês)
- Artigo: Dorothy E. Smith
- Seção: Biography
- Exemplo de tópicos de seção: “Toronto”, “University of British Columbia”, “London School of Economics”, “Vancouver”, “University of California, Berkeley”
- Exemplo 3 (Wikipédia em inglês)
- Artigo: Battle of Surabaya
- Seção: Background
- Exemplo de tópicos de seção: “Sukarno”, “Mohammad Hatta”, “Jakarta”, “Proclamation of Indonesian Independence”, “East Java”
- Exemplo 4 (Wikipédia em inglês)
- Artigo: Tour of Greece
- Seção: Vencedores anteriores (nota: a seção inteira é uma tabela)
- Exemplo de tópicos de seção:: Nomes dos vencedores do tour, ordenados por pontuação de relevância: “Ioannis Tamouridis”, “Valeriy Dmitriyev”, “Henri Manders”, “Thomas Liese”, “Assan Bazayev”, etc.
- Exemplo 5 (Wikipédia em russo)
- Artigo: Адлон (отель)
- Seção: История
- Exemplo de tópicos de seção:: “Дитрих, Марлен”, “Вторая мировая война”, “Чаплин, Чарльз”, “Вильгельм II (император Германии)”, “Шинкель, Карл Фридрих”, “Первая мировая война”
- Exemplo 6 (Wikipédia em russo)
- Artigo: Военная стратегия
- Seção: История
- Exemplo de tópicos de seção: “Сунь-цзы”, “Наполеон I”, “Первая мировая война”, “Искусство войны”, “Блицкриг”, “Александр Македонский”, “Вторая мировая война”
Desenvolvimento futuro planejado
Com base na viabilidade dessas opções, o projeto também visa utilizar tópicos de seção para melhorar nosso alcance SEO com motores de busca externos, como um acompanhamento do experimento conduzido em task T302735.