Veja aqui a programação completa do 2º EPEI.
Resumos
Modelos Lineares Mistos: Paus para Toda Obra
Julio Singer
Por meio de exemplos práticos, discutimos diferentes características do ajuste de modelos lineares mistos, destacando a versatilidade na representação de vários fenômenos, a facilidade de interpretação de seus elementos, a flexibilidade na seleção de estruturas de médias e covariâncias, a simplicidade dos métodos de estimação de seus parâmetros, a existência de várias técnicas de diagnóstico além da ampla disponibilidade de algoritmos computacionais. Evidenciamos essas características comparando-as com aquelas associadas a modelos de outras classes.
Minicurso 1 – Deep Learning no R
Julio Trecenti
In this presentation we will show:
(i) What are deep neural networks and how they work?
(ii) What software we can use to train these models and how they relate with each other?
(iii) How train deep learning models for some prediction problems?
Presentation: https://jtrecenti.github.io/slides/ime-dl
Codes: https://github.com/jtrecenti/slides/tree/master/20181203_ime-dl
Quantification Under Prior Probability Shift: the Ratio Estimator and Extensions
Rafael Stern
The quantification problem consists of determining the prevalence of a given label in a target population. However, one often has access to the labels in a sample from the training population but not in the target population. A common assumption in this situation is that of prior probability shift, that is, once the labels are known, the distribution of the features is the same in the training and target populations. In this presentation, I present a new lower bound for the risk of the quantification problem under the prior shift assumption. This lower bound is achieved by a new approximately minimax class of estimators, ratio estimators, which generalize several previous proposals in the literature. Using a weaker version of the prior shift assumption, which can be tested, the ratio estimators can be used to build confidence intervals for the quantification problem. Ratio estimator can also be extended to:
(i) incorporate labels from the target population, when they are available and
(ii) estimate how the prevalence of positive labels varies according to a function of certain covariates.
Bayesian Space-Time Partitioning by Sampling and Pruning Spanning Trees
Rosangela Loschi
Joint with: Leonardo V. Teixeira (Department of Computer Science, Purdue University) and Renato M. Assunção (DCC – UFMG)
A typical problem in spatial data analysis is regionalization or spatially constrained clustering, which consists of aggregating small geographical areas into larger regions. A major challenge when partitioning a map is the huge number of possible partitions that compose the search space. This is compounded if we are partitioning spatio-temporal data rather than purely spatial data. We introduce a spatio-temporal product partition model that deals with the regionalization problem in a probabilistic way. Random spanning trees are used as a tool to tackle the problem of searching the space of possible partitions making feasible this exploration. Based on this framework, we propose an efficient Gibbs sampler algorithm to sample from the posterior distribution of the parameters, specially the random partition. The proposed Gibbs sampler scheme carries out a random walk on the space of the spanning trees and the partitions induced by deleting tree edges. In the purely spatial situation, we compare our proposed model with other state-of-art regionalization techniques to partition maps using simulated and real social and health data. To illustrate how the temporal component is handled by the algorithm and to show how the spatial clusters vary along the time we presented an application using human development index data.} The analysis shows that our proposed model is better than state-of-art alternatives. Another appealing feature of the method is that the prior distribution for the partition is interpretable with a trivial coin flipping mechanism allowing its easy elicitation.
Categorização de Textos via Regressão Binária Bayesiana Utilizando o Software Stan
Hugo Agurto Meija
Um problema comum ao processar conjuntos de dados com um grande número de covariáveis em comparação com o tamanho da amostra é estimar satisfatoriamente os parâmetros associados a cada covariável. Quando o número de covariáveis ultrapassa largamente o tamanho da amostra, a estimativa dos parâmetros torna-se muito difícil. Em várias áreas de aplicação, entre elas a categorização de texto, é necessária a tarefa de selecionar covariáveis importantes e evitar o sobreajuste (overfitting) do modelo.
Neste trabalho, desenvolvemos um modelo de regressão bayesiano com resposta binária e função de ligação assimétrica para categorização de texto. Para favorecer a esparsidade do modelo e reduzir o número de covariáveis, utilizamos uma distribuição a priori de encolhimento (shrinkage prior) para os parâmetros de regressão. O desempenho do modelo proposto é avaliado através da aplicação a um conjunto de dados reais, o corpus Reuters R8. O conjunto de dados contém as oito classes mais freqüentes da coleção Reuters-21578 de textos de notícias. As oito classes consistem em um mínimo de 51 até 3923 documentos e resumem um total de 7674 textos.
As estimativas dos parâmetros é realizada considerando o método de estimação Monte Carlo Hamiltoniano na extensão No-U-Turn Sampler (NUTS), utilizando o software Stan no pacote R.
Tempo de Chegada ao Equilíbrio da Dinâmica de Metropolis para o GREM
Antonio Marcos Batista do Nascimento
Neste trabalho estudamos o comportamento do tempo de convergência da dinâmica de Metropolis para o Modelo de Energia Aleatória Generalizado (GREM, em inglês) com um número finito de hierarquias. Aqui, obtemos estimativas para o inverso da lacuna espectral da dinâmica baseadas em uma desigualdade tipo Poincaré derivada por Sinclair (1991). Tais estimativas estendem resultados já existentes na literatura para um caso particular do GREM.
Modelos Lineares Parciais Aditivos Generalizados para Dados Correlacionados
Gilberto A. Paula
Os MLPAGs para dados correlacionados podem ser aplicados para analisar dados agrupados, medidas repetidas e dados longitudinais e combinam três classes conhecidas de modelos de regressão: modelos lineares generalizados, modelos aditivos generalizados e equações de estimação generalizadas. Nesta palestra motivamos inicialmente com 2 exemplos ilustrativos. Em seguida apresentamos as equações de estimação generalizadas penalizadas para a estimação dos componentes paramétrico e não paramétrico dos MLPAGs. Um processo iterativo Gauss-Seidel é desenvolvido e alguns procedimentos estatísticos inferenciais e de diagnóstico são apresentados. Os dois exemplos ilustrativos são analisados através de MLPAGs apropriados. Fazemos um parelelo entre MLPAGs e GAMLSS.
Minicurso 2 – Introdução ao Shiny
William Amorim
Neste minicurso, vamos aprender os conceitos básicos para construção de aplicações em Shiny. Apresentaremos como estruturar o aplicativo, diferença entre user e server side, interações entre usuário/aplicação/servidor e o conceito de reatividade.
An Introduction to Stein’s Method
Yevgeniy Kovchegov
The celebrated Stein’s method is named after Charles Stein, who proposed the method in his 1972 paper. In this talk we will describe the foundations and the main results involving the Stein’s method.
Onde Pesquisar e Publicar: Dicas Práticas
Stela N. Madruga
A oficina tem como objetivo apresentar os diversos recursos de informação disponibilizados pela universidade aos pesquisadores. Além disso, busca orientar sobre as principais ferramentas de pesquisa, gerenciadores de referências e citações, seleção de periódicos para publicação, identificadores únicos de autores, entre outras dicas práticas que facilitam e contribuem com o processo de produção do conhecimento científico.
Modelos Estocásticos para Evolução e Dinâmicas para Sobrevivência de Espécies
Fábio Machado
Iremos apresentar modelos e resultados de trabalhos submetidos e/ou publicados recentemente. O seminário abordará uma pequena lista de tentativas de modelar estocasticamente questões associadas à evolução (mutação e seleção) e a dinâmicas populacionais para sobrevivência de espécies. Para tal, trabalhamos com processos estocásticos (espaciais e não-espaciais) e modelos baseados nos sistemas de partículas interagentes.
Realce para Apresentações em Inglês
Maria Cristina Borba
Técnicas de postura, respiração, controle e projeção de voz ajudam a dar à apresentação o destaque que sua pesquisa merece – o que pode fazer a diferença na construção de sua rede. Abordaremos, também, qualidade de slides, foco e ritmo.
Wavelet-based estimation of generalized discriminant functions
Michel H. Montoril
In this work we propose a wavelet-based classifier method for binary classification. Basically, based on a training data set, we provide a classifier rule with minimum mean square error. Under mild assumptions, we present asymptotic results that provide the rates of convergence of our method compared to the Bayes classifier, ensuring strong consistency and universal consistency. Furthermore, in order to evaluate the performance of the proposed methodology for finite sample samples, we illustrate the approach using Monte Carlo simulations and real data set applications. The performance of the proposed methodology is compared to other classification methods widely used in the literature: support vector machine and logistic regression model. Numerical results showed a very competitive performance of the new wavelet-based classifier.
Statistical Machine Learning for Recommender systems: LDA and K-means
Evgenia Chunikhina
Recommender systems are one of the most popular and successful applications of statistical machine learning in e-commerce. Recommender systems use algorithms to provide users with service or product recommendations. A large variety of methods have been proposed for recommendation, including collaborative, content-based, and knowledge-based techniques. In this talk I will consider two classical algorithms from statistical machine learning: Linear Discriminant Analysis (LDA) for classification and K-means for clustering. Both algorithms are extensively used in recommender systems because of their effectiveness and relative simplicity.