Considerações sobre a avaliação da produção intelectual docente

Sílvia Altmann

05/05/2020 • Avaliação Quadrienal CAPES 2017

13 Mar 2018

Terminada a avaliação quadrienal da CAPES com a consolidação definitiva dos resultados relativos à área de Filosofia, gostaria de juntar-me aos colegas e apresentar algumas considerações para que possamos dar prosseguimento ao debate proposto por esse fórum. Por razões que, espero, fiquem claras a seguir, julgo que há diversos aspectos da avaliação que necessitam de um debate mais amplo e continuado no tempo, evitando-se assim considerações unicamente circunstanciais e feitas exclusivamente em reação à postura de uma certa comissão de avaliação. Sem dúvida, os avanços e retrocessos da última quadrienal representam o estágio em que atualmente nos encontramos. Precisamos, todavia, considerá-los adotando um ponto de vista mais amplo e que nos permita, enquanto área, aprimorar critérios e procedimentos que desejaríamos ver adotados pelas próximas comissões avaliadoras.

Apesar de alguns esforços ensejados em parte por demandas da CAPES de apresentação de dados numéricos que justificassem a classificação dos programas de pós-graduação, mas também por demandas internas a nossa área, creio que é possível dizer que as avaliações feitas pelas coordenações na área da filosofia foram, muitas vezes, o que se poderia chamar de impressionistas. Com isso, não estou simplesmente dizendo que foram inadequadas, pois o impressionismo praticado pela área no passado teve suas razões para existir e certamente evitou que a utilização de certos dados numéricos sem a reflexão necessária criasse ou consolidasse distorções ao mesmo tempo em que conferiria uma falsa aparência de objetividade.

Avaliações impressionistas tiveram, no passado, a vantagem de serem mais globais. Mesmo assim, elas não deixaram de ser impressionistas, no sentido serem pouco objetivas e creio ser desnecessário justificar a necessidade de buscarmos, para o futuro, a especificação mais clara dos critérios e parâmetros a serem adotados.

Muitos aspectos importantes da avaliação já foram apontados nesse fórum como, por exemplo, os diferentes tipos de representatividade na comissão avaliadora, discussão com certeza importante e incontornável. Contudo, o debate em torno da representatividade não pode substituir a reflexão sobre como, independentemente de por quem, as avaliações deverão ser conduzidas. Não se trata de modo algum de dizer que é desejável especificar e engessar antecipadamente parâmetros a serem adotados. A comissão de avaliação deverá sempre, creio, ter liberdade para, caso perceba que um critério antes concebido gere alguma distorção, revê-lo. No entanto, quanto maior for a discussão na área sobre critérios pertinentes, maiores serão as chances de uma melhor avaliação. Nesse sentido, gostaria de retomar algumas considerações já feitas por Marcelo Carvalho no fórum “Debate sobre a coordenação de área da CAPES – 2017” e por Patrícia Kauark-Leite e Ernesto Perini neste fórum “Avaliação quadrienal CAPES 2017”, acrescentando alguns pontos que julgo relevantes.

Apesar de inúmeras dificuldades e problemas antecedentes e consequentes, é inegável que a última coordenação da área procurou dar um passo na direção de coletar, organizar e disponibilizar um maior número de dados, procurando também explicitar os critérios adotados em alguns aspectos importantes da avaliação, como, em particular, a produção intelectual (meu foco aqui). Ponto adicional a ser ressaltado é que a coordenação buscou, no caso da avaliação da produção intelectual, levar em conta a qualificação da produção, e não somente sua quantidade. No entanto, parece-me que, em muitos aspectos, o esforço da coordenação e da comissão pela adoção e explicitação de critérios de avaliação foi em grande parte comprometida. Isso, em parte, era de se esperar, tendo em vista a dificuldade da tarefa. Mesmo assim, não devemos perder a oportunidade de realizar uma reflexão mais aprofundada de suas virtudes e falhas.

Por um lado, o esforço da última coordenação foi em grande parte comprometido pela utilização de dados ou recortes de dados incorretos. A própria comissão reconheceu isso ao publicar, em um segundo momento, uma tentativa de correção dos dados inicialmente apresentados. Ora, ainda que talvez a correção dos dados não tenha implicado a não satisfação de algum critério por algum programa que antes o satisfazia ou vice-versa, em alguns casos, todavia, a diferença entre os dados mencionados no relatório parcial (consideração da totalidade da produção por permanente) e a apresentada no relatório final (consideração da produção dos professores permanentes por permanente) é bastante significativa, gerando panoramas bastante distintos da distribuição da produção, e sem que tenha sido possível aos programas pedirem revisão em função de um recorte que não havia sido apresentado antes. (Cf. por exemplo, Tabela 1: Comparação dados da produção relatório parcial e final A1+A2. (Para as tabelas mencionadas neste texto: https://drive.google.com/open?id=10MlD8AChRWNPMw5og9b6zCqkFEKLILb4)) Como já observado nesse fórum e no próprio relatório final da avaliação, a aplicação de dados numéricos para definição de parâmetros depende de os dados e os recortes em consideração serem disponibilizados com antecedência, para conferência e reflexão sobre sua pertinência e impacto. Sem isso, a percepção sobre o estado da área permaneceu confusa.

Além da cautela recomendável para a utilização de dados numéricos (o que demandaria um tempo de sedimentação que a comissão não teve), considero que algumas decisões equivocadas levaram, inobstante a intenção da coordenação e da comissão de avaliação, a dar-se um peso excessivo a aspectos puramente quantitativos. A seguir, gostaria de chamar a atenção para alguns desses aspectos.

Algumas observações prévias de cautela são, no entanto, importantes. (i) Obviamente nada do que segue se pretende um diagnóstico sobre o que deveria ter sido feito, muito menos uma avaliação de programas, o que dependeria de muitos fatores aos quais só a comissão teve acesso. Além de focado exclusivamente sobre a produção intelectual, meu olhar foi naturalmente direcionado ao que, na ficha de avaliação do curso do qual faço parte, foi apontado como a única razão para o rebaixamento, a saber, a não-pertinência dos índices de produção intelectual docente aos estratos superiores. Outros olhares de outras perspectivas sobre outros pontos e também sobre a avaliação da produção intelectual podem com certeza corrigir ou acrescentar-se às considerações que destaco aqui. (ii) Interessa-me realçar certos dados não destacados no relatório final de avaliação e, por isso, necessitei fazer alguns cálculos por minha conta. Como critério de correção, procurei comparar meus dados a algo já destacado no relatório final e, em geral, os números coincidiam ou ficavam muito próximos (utilizei só médias ao invés de medianas, por simplificação). Creio, por isso, haver boas chances de os demais cálculos também estarem corretos (ou tão corretos quanto o levantamento de dados utilizado pela comissão de revisão). No entanto, mesmo supondo que eles contenham algumas incorreções, as tabelas que apresento podem ser lidas sobretudo como ilustração de problemas possíveis e não como apresentando um diagnóstico definitivo da área.

Feitas essas ressalvas, seguem alguns pontos para consideração.

1) Adoção das medianas de cada nota como critério:

Como já apontado por Marcelo Carvalho e retomado por Patrícia Kauark-Leite e Ernesto Perini-Santos, a adoção de médias ou medianas para determinar índices de produção necessários para cada nota é algo bastante problemático. De um lado, esse critério supõe que o que atualmente ocorre deve ser adotado como parâmetro para o desejável. Isso pode até ser o caso, mas cabe discutir se sim e por qual razão. Em segundo lugar, gera-se uma corrida exponencial em termos de quantidade, com os evidentes inconvenientes que isso acarreta.

A relativização das médias ou medianas exigidas a cada estrato pode ser ainda mais problemática. Além de, como também já foi apontado, ensejar uma oscilação questionável (no limite, implicaria que quase metade dos programas mudassem de nota a cada avaliação), esse critério pode gerar distorções. Por exemplo, embora seja adequado, como observa o relatório, dar especial atenção à comparação entre programas com mesma nota, adotar como parâmetro a mediana de cada nota gerou a curiosa situação na qual a exigência para permanecer, por exemplo, com o conceito 6 foi maior do que a exigência para permanecer com o conceito 7. Essa situação em parte já ocorria com os números erroneamente utilizados pela comissão, mas ficou gritante no relatório final. Com efeito, em todos os critérios de avaliação de produção julgados relevantes pela comissão, a mediana dos cursos nota 7 no triênio anterior foi inferior à mediana dos cursos com nota 6. Com isso, temos a curiosa situação de que o único curso que permaneceu com nota 7 tem, na produção de artigos A1-B1 e A1-A2 e na produção de capítulos C2-C4 e C3-C4, números inferiores à mediana usada como parâmetro para a condição de permanência na nota 6. (Conferir Grupo A de tabelas: Produções A1-B1, A1-A2, C2-C4 e C3-C4.) Não estou dizendo que a exigência numérica para a nota 7 deveria ser maior (justamente, o propósito deste texto é essencialmente criticar a quantidade como critério), mas me parece problemática a combinação da adoção de (i) uma exigência quantitativa (ii) menor para uma nota superior.

2) Definição do Qualis Periódicos:

Uma avaliação supostamente qualitativa, mas que agrupa um número muito grande em um mesmo estrato, acaba por reduzir o problema da discriminação (pelo menos nesse estrato) novamente a uma questão puramente quantitativa. Ao contrário de outras posições expressas nesse fórum, não acho inadequados os critérios utilizados como ponto de partida pela Comissão do Qualis Periódicos, a saber: a listagem de periódicos que satisfaçam certos critérios formais, que tenham sido indicados como referência por programas e que estão entre os principais veículos de pesquisadores CNPq. No entanto, o ponto de partida não deve ser ponto de chegada, pois o que resulta disso é antes um retrato da área mais do que uma avaliação dos periódicos. É possível que, excepcionalmente, periódicos de excelência, em razão de certas especificidades, não estejam aí contemplados e isso deve, claro, ser corrigido em um ajuste mais fino. Tão importante quanto isso, no entanto, é introdução de discriminações dentro desse grupo que resulta de um retrato da área. A consequência de cerca de 20 periódicos serem classificados como A2 foi que, como bem observa o relatório, “a circunscrição das revistas que têm veiculado a produção mais relevante da área e sua classificação no estrato A2 aumentou o número de periódicos nos estratos superiores (de A1 a B1), o que, futuramente, pode comprometer a faculdade de discriminar diferenças relevantes no interior do conjunto de periódicos bem qualificados” (Relatório final da avaliação quadrienal 2017, p. 5). Não consigo compreender a expressão “futuramente”. Parece-me que a “faculdade de discriminar diferenças relevantes no interior do conjunto de periódicos bem qualificados” já ficou bastante comprometida e a solução da comissão foi recorrer a critérios puramente numéricos. Como introduzir essas diferenças e como determinar quais são as diferenças relevantes é, com certeza, um grande desafio para a próxima avaliação.

3) Avaliação dos livros

Como destacado no relatório, houve um esforço para aperfeiçoar a avaliação dos livros. Tendo em vista que boa parte da produção da área é publicada na forma de livros monográficos ou coletâneas, é elogiável o gigantesco esforço da coordenação de avaliar qualitativamente a produção.

Como explicado no relatório final, o procedimento iniciou com a indicação, por parte dos programas de pós-graduação, da produção intelectual a ser classificada nos estratos 1 a 4. O passo seguinte foi a classificação final realizada em duas etapas: uma avaliação transversal dos livros indicados para os estratos 1 a 3 e a aferição qualitativa, por pareceristas, das obras indicadas para o nível 4. Buscava-se assim um efetivo envolvimento da área no processo avaliativo e, de fato, um grande número de especialistas trabalhou na esperança de estar contribuindo para a introdução de uma etapa qualitativa fundamental para a avaliação.

Todavia, sem que o relatório forneça as razões para tanto, houve um abandono completo do resultado do esforço de avaliação por pareceristas para a pertinência aos estratos L4 e C4. Ao final, a avaliação considerou somente a soma da produção consolidada no nível 4 com o nível 3 (resultante da indicação pelos programas e somente de uma avaliação transversal). O esforço de pareceristas para discriminar entre as obras pertencentes aos estratos superiores foi desconsiderado por uma decisão, não justificada no relatório, que acabou por equiparar os níveis 4 e 3.

O relatório final aponta para uma distorção sobre a qual, novamente, afirma somente que futuras comissões devem atentar: “observa-se que a circunscrição dos livros de excelência do período (= L4) foi acompanhada de uma povoação ampla de títulos no estrato imediatamente inferior (= L3). [...] É recomendável que futuramente, e de modo semelhante ao que se observou em relação ao Qualis Periódicos, a Comissão de Área atente para os riscos de distorção que esses fenômenos representam para a qualificação da produção bibliográfica sob a forma de livros e capítulos de livros” (Relatório final da avaliação quadrienal 2017, p. 6). Mais uma vez, surpreende a expressão “futuramente”. Surpreende também que, tendo a comissão percebido o problema e tendo em vista uma diferença bastante expressiva conforme a consideração dos níveis 3 e 4 conjuntamente ou do nível 4 isoladamente, essa diferença não tenha sido sequer apresentada e, mais ainda, não tenham sido sequer apresentadas as razões para o abandono dessa distinção. (Conferir Grupo B de tabelas para as diferenças ignoradas em função da não diferenciação entre os níveis 3 e 4.)

Além disso, dado que o relevante foi, afinal, somente a indicação dos programas e a avaliação transversal, seria importante para área saber algo sobre o resultado dessa avaliação transversal em comparação com a indicação feita pelos programas (além, claro, das razões para a desconsideração da diferença entre os níveis 3 e 4).

4) Adoção de travas quantitativas

Outro critério adotado que parece ir na contramão de buscar fomentar a produção qualificada foi a exigência, para a pertinência a, por exemplo, nota 6, de médias incluindo produção menos qualificada, em particular em B1, L2 e C2. Exigir, como condição para a qualificação da produção como “muito boa” simplesmente certa quantidade nos estratos A1-B1, L2-L4 e C2-C4, parece indicar a insuficiência de índices adequados nos estratos superiores, sendo necessário também, além de uma boa produção em A1-A2, C4 e L4, por exemplo, uma grande produção em L2 e C2. A adoção dessa trava de exigência quantitativa de publicação nos estratos inferiores para a pretensão à nota de excelência pode gerar a curiosa situação de um curso com maior produção de excelência ser menos bem avaliado por não ter uma maior produção nos estratos não considerados como de excelência. (Conferir Grupo C de tabelas para o impacto da exigência de quantidade nos níveis menos qualificados.)

5) Proporção da produção qualificada

Do mesmo modo, na busca por maior qualidade e não quantidade de produção, um dado importante seria a proporção da produção qualificada sobre a produção total. O relatório indica a relevância desse dado, mas não há especificação de como tal dado foi levado em conta. Não há sequer apresentação de tabelas contendo as proporções de produção qualificada. Assim, ao que parece, o ponto anunciado como relevante não foi determinante ou se, o foi, não fica claro de que modo. Essa desconsideração, somada à exigência de certa quantidade de produção nos estratos menos qualificados (comentada no item acima), novamente tira o peso da busca de qualidade em favor de simplesmente maior quantidade. (Para efeitos de discussão sobre pertinência e aplicabilidade deste critério, seguem algumas tabelas com essas proporções: Grupo D de tabelas para proporção da produção nos estratos A1-A2, C4 e L4.)

* * *

As questões acima são, como já mencionado, apenas alguns aspectos da avaliação da produção, apresentados de um certo ponto de vista. No entanto, creio que são exemplos de questões que qualquer coordenação e comissão terá de enfrentar. Enfatizo, todavia, que ela não poderá fazê-lo na semana de avaliação. Inobstante decisões a meu ver bastante problemáticas e questionáveis, creio que essa última avaliação nos dá como nunca antes a oportunidade de buscar esclarecer os critérios com os quais desejamos, como área, ser avaliados. É na tentativa de valorizar esse trabalho, da comissão e da área, na busca de critérios claros e adequados para a área da Filosofia que tento contribuir para a continuidade esse debate.