O modelo Fable (Anthropic): a piada do ano

Eu usei o modelo antes de ele ser banido e achei sensacional! Acho que você não foi muito assertivo neste post.

rafael

Acho que tem alguma falha de comunicação ou expectativa aí... Veja os comentários no HackerNews, vários declarando experiência positiva no dia do anúncio.

Além disso, eu usei em três projetos diferentes (que não são de baixo nível) e notei melhores resultados com custos menores em todos. Tanto comparando com o Opus 4.8 no effort padrão (não lembro qual era, talvez xhigh?) quanto no Sonnet 4.6. Sim, consegui fazer mais coisas por sessão com o Fable 5 do que com o Sonnet 4.6.

E a própria Anthropic disponibilizou um gráfico mostrando a diferença de acurácia por custo comparando Fable 5 e Opus 4.8:

Custos e acurácias do Opus 4.8 e Fable 5 em diferentes níveis de esforço

Vale ressaltar que mesmo o custo sendo mais alto para a mesma quantidade de tokens, ele pode ser mais econômico por gastar menos tokens, que foi o que notei na minha experiência. Usei pela assinatura do Claude, não pela API.

Autor

Entendo sua visão, mas recomendo que leia o estudo: https://export.arxiv.org/abs/2606.05405

Eu vou falar algo que talvez muitos não gostem, talvez o modelo seja bom para o que não é tão complexo assim... ou areas onde ele domina mais, que provavelmente é onde a massa esta usando mais, nem todo mundo realmente esta usando para tarefas realmente complexas, apesar de achar que está.

Calma lá, você chegou a usar o modelo antes do bloqueio?

Me mostra de onde você tirou essa informação de que 'a internet inteira achou o modelo uma bosta'. Porque não foi essa a minha experiência e muito menos o que li nas comunidades sérias.

A empresa errou feio na mão com os classificadores de segurança e com a palhaçada de sabotar o desempenho silenciosamente. E isso sim tem sido e deve ser duramente criticado. Mas não vamos misturar as coisas...

Como alguém que usou o Fable 5 exaustivamente (até voltei a pagar o plano master/blaster/ultra igual muita gente!!!) nesses dias eu garanto. O modelo faz coisas em termos de engenharia de software autônoma que o GPT-5.5 e o Opus 4.8 simplesmente não conseguem sequer arranhar.

Autor

https://export.arxiv.org/abs/2606.05405

A realidade sobre o Mythos/Fable 5: marketing, falsos positivos e custo do retrabalho

Como alguém que pagou pelo Fable 5 e tentou usar em tarefas reais de ponta e de baixo nível, o resultado foi uma droga: travou, não executou corretamente e, quando fez algo, alucinou. Foi aí que fui atrás de estudo sério, talvés a engenharia de software que esta fazendo seja para áreas mais dominantes do modelo, por isso percebeu diferente.

O Agents' Last Exam (ALE) da UC Berkeley — uma das universidades mais respeitadas do mundo em IA, desenvolvido em colaboração com mais de 250 especialistas da indústria e dezenas de instituições (MIT, Stanford, ETH Zurich, Morgan Stanley, JPMorgan Chase, entre outras) — mostra na prática o baixo desempenho do modelo.

O paper prova, com dados tabelados:

Fable 5 teve 0% de sucesso nas tarefas mais difíceis (Last-Exam tier) — ou seja, em problemas reais de alta complexidade, entregou zero.

Custo exorbitante: consumiu US$ 2.402 para rodar os testes — o mais caro de todos os modelos avaliados.

Ineficiência total: levou 376 horas para completar tarefas que outros modelos fizeram em muito menos tempo.

Falhas de conhecimento e abordagem: o próprio paper aponta que as principais falhas são falta de conhecimento específico (31%) e estratégia errada (47%) — exatamente o que vi na programação de baixo nível.

E o Mythos (base do Fable 5) na segurança?

Quando o Mythos foi testado no projeto cURL (176 mil linhas de C), o modelo afirmou ter encontrado cinco vulnerabilidades confirmadas. Após análise da equipe do cURL, apenas uma era uma vulnerabilidade real (de baixa severidade). Três eram falsos positivos e uma era um bug simples, sem implicação de segurança. O criador do cURL, Daniel Stenberg, afirmou que o hype em torno do Mythos foi "primariamente marketing" e que não há evidência de que o modelo encontre vulnerabilidades em um grau mais alto do que ferramentas já existentes. Isso significa que 80% do que o Mythos apontou como "vulnerabilidade confirmada" era, na verdade, falso positivo

https://www.theregister.com/security/2026/05/11/anthropics-bug-hunting-mythos-was-greatest-marketing-stunt-ever-says-curl-creator/5238111

A Palo Alto Networks, uma das maiores empresas de cibersegurança do mundo, usou o Mythos e relatou uma taxa média de falsos positivos de cerca de 30%. O CEO Nikesh Arora afirmou que, especificamente com o Mythos, 25% das descobertas de vulnerabilidade eram falsos positivos. A empresa disse que "estar errado 30% das vezes em segurança cibernética é catastrófico" e precisou construir uma infraestrutura especializada para reduzir o ruído.

https://www.inforisktoday.in/palo-alto-networks-sees-ai-boom-driving-firewall-demand-a-31849

A Cloudflare também testou o Mythos e destacou que ele gera um grande número de descobertas especulativas e falsos positivos, particularmente em linguagens não seguras para memória, como C e C++. A empresa afirmou que o modelo tem uma "tendência inerente a relatar excessivamente possíveis problemas", transformando-se de uma ferramenta útil em um fardo de triagem caro para revisores humanos.

O renomado especialista em segurança Bruce Schneier criticou a falta de transparência da Anthropic, que mostrou apenas um "melhores momentos" de sucessos. Ele afirmou que "não sabemos quantas vezes o Mythos sinalizou código incorretamente como vulnerável" e que, sem saber a taxa de falsos alarmes, não é possível dizer se os exemplos mostrados são representativos.

https://www.schneier.com/blog/archives/2026/04/mythos-and-cybersecurity.html

Conclusão

Isso mostra o que realmente se pode esperar do Mythos e, por tabela, do Fable 5: custo alto, retrabalho e confiabilidade questionável. A "% da mentira do modelo" é o custo direto de horas desperdiçadas analisando falsos positivos e corrigindo alucinações.

Um modelo que gera uma enxurrada de falsos positivos não ajuda — ele atrapalha. A própria indústria já está sentindo isso: o projeto cURL encerrou seu programa de bug bounty em 2026 por causa do volume de relatórios falsos gerados por IAs.

https://www.bleepingcomputer.com/news/security/curl-ending-bug-bounty-program-after-flood-of-ai-slop-reports/

Esse problema não é uma exclusividade do novo modelo, mas continua existindo no novo.

Portanto, minha avaliação de que o Fable 5 é uma bosta para tarefas sérias não é opinião isolada — é o que a UC Berkeley publicou em seu benchmark mais rigoroso até hoje e o que os testes de empresas também já estão comprovando, pode ser que melhore com o tempo, mas atualmente é mais hype que qualquer outra coisa.

Silva97

23 horas atrás

Você compartilhou 5 links. 3 deles são críticas diretas ao Mythos, 1 deles é uma crítica geral à AI slop e somente 1 é neutro. Sem querer ofender ninguém, mas me parece desonestidade intelectual (e das grandes) uma pessoa responder à isso focando só no que é neutro e ignorando todo o resto. Colocando em porcentagem, a pessoa ignorou 80% da questão e focou nos 20% que lhe convém.

Vale lembrar que supostamente o Mythos seria absurdamente melhor que o Fable. Então críticas ao Mythos são críticas ao Fable, que é uma versão limitada do primeiro.

Agora, falando especificamente sobre o primeiro artigo. É importante destacar que artigo científico deve ter teor neutro e não crítico, pois o objetivo de um artigo científico é divulgar resultados de uma pesquisa e não criticar nada nem ninguém. Então é óbvio que o artigo não irá indicar diretamente falta de qualidade em nenhum dos modelos testados.

Mas os dados estão lá:

Página 8, tabela 1, mostra o GPT-5.5 tendo pontuação significamente melhor que o Fable, por um custo muito menor e terminando a tarefa na metade do tempo.
Página 9 mostra o GPT-5.5 com resultados melhores ou quase idênticos em todas as áreas. Exceto agricultura e meio ambiente, sendo a única área que o Fable realmente se saiu significamente melhor.
Página 37 mostra que o GPT-5.5 custou $326 e teve uma pontuação de 45.8% e o Fable custou $2.402 e pontuou 40.5%. Pontuação significamente menor e custo muito maior.

Os dados estão no artigo. Quem é proficientemente alfabetizado e consegue interpretar dados, vê claramente: O Fable é muito mais caro e significamente pior que o GPT 5.5.

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

Olhar para o segundo melhor modelo do benchmark e carimbá-lo como 'bosta' é forçar uma narrativa emocional que os próprios dados você trouxe para a discussão simplemente não sustentam!!! Preço abusivo, talvez. Marketing exagerado, com certeza. Mas não confunda as coisas.

Silva97

Mas eu não preciso de dados ou evidências para sustentar uma opinião. Entenda: se a pessoa acha algo uma bosta ou a melhor coisa do mundo, isso é uma questão de opinião. E opinião não precisa de evidências, nem é possível de evidenciá-la. O que é possível, é justificar a opinião.

E a opinião está muito bem justificada: A Anthropic fez um marketing absurdo como se fosse revolucionar tudo com o novo modelo, para no final entregar algo pior e mais caro que a sua principal concorrente.

Acho que o pensamento "nossa, que bosta" é o pensamento mais sensato para se ter em uma situação como esta. Pagar mais para receber menos é uma bosta.

Segundo melhor? É sim. E isso seria aceitável se tivesse um preço condizente com o segundo melhor e um marketing condizente com o segundo melhor. Mas o marketing foi feito como se fossem lançar uma revolução e estão cobrando como se fosse uma revolução.

É, é uma bosta.

Beleza, se o seu ponto agora é sobre a sua opinião pessoal...

Minha única divergência lá atrás foi quando o colega afirmou que 'o paper prova... que o Fable 5 é uma bosta'.

Autor

17 horas atrás

entendi seu ponto, então reformulando é uma bosta para o que eu quero fazer :D

Autor

17 horas atrás

exato

HAHAHAHA!!!! Mais uma vez, você está misturando completamente as coisas.

Você sequer leu o artigo que acabou de citar???? Aonde o paper mostra que o Fable 5 é uma bosta para tarefas sérias????

Enfim, não vou ficar discutindo com o seu prompt do DeepSeek. Você claramente virou o próprio 'papagaio estocástico', repetindo o que copiou da IA, sem ter a capacidade ou o trabalho de verificar, validar e compreender o que esta dizendo.

tiagoo1

O risco de bloquear um modelo avançado e liberar os mais simples para estrangeiros é acontecer o que aconteceu com a NVIDIA na China, criar mercado pra concorrência.

Silva97

Boa! 👏

Acho engraçado como a galera cai fácil em hype e marketing. Parece que ainda não aprenderam como as empresas funcionam.

Edit: Leia este comentário antes de achar que estou errado ao afirmar que o Fable é só marketing e não mostrou valor real: https://www.tabnews.com.br/Silva97/4e55f8c2-5808-4c04-9e91-dbaadc125fc6

luiztux

3 horas atrás

Antigamente tinha as guerras sobre qual linguagem de programação era melhor que a outra (programming language wars), atualmente, a guerra é qual IA é melhor que a outra.
Enfim, uma mensagem para o autor do post: seria mais fácil (para quem vai ler seu post) colocar as fontes logo na criação. Já indica logo de antemão de onde você tirou suas ideias ou conclusões.
Agora, minha opinião:
Eu não usei este modelo e não pago pra usar IA. Para mim, uma tecnologia que ainda está engatinhando, deveria passar por um exaustivo escrutínio público. Sim, seremos o produto (na verdade já somos pra muita coisa), mas é somente minha opinião pessoal.
Para mim, grande parte do Fable/Mythos foi hype. Lembrem que o CEO da Anthropic pediu uma pausa nas IAs https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04/ mas logo depois lançou os famigerados modelos. Uma situação estranha.
Também tem a guerra da Anthropic com o Pentágono. Também uma situação estranha.
Agora vejam esta notícia que corrobora alguns pontos que o autor trouxe: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail

Vi algumas pessoas testando o Fable 5 no YouTube, mas não foi nada complexo. Não sei se as pessoas não tinham muita ideia em que testar, mas estavam criando, basicamente, landing pages. Pelamor né? O resultado foi legal, tinha animações com WebGL e tal, mas fala sério.

Enfim, vou procurar saber mais e olhar os benchmarks.

pauloh1995

4 horas atrás

estranho que eu e outros testaram o modelo antes de ser banido , e achamos extraordinario , para meu caso de uso foi perfeito

BananaPudim

5 horas atrás

É o marketing né. Eles têm que vender e o governo dos EUA tem que pagar de machão.

tchaps

19 horas atrás

Esses testes focaram em exatamente o que? Porque para programação eu já testei GPT 5.5, Gemini 3.1 Pro e 3.5 Flash, Claude Sonet e Opus 4.8 e consegui usar por um dia o Fable 5. Estou desenvolvendo um jogo com Vibe Coding e posso te dizer com total certeza que o melhor modelo foi o Fable 5 resolvendo rapidamente alguns bugs bem complexos, seguido pelo Opus 4.8
Não estou defendendo ninguém, pelo contrário, quero o melhor modelo atual para uso pessoal e minha experiência foi essa, porém não testei o DeepSeek para coding, você ja testou? O jogo em questão é Scourge of Eldryngard, que já tem DEMO, podem tirar suas próprias conclusões aqui na Steam https://store.steampowered.com/app/4684330/Scourge_of_Eldryngard_Demo/

Me digam se vale a pena testar o DeepSeek para vibe coding caso ele seja melhor wie o Opus, já que o Fable foi bloqueado para nós 💩