3

O modelo Fable (Anthropic): a piada do ano

https://tenor.com/pt-BR/view/michael-jackson-enjoying-lol-michael-jackson-gif-5256534

Governo dos EUA derrubou o Fable 5 ontem. Motivo: "segurança nacional".

Agora sim, oficial: a burrice alcançou os níveis mais altos do governo americano. Sem sombra de dúvidas.

Mas antes de falar do governo, vamos falar do elefante branco na sala: o modelo é uma bosta. E não sou só eu dizendo. A internet inteira tá pegando fogo com as reclamações.

O modelo que trava no "Olá"
Sério. Não é meme. Usuários relataram que o Fable 5 recusava responder qualquer coisa. Um simples "Olá" já disparava o bloqueio de segurança. Pediu ajuda pra editar currículo? Bloqueado. Lista de compras do supermercado? Bloqueado. A palavra "câncer" foi sinalizada como risco biológico.

A cereja do bolo: um usuário mandou o próprio manual do Fable 5 (o system card) pra ele explicar. O modelo travou. Recusou. Porque né, segurança nacional.

A Anthropic veio com aquele migué clássico: "ah, isso afeta menos de 5% das sessões". Mentira. Quem usou sentiu na pele que era muito mais. Parecia roleta russa: você nunca sabia se o modelo ia te responder ou te dar um block por "violação de políticas".

O gaslighting corporativo: "você não está louco, a gente que deixou ele mais burro de propósito"
Aqui é onde a coisa fica suja.

A Fable implementou uma sabotagem técnica silenciosa. Se o sistema detectasse que você estava fazendo perguntas sobre como treinar outros modelos de IA (ou seja, "distillation"), ele reduzia a qualidade das respostas sem avisar.

Isso não é segurança. É anticompetitivo. É a empresa dizendo: "não confiamos em ninguém pra pesquisar IA a não ser a gente". Pesquisadores acusaram a Anthropic de usar máscara de segurança pra criar vantagem de mercado. E tavam certos.

15x mais caro e 4x o custo pra entregar menos que a concorrência
Se fosse de graça, dava pra relevar. Mas não é.

O Fable 5 custa 15 vezes mais que o DeepSeek V4 no processamento de tokens de entrada. E o pior: no benchmark Agents' Last Exam (que testa IA no mundo real, não em firula teórica), o Fable 5 tomou uma surra do GPT-5.5.

Detalhe: o Fable 5 gastou dois mil trezentos e quinze dólares pra completar as tarefas. O GPT-5.5 gastou quinhentos e sessenta e seis dólares (quatro vezes menos) e ainda entregou resultado melhor.

Ou seja: você paga mais, recebe menos, e o modelo ainda te trata como suspeito.

A cereja do bolo: o "jailbreak" em 48 horas
Um pesquisador alegou ter encontrado um método de burla (jailbreak) no Fable 5 em menos de 48 horas. Foi essa alegação que o governo dos EUA usou como justificativa (ou pretexto) pra derrubar o modelo.

Só que a própria Anthropic admitiu: a vulnerabilidade era menor e já conhecida, e outros modelos públicos (incluindo GPT-5.5) também tinham. Mas o governo resolveu agir agora, justo quando a DeepSeek chinesa tá crescendo.

Curioso, né?

Então vamos combinar
Será que essa proibição dos EUA é realmente uma proibição ou apenas mais hype pra ofuscar a DeepSeek?

Porque o timing é no mínimo suspeito. DeepSeek custa centavos, roda em qualquer lugar e tá dando um pau no Google, Microsoft e Openai, e de repente os EUA resolvem "suspender" o modelo que já nasceu morto? Parece cortina de fumaça.

Por mim, os EUA podiam aproveitar e enterrar de vez o Fable e o "Minthos" junto. Porque o que esses modelos fazem de melhor é uma coisa: mentir pro usuário.

E nisso eles são campeões mundiais. Minthos = mentira. Tá ali na cara. A Anthropic podia pelo menos ter vergonha.

Resumo pro empreendedor que tá lendo isso
Você vai pagar caro (15 vezes mais, pra ser exato)

Vai levar ghosting do modelo (ele trava com coisa besta ou te derruba sem avisar pra um modelo pior)

Vai ser tratado como criminoso por perguntar coisa besta

E ainda corre o risco de o governo achar que você é "ameaça nacional" porque seu IP não termina com .us

Enquanto isso, tô aqui com DeepSeek rodando numa boa. Sem circo, sem diretiva, sem modelo me tratando como terrorista porque pedi receita de bolo e o melhor o preço vs a qualidade, tenho que tirar o chapéu.

Fica a dica, macacada. O hype morreu. O Fable virou fábula. E o Minthos... bem, o nome já entregava.

Carregando publicação patrocinada...
3
2

Acho que tem alguma falha de comunicação ou expectativa aí... Veja os comentários no HackerNews, vários declarando experiência positiva no dia do anúncio.

Além disso, eu usei em três projetos diferentes (que não são de baixo nível) e notei melhores resultados com custos menores em todos. Tanto comparando com o Opus 4.8 no effort padrão (não lembro qual era, talvez xhigh?) quanto no Sonnet 4.6. Sim, consegui fazer mais coisas por sessão com o Fable 5 do que com o Sonnet 4.6.

E a própria Anthropic disponibilizou um gráfico mostrando a diferença de acurácia por custo comparando Fable 5 e Opus 4.8:

Custos e acurácias do Opus 4.8 e Fable 5 em diferentes níveis de esforço

Vale ressaltar que mesmo o custo sendo mais alto para a mesma quantidade de tokens, ele pode ser mais econômico por gastar menos tokens, que foi o que notei na minha experiência. Usei pela assinatura do Claude, não pela API.

1

Entendo sua visão, mas recomendo que leia o estudo: https://export.arxiv.org/abs/2606.05405

Eu vou falar algo que talvez muitos não gostem, talvez o modelo seja bom para o que não é tão complexo assim... ou areas onde ele domina mais, que provavelmente é onde a massa esta usando mais, nem todo mundo realmente esta usando para tarefas realmente complexas, apesar de achar que está.

2

Calma lá, você chegou a usar o modelo antes do bloqueio?

Me mostra de onde você tirou essa informação de que 'a internet inteira achou o modelo uma bosta'. Porque não foi essa a minha experiência e muito menos o que li nas comunidades sérias.

A empresa errou feio na mão com os classificadores de segurança e com a palhaçada de sabotar o desempenho silenciosamente. E isso sim tem sido e deve ser duramente criticado. Mas não vamos misturar as coisas...

Como alguém que usou o Fable 5 exaustivamente (até voltei a pagar o plano master/blaster/ultra igual muita gente!!!) nesses dias eu garanto. O modelo faz coisas em termos de engenharia de software autônoma que o GPT-5.5 e o Opus 4.8 simplesmente não conseguem sequer arranhar.

1

A realidade sobre o Mythos/Fable 5: marketing, falsos positivos e custo do retrabalho

Como alguém que pagou pelo Fable 5 e tentou usar em tarefas reais de ponta e de baixo nível, o resultado foi uma droga: travou, não executou corretamente e, quando fez algo, alucinou. Foi aí que fui atrás de estudo sério, talvés a engenharia de software que esta fazendo seja para áreas mais dominantes do modelo, por isso percebeu diferente.

O Agents' Last Exam (ALE) da UC Berkeley — uma das universidades mais respeitadas do mundo em IA, desenvolvido em colaboração com mais de 250 especialistas da indústria e dezenas de instituições (MIT, Stanford, ETH Zurich, Morgan Stanley, JPMorgan Chase, entre outras) — mostra na prática o baixo desempenho do modelo.

https://export.arxiv.org/abs/2606.05405

O paper prova, com dados tabelados:

Fable 5 teve 0% de sucesso nas tarefas mais difíceis (Last-Exam tier) — ou seja, em problemas reais de alta complexidade, entregou zero.

Custo exorbitante: consumiu US$ 2.402 para rodar os testes — o mais caro de todos os modelos avaliados.

Ineficiência total: levou 376 horas para completar tarefas que outros modelos fizeram em muito menos tempo.

Falhas de conhecimento e abordagem: o próprio paper aponta que as principais falhas são falta de conhecimento específico (31%) e estratégia errada (47%) — exatamente o que vi na programação de baixo nível.

E o Mythos (base do Fable 5) na segurança?

Quando o Mythos foi testado no projeto cURL (176 mil linhas de C), o modelo afirmou ter encontrado cinco vulnerabilidades confirmadas. Após análise da equipe do cURL, apenas uma era uma vulnerabilidade real (de baixa severidade). Três eram falsos positivos e uma era um bug simples, sem implicação de segurança. O criador do cURL, Daniel Stenberg, afirmou que o hype em torno do Mythos foi "primariamente marketing" e que não há evidência de que o modelo encontre vulnerabilidades em um grau mais alto do que ferramentas já existentes. Isso significa que 80% do que o Mythos apontou como "vulnerabilidade confirmada" era, na verdade, falso positivo

https://www.theregister.com/security/2026/05/11/anthropics-bug-hunting-mythos-was-greatest-marketing-stunt-ever-says-curl-creator/5238111

A Palo Alto Networks, uma das maiores empresas de cibersegurança do mundo, usou o Mythos e relatou uma taxa média de falsos positivos de cerca de 30%. O CEO Nikesh Arora afirmou que, especificamente com o Mythos, 25% das descobertas de vulnerabilidade eram falsos positivos. A empresa disse que "estar errado 30% das vezes em segurança cibernética é catastrófico" e precisou construir uma infraestrutura especializada para reduzir o ruído.

https://www.inforisktoday.in/palo-alto-networks-sees-ai-boom-driving-firewall-demand-a-31849

A Cloudflare também testou o Mythos e destacou que ele gera um grande número de descobertas especulativas e falsos positivos, particularmente em linguagens não seguras para memória, como C e C++. A empresa afirmou que o modelo tem uma "tendência inerente a relatar excessivamente possíveis problemas", transformando-se de uma ferramenta útil em um fardo de triagem caro para revisores humanos.

O renomado especialista em segurança Bruce Schneier criticou a falta de transparência da Anthropic, que mostrou apenas um "melhores momentos" de sucessos. Ele afirmou que "não sabemos quantas vezes o Mythos sinalizou código incorretamente como vulnerável" e que, sem saber a taxa de falsos alarmes, não é possível dizer se os exemplos mostrados são representativos.

https://www.schneier.com/blog/archives/2026/04/mythos-and-cybersecurity.html

Conclusão

Isso mostra o que realmente se pode esperar do Mythos e, por tabela, do Fable 5: custo alto, retrabalho e confiabilidade questionável. A "% da mentira do modelo" é o custo direto de horas desperdiçadas analisando falsos positivos e corrigindo alucinações.

Um modelo que gera uma enxurrada de falsos positivos não ajuda — ele atrapalha. A própria indústria já está sentindo isso: o projeto cURL encerrou seu programa de bug bounty em 2026 por causa do volume de relatórios falsos gerados por IAs.

https://www.bleepingcomputer.com/news/security/curl-ending-bug-bounty-program-after-flood-of-ai-slop-reports/

Esse problema não é uma exclusividade do novo modelo, mas continua existindo no novo.

Portanto, minha avaliação de que o Fable 5 é uma bosta para tarefas sérias não é opinião isolada — é o que a UC Berkeley publicou em seu benchmark mais rigoroso até hoje e o que os testes de empresas também já estão comprovando, pode ser que melhore com o tempo, mas atualmente é mais hype que qualquer outra coisa.

1

Você compartilhou 5 links. 3 deles são críticas diretas ao Mythos, 1 deles é uma crítica geral à AI slop e somente 1 é neutro. Sem querer ofender ninguém, mas me parece desonestidade intelectual (e das grandes) uma pessoa responder à isso focando só no que é neutro e ignorando todo o resto. Colocando em porcentagem, a pessoa ignorou 80% da questão e focou nos 20% que lhe convém.

Vale lembrar que supostamente o Mythos seria absurdamente melhor que o Fable. Então críticas ao Mythos são críticas ao Fable, que é uma versão limitada do primeiro.


Agora, falando especificamente sobre o primeiro artigo. É importante destacar que artigo científico deve ter teor neutro e não crítico, pois o objetivo de um artigo científico é divulgar resultados de uma pesquisa e não criticar nada nem ninguém. Então é óbvio que o artigo não irá indicar diretamente falta de qualidade em nenhum dos modelos testados.

Mas os dados estão lá:

  • Página 8, tabela 1, mostra o GPT-5.5 tendo pontuação significamente melhor que o Fable, por um custo muito menor e terminando a tarefa na metade do tempo.
  • Página 9 mostra o GPT-5.5 com resultados melhores ou quase idênticos em todas as áreas. Exceto agricultura e meio ambiente, sendo a única área que o Fable realmente se saiu significamente melhor.
  • Página 37 mostra que o GPT-5.5 custou $326 e teve uma pontuação de 45.8% e o Fable custou $2.402 e pontuou 40.5%. Pontuação significamente menor e custo muito maior.

Os dados estão no artigo. Quem é proficientemente alfabetizado e consegue interpretar dados, vê claramente: O Fable é muito mais caro e significamente pior que o GPT 5.5.

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

0

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

Olhar para o segundo melhor modelo do benchmark e carimbá-lo como 'bosta' é forçar uma narrativa emocional que os próprios dados você trouxe para a discussão simplemente não sustentam!!! Preço abusivo, talvez. Marketing exagerado, com certeza. Mas não confunda as coisas.

-1

Mas eu não preciso de dados ou evidências para sustentar uma opinião. Entenda: se a pessoa acha algo uma bosta ou a melhor coisa do mundo, isso é uma questão de opinião. E opinião não precisa de evidências, nem é possível de evidenciá-la. O que é possível, é justificar a opinião.

E a opinião está muito bem justificada: A Anthropic fez um marketing absurdo como se fosse revolucionar tudo com o novo modelo, para no final entregar algo pior e mais caro que a sua principal concorrente.

Acho que o pensamento "nossa, que bosta" é o pensamento mais sensato para se ter em uma situação como esta. Pagar mais para receber menos é uma bosta.

Segundo melhor? É sim. E isso seria aceitável se tivesse um preço condizente com o segundo melhor e um marketing condizente com o segundo melhor. Mas o marketing foi feito como se fossem lançar uma revolução e estão cobrando como se fosse uma revolução.

É, é uma bosta.

1

Beleza, se o seu ponto agora é sobre a sua opinião pessoal...

Minha única divergência lá atrás foi quando o colega afirmou que 'o paper prova... que o Fable 5 é uma bosta'.

1
0
0

HAHAHAHA!!!! Mais uma vez, você está misturando completamente as coisas.

Você sequer leu o artigo que acabou de citar???? Aonde o paper mostra que o Fable 5 é uma bosta para tarefas sérias????

Enfim, não vou ficar discutindo com o seu prompt do DeepSeek. Você claramente virou o próprio 'papagaio estocástico', repetindo o que copiou da IA, sem ter a capacidade ou o trabalho de verificar, validar e compreender o que esta dizendo.

2

O risco de bloquear um modelo avançado e liberar os mais simples para estrangeiros é acontecer o que aconteceu com a NVIDIA na China, criar mercado pra concorrência.

2
1

Antigamente tinha as guerras sobre qual linguagem de programação era melhor que a outra (programming language wars), atualmente, a guerra é qual IA é melhor que a outra.
Enfim, uma mensagem para o autor do post: seria mais fácil (para quem vai ler seu post) colocar as fontes logo na criação. Já indica logo de antemão de onde você tirou suas ideias ou conclusões.
Agora, minha opinião:
Eu não usei este modelo e não pago pra usar IA. Para mim, uma tecnologia que ainda está engatinhando, deveria passar por um exaustivo escrutínio público. Sim, seremos o produto (na verdade já somos pra muita coisa), mas é somente minha opinião pessoal.
Para mim, grande parte do Fable/Mythos foi hype. Lembrem que o CEO da Anthropic pediu uma pausa nas IAs https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04/ mas logo depois lançou os famigerados modelos. Uma situação estranha.
Também tem a guerra da Anthropic com o Pentágono. Também uma situação estranha.
Agora vejam esta notícia que corrobora alguns pontos que o autor trouxe: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail

Vi algumas pessoas testando o Fable 5 no YouTube, mas não foi nada complexo. Não sei se as pessoas não tinham muita ideia em que testar, mas estavam criando, basicamente, landing pages. Pelamor né? O resultado foi legal, tinha animações com WebGL e tal, mas fala sério.

Enfim, vou procurar saber mais e olhar os benchmarks.

1
1
1

Esses testes focaram em exatamente o que? Porque para programação eu já testei GPT 5.5, Gemini 3.1 Pro e 3.5 Flash, Claude Sonet e Opus 4.8 e consegui usar por um dia o Fable 5. Estou desenvolvendo um jogo com Vibe Coding e posso te dizer com total certeza que o melhor modelo foi o Fable 5 resolvendo rapidamente alguns bugs bem complexos, seguido pelo Opus 4.8
Não estou defendendo ninguém, pelo contrário, quero o melhor modelo atual para uso pessoal e minha experiência foi essa, porém não testei o DeepSeek para coding, você ja testou? O jogo em questão é Scourge of Eldryngard, que já tem DEMO, podem tirar suas próprias conclusões aqui na Steam https://store.steampowered.com/app/4684330/Scourge_of_Eldryngard_Demo/

Me digam se vale a pena testar o DeepSeek para vibe coding caso ele seja melhor wie o Opus, já que o Fable foi bloqueado para nós 💩

0

vale apena testar sim o V1 pro da Deepseek, O teste do Fable é para tarefas complexas de baixo nível, linguagem C, linguagem ligada a hardware etc, muito ruim nesse ponto.

1

Vou testar, estou usando o motor Godot que usa uma versão personalizada do Python para desenvolver o jogo. Obrigado pela recomendação!