← Esperimento

Guida divulgativa basata su P1_RC_GGL: un test di chiusura rigoroso della dinamica galattica e del lensing debole (v1.1)

Rapporto originale di Guanglin Tu | Base di versione: P1 v1.1 | Stato: testo divulgativo / non articolo sottoposto a peer review
Archivi correlati: DOI del rapporto 10.5281/zenodo.18526334 | DOI del pacchetto di riproduzione 10.5281/zenodo.18526286

Nota di lettura

Questo è un testo esplicativo, non un rapporto accademico separato. Si basa sul rapporto P1 originale, conserva figure e tabelle chiave e aggiunge spiegazioni in linguaggio comune di “che cosa significa” in ciascun passaggio importante.

Questo documento spiega soltanto le conclusioni che P1 raggiunge con i dataset, il registro dei parametri e il protocollo statistico dichiarati: nel test congiunto delle curve di rotazione galattiche (RC) e del lensing debole galassia-galassia (GGL), il modello di risposta gravitazionale media dell’EFT supera in modo netto la baseline minima DM_RAZOR testata qui.

Questo documento non legge P1 come una rivendicazione che “rovescia la materia oscura”. P1 è solo il primo passo degli esperimenti della serie P. Testa uno strato osservabile dell’EFT, il “fondo gravitazionale medio”, non l’intero quadro EFT.

0 | Capire P1 in cinque minuti: che cosa sta davvero testando?

Si può pensare a P1 come a una verifica incrociata tra sonde osservative. Non si limita a chiedere se un modello riesca ad adattarsi a un solo insieme di dati: mette sullo stesso banco di audit due letture gravitazionali molto diverse. Le curve di rotazione (RC) leggono la dinamica all’interno dei dischi galattici, mentre il lensing debole galassia-galassia (GGL) legge la risposta gravitazionale proiettata su scale più grandi.

La frase centrale di P1

P1 alza la soglia di confronto da “si adatta bene a una sonda?” a “chiude attraverso sonde diverse?”. Una buona prestazione con la mappatura corretta, seguita dal collasso del segnale con mappatura mescolata, suggerisce che un modello possa catturare una struttura gravitazionale condivisa da RC e GGL.

Tabella 0 | I numeri chiave di P1 e la loro lettura in linguaggio comune

Metrica

Lettura in P1 / P1A

Significato in linguaggio comune

Fit congiunto ΔlogL_total

Nel confronto principale, EFT è 1155–1337 sopra DM_RAZOR

Il divario di punteggio totale sui due dataset; più alto significa una spiegazione complessiva migliore.

Forza di chiusura ΔlogL_closure

Nel confronto principale, EFT è 172–281; DM_RAZOR è 127

La capacità di prevedere GGL dopo aver inferito solo da RC; più alto significa maggiore coerenza tra sonde.

Shuffle del controllo negativo

Dopo lo shuffle RC-bin→GGL-bin, il segnale di chiusura dell’EFT scende a 6–23

Se la corrispondenza corretta viene spezzata, il vantaggio dovrebbe sparire; più netto è il calo, più forte è l’esclusione di un segnale spurio.

Stress test multi-DM P1A

DM 7+1 + DM_STD, con EFT_BIN mantenuto come controllo

P1A non esamina soltanto il DM_RAZOR minimo; colloca diversi rami di potenziamento DM a bassa dimensionalità e auditabili sotto lo stesso protocollo di chiusura.


1 | Perché eseguire P1? Dove si blocca la cosmologia su scala galattica

I problemi su scala galattica restano difficili perché il bisogno di “gravità/massa extra” non è soltanto un fenomeno delle curve di rotazione. Molte osservazioni mostrano un legame stretto tra la materia barionica visibile nelle galassie e le letture dinamiche o di lensing effettive. Per la via della materia oscura, questo significa che aloni oscuri, feedback barionico, storie di formazione galattica e sistematiche osservative devono essere coordinati con estrema cura. Per le vie gravitazionali senza materia oscura, significa che un modello non può apparire convincente solo sulle RC: deve reggere anche al lensing debole, alle relazioni di scala di popolazione e ai controlli negativi.

Proprio per questo P1 è stato progettato. Non parte da “la materia oscura è sbagliata” né da “l’EFT deve essere corretta”. Porta al banco di audit una singola affermazione verificabile: se la risposta gravitazionale media dell’EFT lasci, nella chiusura incrociata RC→GGL, un segnale riproducibile e trasferibile.

Contesto della letteratura esterna: perché la finestra RC+GGL conta

La relazione di accelerazione radiale (RAR) proposta da McGaugh, Lelli e Schombert nel 2016 mostra una correlazione stretta e a bassa dispersione tra l’accelerazione osservata tracciata dalle curve di rotazione e l’accelerazione prevista dalla materia barionica. Questo rende inevitabile, per ogni teoria su scala galattica, il problema dell’accoppiamento tra barioni e risposta gravitazionale.

Brouwer et al. (2021) hanno usato il lensing debole KiDS-1000 per estendere la RAR ad accelerazioni più basse e raggi più grandi, confrontando MOND, la gravità emergente di Verlinde e modelli LambdaCDM. Hanno inoltre osservato che le differenze tra galassie early-type e late-type, gli aloni di gas e le connessioni galassia–alone restano questioni esplicative cruciali.

Mistele et al. (2024) hanno inoltre inferito curve di velocità circolare per galassie isolate dal lensing debole, riportando assenza di un chiaro declino fino a centinaia di kpc e persino a circa 1 Mpc, in accordo con la BTFR. Questo mostra che il lensing debole sta diventando una lettura esterna importante per testare la risposta gravitazionale su scala galattica.

Il valore di P1, quindi, non sta nell’essere il primo lavoro a discutere insieme RC e GGL. Sta nel collocarli dentro un protocollo auditabile fatto di mappatura fissa, registro dei parametri, chiusura RC-only→GGL, controlli negativi con shuffle e stress test P1A con più rami DM.


2 | Che cosa significa EFT in P1? Non è Effective Field Theory

Qui EFT significa Teoria del filamento di energia (Energy Filament Theory), e non la teoria efficace dei campi (Effective Field Theory) familiare in fisica. Nel rapporto tecnico P1, l’EFT viene usata in modo volutamente circoscritto: non entra in gara come teoria finale completa, ma viene prima compressa in una parametrizzazione osservabile, adattabile e falsificabile della “risposta gravitazionale media”.

In termini semplici, P1 non discute ancora tutte le sorgenti microscopiche della gravità extra, né prova a dimostrare l’intero quadro EFT in un solo passaggio. Pone una domanda più stretta e più dura: se su scala galattica esiste una qualche risposta gravitazionale extra media, può spiegare prima le RC e poi prevedere il GGL?

Quale parte dell’EFT testa P1?

P1 testa il “fondo gravitazionale medio” (mean gravity floor): un contributo medio statisticamente stabile, trasferibile tra campioni.

P1 non affronta ancora il fondo stocastico / di rumore: termini casuali, variazioni da oggetto a oggetto o dispersione aggiuntiva che possono derivare da processi di fluttuazione più microscopici.

P1 non discute neppure il meccanismo microscopico completo, l’abbondanza, la vita media o i vincoli cosmologici globali. È il primo passo degli esperimenti della serie P, non un verdetto finale.


3 | Il piano della serie P: perché partire dal “fondo medio”?

La serie P può essere intesa come il programma di recupero osservativo dell’EFT. Non mette sul tavolo tutte le affermazioni in una volta; isola prima la parte che i dati pubblici possono testare nel modo più diretto. P1 comincia dal termine medio: se la risposta gravitazionale media non riesce neppure a chiudere RC→GGL, non esiste un ingresso solido per discutere termini di rumore più complessi o meccanismi microscopici.

Tabella 1 | Posizionamento a strati della serie P

Strato

Domanda posta

Ruolo in P1

P1

La risposta gravitazionale media può chiudere RC→GGL?

Domanda principale del rapporto attuale

P1A

Se il lato DM viene rafforzato, la conclusione resta stabile?

Appendice B: stress test DM 7+1 + DM_STD

Lavori successivi della serie P

Il protocollo può estendersi a più dati, più sonde e sistematiche più complesse?

Direzione per lavori futuri

Domande più profonde

Come si connettono termine medio, termine di rumore e meccanismo microscopico?

Fuori dall’ambito conclusivo di P1


4 | Quali sono i dati? Che cosa ci dicono rispettivamente RC e GGL?


4.1 Curve di rotazione (RC): il misuratore di velocità del disco

Una curva di rotazione registra quanto velocemente gas e stelle orbitano attorno al centro di una galassia a raggi diversi. Più si muovono rapidamente, più intensa deve essere la forza centripeta richiesta a quel raggio, e quindi più forte è la gravità effettiva. P1 usa il database SPARC; dopo la pre-elaborazione, include 104 galassie, 2.295 punti di velocità e 20 bin RC.


4.2 Lensing debole (GGL): una bilancia gravitazionale su scale più grandi

Il lensing debole galassia-galassia misura come le galassie in primo piano curvino leggermente la luce delle galassie di fondo. Corrisponde a una risposta gravitazionale proiettata su scale più grandi, di tipo alone, e non dipende dai dettagli della dinamica del gas nei dischi galattici. P1 usa i dati GGL pubblici di KiDS-1000 / Brouwer et al. 2021: quattro bin di massa stellare, 15 punti radiali per bin, 60 punti dati in totale, con matrice di covarianza completa.


4.3 Mappatura fissa: perché 20 bin RC → 4 bin GGL è cruciale

P1 collega i 20 bin RC ai 4 bin GGL con una regola fissa: ogni bin GGL corrisponde a cinque bin RC ed è mediato con pesi dati dal numero di galassie. Questa mappatura resta invariata per tutti i modelli, diventando un vincolo rigido sia per il test di chiusura sia per il confronto equo.

Perché non regolare la mappatura a posteriori?

Se si potesse scegliere a posteriori quali bin RC corrispondono a quali bin GGL, un modello potrebbe fabbricare la chiusura riordinando le corrispondenze. P1 blocca in anticipo la mappatura 20→4 e poi la rompe deliberatamente con un controllo negativo shuffle, proprio per verificare se il segnale di chiusura dipenda da una corrispondenza fisicamente ragionevole.


5 | Modelli e metodo: che cosa confronta davvero P1?


5.1 Il lato EFT: una risposta gravitazionale media a bassa dimensionalità

Sul lato EFT, un termine di velocità extra a bassa dimensionalità descrive la risposta gravitazionale media. La forma del termine extra è controllata da una funzione kernel adimensionale f(r/ℓ), dove ℓ è una scala globale; l’ampiezza è assegnata per bin RC. Kernel diversi rappresentano pendenze iniziali, velocità di transizione e code a lungo raggio diverse, e vengono usati come stress test di robustezza.


5.2 Il lato DM: confronto principale e Appendice P1A vanno letti separatamente

Nel confronto principale, DM_RAZOR è una baseline NFW minimizzata e auditabile: usa una relazione c–M fissa e non include dispersione halo-to-halo, contrazione adiabatica, feedback core, non sfericità o termini ambientali. Il vantaggio è una libertà controllata e una facile riproducibilità; il limite è che non può rappresentare tutti i modelli LambdaCDM o tutti i modelli di alone di materia oscura.

Per questo motivo, l’Appendice B (P1A) trasforma il lato DM in una serie di stress test standardizzati. Senza modificare la mappatura condivisa o il protocollo di chiusura, aggiunge progressivamente rami di potenziamento a bassa dimensionalità come SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m e la baseline combinata DM_STD, mantenendo EFT_BIN come controllo. P1A va quindi letto così: non confronta solo una baseline DM minima, ma mette diversi meccanismi DM comuni e auditabili secondo lo stesso criterio di chiusura.

Formulazione accurata della conclusione usata qui

Testo principale: la serie EFT supera in modo significativo il DM_RAZOR minimo nel confronto principale.

Appendice B / P1A: attraverso diversi rami di potenziamento DM a bassa dimensionalità e auditabili, e nello stress test DM_STD, alcuni fit congiunti DM migliorano, ma la forza di chiusura non elimina il vantaggio di EFT_BIN.

La formulazione più prudente è quindi: entro dati, mappatura, registro dei parametri e protocollo di chiusura di P1/P1A, la risposta gravitazionale media dell’EFT mostra una coerenza più forte tra dataset; questo non equivale a escludere tutti i modelli di materia oscura.


5.3 Test di chiusura: la logica sperimentale più importante di P1

1. Si adatta usando solo RC, ottenendo un insieme di campioni posteriori RC-only.

2. Non si riaggiusta con GGL; si usa direttamente il posteriore RC per prevedere GGL.

3. Si usa la covarianza completa per calcolare il punteggio di previsione GGL sotto la mappatura corretta, logL_true.

4. Si permuta casualmente la corrispondenza RC-bin→GGL-bin e si calcola il punteggio del controllo negativo, logL_perm.

5. Si sottraggono i due valori per ottenere la forza di chiusura: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogia semplice

Il test di chiusura assomiglia a una riprova in un’altra aula. Un modello impara prima il modello di comportamento nell’aula d’esame RC e poi risponde nell’aula GGL. Se ha imparato una regola condivisa e non un trucco locale, dovrebbe funzionare bene anche dopo il cambio d’aula. Se la corrispondenza tra le aule viene deliberatamente rimescolata, il vantaggio dovrebbe sparire.


5.4 Prima di leggere le tabelle tecniche: quattro punti di ingresso

Tabella 5.4 | Percorso di lettura per il prossimo gruppo di tabelle tecniche in orizzontale

Punto di ingresso

Che cosa guardare

Perché conta

Tabella S1a

Punteggio totale del fit congiunto RC+GGL

Risponde: sui due dataset, quale spiegazione è complessivamente più forte?

Tabella S1b

Forza di chiusura, shuffle, scansioni di robustezza

Risponde: ciò che RC apprende può trasferirsi a GGL?

Tabella B0

Definizioni dei molteplici rami di potenziamento DM in P1A

Evita di ridurre P1 a “confrontato solo con DM_RAZOR minimo”.

Tabella B1

Scoreboard P1A di chiusura e fit congiunto

Controlla se il vantaggio di chiusura scompare dopo il rafforzamento del DM.

Nota di impaginazione

La pagina successiva passa all’orientamento orizzontale per conservare integralmente le tabelle larghe del rapporto originale, senza eliminare colonne né comprimerle fino a renderle illeggibili. Il testo principale ha già fornito la lettura in linguaggio comune; le tabelle tecniche in orizzontale sono destinate a chi deve verificare numeri e rami di modello.

Fig. 0.1 | Il flusso del test di chiusura P1 in sintesi

Nota: la catena superiore è il “test di chiusura” (adattamento con sole RC → uso del posteriore RC per prevedere GGL); la catena inferiore è il “fit congiunto” (punteggio RC+GGL insieme). A destra, la mappatura reale viene confrontata con quella mescolata per ottenere la forza di chiusura ΔlogL.


6 | Tabelle tecniche chiave: tabelle principali del rapporto e tabelle P1A

Tabella S1a | Metriche principali del confronto nel fit congiunto (RC+GGL, Strict; mantenuta dal rapporto originale)

Modello (workspace)

Kernel W

k

logL_total congiunto (best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabella S1b | Metriche di chiusura e robustezza (Strict; mantenute dal rapporto originale)

Modello (workspace)

ΔlogL di chiusura (true-perm)

ΔlogL del controllo negativo dopo shuffle

Intervallo ΔlogL nella scansione σ_int

Intervallo ΔlogL nella scansione R_min

Intervallo ΔlogL nella scansione cov-shrink

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabella B0 | Definizioni dei rami di potenziamento DM in P1A (mantenute dall’Appendice B del rapporto originale)

Workspace

modello DM

Nuovi parametri (≤1)

Motivazione fisica (nucleo)

Principio di implementazione (auditabile)

DM_RAZOR

NFW (fixed c–M, no scatter)

Baseline di alone LambdaCDM minima e auditabile; usata per il confronto rigoroso con EFT

Mappatura condivisa fissa; registro dei parametri rigoroso; usata come baseline solo per confronti relativi

DM_RAZOR_SCAT

NFW + dispersione c–M (legacy)

σ_logc

Consente dispersione nella relazione c–M; approssimata con una dispersione log-normale a un parametro

≤1 nuovo parametro; usa ancora la mappatura condivisa; il guadagno di chiusura è il criterio di accettazione

DM_RAZOR_AC

NFW + contrazione adiabatica (legacy)

α_AC

La caduta barionica può guidare la contrazione adiabatica dell’alone; approssimata con un parametro di intensità

≤1 nuovo parametro; mappatura invariata; riportare variazioni AICc/BIC e guadagno di chiusura

DM_RAZOR_FB

NFW + feedback core (legacy)

log r_core

Il feedback può formare un core interno; approssimato da una scala core a un parametro

≤1 nuovo parametro; stesso protocollo di chiusura/controllo negativo; il miglioramento RC-only non è l’unico obiettivo

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc (hier)

Una forma gerarchica più standard c_i∼logN(c(M_i), σ_logc); influenza il posteriore congiunto RC e GGL

Prior esplicito; c_i latenti marginalizzati; resta a bassa dimensionalità e auditabile

DM_CORE1P

1‑parameter core proxy (coreNFW/DC14‑inspired)

log r_core

Usa un proxy core a un parametro per l’effetto principale del feedback barionico, evitando dettagli ad alta dimensionalità della formazione stellare

Rimanda alla letteratura standard; ≤1 nuovo parametro; legato al test di chiusura

DM_RAZOR_M

NFW + lensing shear‑calibration nuisance

m_shear (GGL)

Assorbe una sistematica chiave del lensing debole con un parametro efficace, riducendo il rischio di trattare le sistematiche come fisica

Il nuisance è registrato esplicitamente; non può retroagire su RC; i risultati sono giudicati soprattutto dalla robustezza della chiusura

DM_STD

Standardized DM baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Colloca le tre obiezioni più comuni in una baseline standardizzata ancora a bassa dimensionalità

Riporta insieme registro dei parametri e criteri informativi; la chiusura è la metrica principale; usata come controllo di difesa DM più forte

Tabella B1 | Scoreboard P1A (più alto è meglio; mantenuta dall’Appendice B del rapporto originale)

Ramo di modello (workspace)

Δk

RC-only best logL_RC (Δ)

Forza di chiusura ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Come leggere la Tabella B1 (scoreboard P1A)

• Δk: nuovi gradi di libertà; un valore più grande indica un modello più complesso, non automaticamente migliore.

• Concentrarsi su due colonne: forza di chiusura ΔlogL_closure(Δ) (più grande significa maggiore coerenza di trasferimento) e Joint best logL_total(Δ) (punteggio totale del fit congiunto).

• Il valore tra parentesi (Δ) indica la differenza rispetto a DM_RAZOR e facilita il confronto diretto.

• Questa tabella chiede soprattutto se il vantaggio di chiusura scompare quando la baseline DM viene rafforzata in modo ragionevole.

• Suggerimento di lettura: DM_STD migliora molto il punteggio congiunto, ma la sua forza di chiusura diminuisce; EFT_BIN resta più alto nella forza di chiusura.

Sintesi in una frase: dentro questo insieme di potenziamenti DM a bassa dimensionalità e auditabili, migliorare il fit congiunto non produce automaticamente una chiusura più forte; la chiusura, cioè la trasferibilità, resta il criterio decisivo.


7 | Come leggere i risultati principali?

7.1 Fit congiunto: sui due insiemi di dati, l’EFT ottiene un punteggio più alto nel confronto principale

La Tabella S1a e la Fig. S4 mostrano che, con gli stessi dati, la stessa mappatura condivisa e una scala parametrica pressoché analoga, la serie EFT ha un ΔlogL_total congiunto di 1155–1337 rispetto a DM_RAZOR. In termini semplici: sotto una stessa regola di punteggio applicata insieme a RC e GGL, i modelli EFT del confronto principale ottengono un punteggio totale più alto.


7.2 Test di chiusura: l’enfasi principale di P1 è la trasferibilità

Una forza di chiusura elevata significa che i parametri inferiti solo da RC riescono a prevedere meglio GGL senza guardare di nuovo GGL. Nel rapporto P1, il ΔlogL_closure dell’EFT è 172–281, mentre quello di DM_RAZOR è 127. Questo conta più del dire che ogni modello si adatta bene ai propri dati, perché limita la libertà del modello sul secondo insieme di dati.


7.3 Controllo negativo: perché il “collasso del segnale” è una buona notizia?

Dopo che P1 mescola casualmente la corrispondenza dei gruppi RC-bin→GGL-bin, il segnale di chiusura dell’EFT scende nell’intervallo 6–23. Per un lettore generale, questo passaggio è un controllo anti-imbroglio: se il vantaggio di chiusura fosse solo un prodotto di codice, unità, gestione della covarianza o fortuna del fit, anche la corrispondenza mescolata potrebbe mostrare un vantaggio. Invece il vantaggio collassa, indicando che dipende dalla mappatura corretta.

Fig. S3 | Forza di chiusura (più alto è meglio): vantaggio medio di log-verosimiglianza per la previsione RC-only → GGL.

Come leggere questa figura

Questa figura è centrale per P1. Più alta è la barra, meglio l’informazione appresa da RC si trasferisce a GGL.

La serie EFT è complessivamente più alta di DM_RAZOR, indicando una chiusura tra sonde più forte nell’esperimento “impara prima RC, poi prevedi GGL”.

Fig. S4 | Vantaggio nel fit congiunto (più alto è meglio): best logL_total RC+GGL rispetto a DM_RAZOR.

Come leggere questa figura

Questa figura mostra il punteggio totale dopo il fit congiunto di RC e GGL.

Tutte le varianti EFT sono nettamente sopra zero, mostrando che il vantaggio EFT nel confronto principale non è un effetto locale di un singolo punto, ma il comportamento complessivo dell’analisi congiunta.

Fig. R1 | Controllo negativo: il segnale di chiusura cala nettamente dopo il raggruppamento mescolato.

Come leggere questa figura

Questa figura mostra che, quando la relazione corretta di binning RC↔GGL viene mescolata, il segnale di chiusura cala nettamente.

Questo fa apparire il risultato P1 più come una coerenza reale nella mappatura tra dati, e non come una coincidenza numerica ottenibile con qualunque mappatura.


8 | Robustezza e controlli: come P1 evita di sembrare solo una regolazione di parametri

Le domande più naturali per qualsiasi rapporto tecnico sono: il vantaggio deriva da una particolare impostazione del rumore, da un segmento di dati nella regione centrale, da un trattamento della covarianza o da overfitting? P1 risponde con molteplici stress test.

Tabella 2 | Come leggere i test di robustezza e i controlli negativi di P1

Test

Domanda che cerca di escludere

Lettura

Scansione σ_int

Se RC contiene dispersione ignota aggiuntiva, la conclusione resta stabile?

Dopo l’allentamento degli errori RC, il rango EFT e la scala del vantaggio restano stabili.

Scansione R_min

Se la regione centrale della galassia non è pienamente affidabile, la conclusione resta stabile?

Dopo il taglio della regione centrale, EFT conserva comunque un vantaggio positivo.

Scansione cov-shrink

Se la stima della covarianza GGL è incerta, la conclusione resta stabile?

Dopo la contrazione della covarianza verso la diagonale, il vantaggio non è sensibile.

Scala di ablazione

EFT guadagna grazie a complessità non necessaria?

L’EFT_BIN completo è necessario secondo i criteri informativi.

Previsione LOO su dati esclusi

Il modello spiega solo dati che ha già visto?

I bin GGL esclusi mostrano ancora una generalizzazione relativamente forte.

Shuffle dei bin RC

La chiusura proviene dalla mappatura reale?

La chiusura cala dopo il mescolamento dei gruppi, sostenendo la dipendenza dalla mappatura.

Fig. R2 | Intervallo di ΔlogL_total nella scansione σ_int (più alto è meglio).

Come leggere questa figura

Verifica se il vantaggio EFT rimane dopo aver modificato la dispersione intrinseca RC assunta.

Fig. R3 | Intervallo di ΔlogL_total nella scansione R_min (più alto è meglio).

Come leggere questa figura

Verifica se il vantaggio EFT resta stabile dopo aver eliminato la regione centrale complessa.

Fig. R4 | Intervallo di ΔlogL_total nella scansione cov-shrink (più alto è meglio).

Come leggere questa figura

Verifica se il ranking è sensibile a cambiamenti nel trattamento della covarianza del lensing debole.

Fig. R5 | Scala di ablazione per EFT_BIN (AICc; più basso è meglio).

Come leggere questa figura

Verifica se l’EFT_BIN completo è necessario per spiegare i dati, invece di aggiungere semplicemente parametri.

Fig. R6 | LOO: distribuzione della log-verosimiglianza per i bin esclusi.

Come leggere questa figura

Verifica se il modello predice ancora bin GGL che non ha visto.

Fig. R7 | Controllo negativo: la mappatura mescolata produce un chiaro calo della media di chiusura logL_true.

Come leggere questa figura

Mostra inoltre, dal punto di vista del mean logL_true, che la chiusura dipende dalla mappatura corretta tra i dati.


9 | P1A: perché i “molteplici modelli DM nell’Appendice” sono importanti

Questa sezione non chiede: “EFT ha battuto soltanto un DM_RAZOR minimo?”. Chiede se le conclusioni del test di chiusura e del fit congiunto cambino quando la baseline DM viene rafforzata entro un’impostazione a bassa dimensionalità, riproducibile e con registro dei parametri chiaro (P1A). In altre parole, P1A riduce la critica secondo cui il confronto avrebbe scelto una baseline DM troppo debole e sposta la discussione su una domanda più precisa: sotto un insieme auditabile di potenziamenti DM, le prestazioni di chiusura restano diverse?

P1A non tenta di esaurire ogni possibile modellazione degli aloni LambdaCDM, né trasforma il lato DM in un adattatore ad alta dimensionalità non auditabile. Sceglie potenziamenti a bassa dimensionalità, riproducibili e con registro parametrico chiaro: dispersione della concentrazione, contrazione adiabatica, feedback core, prior gerarchico di dispersione c–M, proxy core a un parametro, nuisance di calibrazione shear del lensing debole e ramo combinato DM_STD.

Lettura principale di P1A

Tra i tre rami legacy, solo feedback/core produce un piccolo guadagno netto nella forza di chiusura; SCAT e AC non producono un guadagno netto di chiusura.

DM_HIER_CMSCAT, DM_RAZOR_M e DM_CORE1P hanno scarso effetto sulla forza di chiusura o non mostrano un guadagno netto significativo.

DM_STD può migliorare sensibilmente il joint logL, ma la sua forza di chiusura diminuisce; ciò suggerisce che aumenti soprattutto la flessibilità del fit congiunto, non la capacità di previsione per trasferimento RC→GGL.

Nella Tabella B1 di P1A, EFT_BIN mantiene ancora una forza di chiusura più alta e un vantaggio nel fit congiunto. Perciò l’affermazione centrale di P1 non dovrebbe essere semplificata in “ha battuto solo il DM_RAZOR minimo”.

Fig. B1 | Scoreboard P1A: ΔlogL di chiusura e congiunto rispetto alla baseline (più alto è meglio).

Come leggere questa figura

Questa figura mostra le prestazioni di più rami di potenziamento DM rispetto alla baseline.

Il suo significato non è “tutto il DM è escluso”. Mostra che, entro i potenziamenti DM a bassa dimensionalità e auditabili scelti in P1A, rafforzare il DM non cancella il vantaggio di chiusura di EFT_BIN.


10 | Perché l’esperimento P1 vale la pena


10.1 Significato metodologico: mettere la chiusura tra sonde sopra il fit a singola sonda

La teoria su scala galattica può facilmente bloccarsi sulla domanda se un dato modello riesca ad adattarsi a un certo insieme di curve di rotazione. P1 alza l’asticella: i parametri appresi dalle RC possono prevedere il lensing debole senza riaggiustarsi su GGL? Così P1 passa da una gara di fitting a un test di previsione per trasferimento.


10.2 Significato di trasparenza: trattare la catena riproducibile come parte del risultato

Un contributo importante di P1 è pubblicare insieme dati, tabelle e figure, etichette di esecuzione, controlli negativi, pacchetto di riproduzione e catena di audit. Questo conta sia per i sostenitori sia per i critici: la discussione può tornare agli stessi dati pubblici, alla stessa mappatura, agli stessi script e alle stesse metriche, invece di confrontare slogan.


10.3 Significato fisico: uno stress test forte per la gravità senza materia oscura

Nelle strade gravitazionali senza materia oscura, molti modelli riescono a spiegare una parte della fenomenologia delle curve di rotazione o della RAR. Il compito più difficile è superare contemporaneamente le letture di lensing debole e mostrare, tramite controlli negativi, che il segnale dipende dalla mappatura corretta. Il significato di P1 è che colloca la risposta gravitazionale media dell’EFT dentro un protocollo simile a un esame esterno: RC è il campo di addestramento, GGL è il campo di trasferimento, e lo shuffle è il campo anti-imbroglio.


10.4 È un esperimento importante per la gravità senza materia oscura?

Una risposta prudente è questa: se il trattamento dei dati, il pacchetto di riproduzione e il protocollo di chiusura di P1 reggono alla revisione esterna, l’esperimento può essere considerato un test di chiusura RC+GGL da prendere sul serio nella ricerca sulla gravità senza materia oscura / gravità modificata. La sua importanza non sta nell’affermare che “rovescia la materia oscura”, ma nel fatto che offre un criterio tra sonde che può essere riprodotto, contestato ed esteso.

Esiste già un quadro RC+GGL di chiusura predittiva altrettanto forte?

Esistono già quadri rilevanti e tradizioni osservative. MOND/RAR organizza bene molti fenomeni delle curve di rotazione; il lavoro KiDS-1000 sulla RAR da lensing debole confronta anche MOND, la gravità emergente di Verlinde e modelli LambdaCDM. Anche LambdaCDM può spiegare parte della fenomenologia di lensing debole e dinamica attraverso connessioni galassia–alone, aloni di gas e modellazione del feedback.

Tuttavia l’affermazione precisa di P1 non è che nessun altro quadro possa spiegare RC+GGL. È che, sotto la propria mappatura fissa pubblica, la chiusura RC-only→GGL, il controllo negativo shuffle, il registro dei parametri e il protocollo P1A di stress test multi-DM, EFT riporta prestazioni di chiusura più forti.

In altre parole, ciò che merita maggiormente una verifica esterna in P1 è il suo protocollo di confronto concreto e riproducibile. Un passo successivo molto utile sarebbe testare se MOND/RAR, LambdaCDM/HOD, simulazioni idrodinamiche o altri quadri di gravità modificata possano raggiungere punteggi di chiusura uguali o superiori sotto lo stesso protocollo.


11 | Che cosa può concludere P1, e che cosa non può concludere?

Tabella 3 | I confini delle conclusioni di P1

Si può concludere

Sotto i dati RC+GGL di P1, la mappatura fissa e il protocollo del confronto principale, la serie EFT ha forza di fit congiunto e di chiusura più alta del DM_RAZOR minimo.

Si può concludere

Entro l’intervallo di potenziamenti DM a bassa dimensionalità e auditabili di P1A, più potenziamenti DM non cancellano il vantaggio di chiusura di EFT_BIN.

Si può concludere

Il controllo negativo shuffle mostra che il segnale di chiusura dipende dalla mappatura corretta tra dataset e non può essere ottenuto da mappature arbitrarie.

Non si può concludere

P1 non rovescia tutti i modelli di materia oscura. P1A non esaurisce ancora non sfericità, dipendenza ambientale, connessioni galassia–alone complesse, feedback ad alta dimensionalità o simulazioni cosmologiche complete.

Non si può concludere

P1 non dimostra dai primi principi la teoria EFT completa. Testa soltanto lo strato fenomenologico della risposta gravitazionale media.

Non si può concludere

P1 non esclude tutte le sistematiche. Fornisce evidenza di robustezza solo entro gli stress test elencati e il perimetro di audit.


12 | Domande frequenti per il lettore generale

D1: Vuol dire che “la materia oscura non esiste”?

No. Le conclusioni di P1 devono restare limitate ai dati, al protocollo e ai modelli di confronto usati qui. P1A va oltre la baseline minima DM_RAZOR, ma non rappresenta ancora ogni possibile modello di materia oscura.

D2: Vuol dire che “l’EFT è stata dimostrata”?

No, neppure. P1 testa l’EFT come parametrizzazione della risposta gravitazionale media e mostra prestazioni più forti nella chiusura RC→GGL. I meccanismi microscopici e la teoria completa non sono conclusioni di P1.

D3: Perché non dichiarare direttamente un valore di significatività in σ?

P1 usa punteggi di verosimiglianza unificati, criteri informativi e differenze di chiusura. ΔlogL è un vantaggio relativo sotto la stessa regola di punteggio; non equivale a un singolo valore σ.

D4: Perché mescolare la mappatura RC-bin→GGL-bin?

È un controllo negativo. Un vero segnale tra sonde deve dipendere dalla mappatura corretta. Se il segnale restasse ugualmente forte dopo lo shuffle, suggerirebbe piuttosto un bias di implementazione o un artefatto statistico.

D5: Quale dovrebbe essere il prossimo passo di P1?

Estendere lo stesso protocollo a più dati, più controlli DM, sistematiche più complesse e più quadri di gravità modificata, soprattutto in una forma che permetta a gruppi esterni di ritestarlo con la stessa metrica di chiusura.


13 | Mini glossario

Tabella 4 | Mini glossario

Termine

Spiegazione in una frase

Curva di rotazione (RC)

La relazione raggio–velocità in un disco galattico, usata per inferire la gravità effettiva nel piano del disco.

Lensing debole (GGL)

Misura la distribuzione gravitazionale/di massa media intorno alle galassie in primo piano tramite distorsioni statistiche nelle forme delle galassie di fondo.

Test di chiusura

Usa il posteriore RC per prevedere GGL, poi lo confronta con il controllo negativo a mappatura mescolata.

Controllo negativo

Rompe deliberatamente una struttura chiave per vedere se il segnale scompare; serve a escludere segnali spuri.

Alone NFW

Un profilo di densità per aloni di materia oscura comunemente usato nei modelli di materia oscura fredda.

Relazione c–M

La relazione tra concentrazione dell’alone c e massa M; consentire dispersione modifica la flessibilità del modello.

DM_STD

Il ramo standardizzato di stress test DM in P1A che combina più potenziamenti DM a bassa dimensionalità con un parametro nuisance di lensing.

ΔlogL

La differenza di log-verosimiglianza tra due modelli sotto la stessa regola di punteggio; un valore positivo significa che il primo si comporta meglio.

Covarianza

Descrizione matriciale delle correlazioni tra punti dati; i dati di lensing debole richiedono di norma la matrice di covarianza completa.


14 | Percorso di lettura consigliato e punti di ingresso per le citazioni

1. Leggere prima le sezioni 0–2 per capire la domanda di P1 e il ruolo circoscritto dell’EFT in P1.

2. Poi leggere la Fig. S3, la Fig. S4 e le Tabelle S1a/S1b per capire forza di chiusura, fit congiunto e controlli negativi.

3. Se si teme che la baseline DM sia troppo debole, andare direttamente alla sezione 9 e alla Tabella B1 / Fig. B1.

4. Per una revisione tecnica, tornare al rapporto tecnico P1 v1.1, al Tables & Figures Supplement e al full_fit_runpack.

Principali punti di accesso agli archivi

Rapporto tecnico P1 (livello di rilascio, Concept DOI): 10.5281/zenodo.18526334

Pacchetto completo di riproduzione P1 (Concept DOI): 10.5281/zenodo.18526286

Knowledge base strutturata EFT (opzionale, Concept DOI): 10.5281/zenodo.18853200

Nota di licenza: il rapporto tecnico usa CC BY-NC-ND 4.0; il pacchetto completo di riproduzione usa CC BY 4.0 (fanno fede il rapporto tecnico e gli archivi Zenodo).


15 | Riferimenti e contesto esterno

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.